텍스트 마이닝해서 문체식별 후 저자 식별하는 것 - 벽람항로 채널

벽람항로 채널

알림 알림 중 알림 취소

구독자 16144명 알림수신 173명 @Asset

벽람항로 한국서버 유저들의 채널입니다.

텍스트 마이닝해서 문체식별 후 저자 식별하는 것

추천 0 비추천 0 댓글 14 조회수 166 작성일 2023-06-10 21:51:58

https://arca.live/b/azurlane/78399448

새벽에 잠깐 올라왔던거 궁금해서 전공책 잠깐 꺼내서 훑어보고 컴키고 앉아서 검색 조지면서 여러개 찾아봤는데

괜찮아 보이는 알고리즘이나 사용한 예제, 튜토리얼 or 프로그램이 좀 보이긴 함

문제는 공통적으로 들어가는 input data의 양이 많아야하는데

봤던건 소설을 가져다 박거나 한 사람당 기사 20편 이상씩 가져다 박거나 대통령 기준으로 연설문 하나 가져다 박거나 ㅇㅇ...

근데 챈럼들이 챈에 글 싸는거라고 해봐야 장문을 조지는 것도 아니고 존나 짤막 짤막하게 싸재껴서 테스트케이스 축에도 들기가 힘들다고 생각 되더라

내가 싸지르는 것만 해도 제목 한줄, 내용 한줄, 아카콘 하나

이걸 비교하기 위해선 챈에 싸지른 글 엄청 필요하겠다 싶음

텍스트 + 이미지(아카콘)으로 식별하면 더 좋은거 아니냐 싶겠지만 그 말이 맞는 대신 난이도도 올라가고

깃헙에 어떤 강사가 나이브 베이지안 분류기 사용해서 저자 식별하는 튜토리얼 올린거도 봤는데

은, 는, 이, 가 라던지 그, 그녀, 그들 등등 조사나 대명사도 당연하다시피 영어로 되어있다보니 써먹으려면 현지화 거쳐야하고

이렇게 생각하니 외국에서 판매하는 프로그램은 qna나 직접 본인들이 다국어 지원 같은거 안 써놓으면 불가능하다 봐야할거고

직접 만들어 쓰자니 나이브 베이지안 알고리즘 자체는 큰 데이터 셋에 사용하기 좋기 때문에 데이터가 부족한 문제점이 존재한다.

데이터가 부족하면 그만큼 정밀도를 신뢰하기가 어렵기 때문에 ㅇㅇ

마지막으로 외국 무료 프로그램 하나 써봤는데 한국어는 식별 못하는 단어가 95퍼 이상이었음

설치할때 한국어는 없더라 일본어는 있던데 시벌

현 상황으로써는 할매지우개들의 뇌가 처리하는 연산력이 훨씬 편하겠다 싶더라

아님 말고

반박시 님말이 맞음 ㅇㅇ

3줄 요약

1. 진짜 원하는 느낌의 프로그램은 머기업에서나 사용할 듯

2. 그럼 딱지들이 더 힘내는게 나을 듯

3. 내용 반박시 님말이 맞음

ps 글은 딱지가 읽고 삭제해버려도 무방하다

댓글

정실은히나

2023-06-10 21:55:18

그러니까 파딱지원한다고?

펼쳐보기▼

2023-06-10 21:55:28

2023-06-10 21:55:48

Konlpy나 카카오에서 만든 한국어 패키지 같은 거 어떻게 적용하면 안 될라나

펼쳐보기▼

2023-06-10 21:56:19

하면 괜찮아지지 않을까? 생각은 했는데 생각만 했음
복잡해지고 싶지 않아서

펼쳐보기▼

2023-06-10 21:55:53

2023-06-10 21:56:29

2023-06-10 21:57:57

2023-06-10 21:58:58

2023-06-10 22:00:11

*수정됨

너가 완장해서 모은다는 뜻이지?

펼쳐보기▼

2023-06-10 22:00:30

자살할때 니 닉네임 적고 자살함

펼쳐보기▼

2023-06-10 22:05:01

나도 데이터 분석 머신러닝 쪽은 학부때 전공 한 두개 들은게 다라 문외한읾...

펼쳐보기▼

2023-06-10 22:05:28

KCSF

2023-06-10 22:08:04

ai도 그렇고 한국어가 컴퓨터엔 ㅆㅎㅌㅊ 언어라드라

펼쳐보기▼

2023-06-10 22:11:41

ㄹㅇㅋㅋ
이건 프로그래밍 뿐만 아니라 다른 쪽도 그럴건데
자료 찾다가 영어 논문 보면 눈이 핑 돎
한글로 된 논문도 볼 때 이게 한글인데도 이해가 안가는데
영어는 오죽한가 싶음 이럴 때면 내가 양키였으면 얼마나 좋을까 싶더라

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 공식 질문✋ 짤 핫산/창작 정보/공략 청문회 해외정보 대회 운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27586619

공지 벽람항로 채널 공지사항 (24.04.01갱신)

Enterprise 2021.11.09 71078

공지 벽람항로 채널 정보모음

ㅇㅇ 2021.01.13 444844

공지 제로부터 시작하는 마왕 토벌 (24.04.11 업데이트 후~ 24.04.25 점검 전)

Asset 2024.04.11 4482

공지 [뉴저지] 돌아온 뉴저지 대회 개최함 (2024년 2월 4일 수정)

왜살지 2024.01.02 7320

공지 상시 건조 UR함선 획득 짤 게시 관련

Asset 2024.01.31 6285

공지 상시화 / 복각 순서 (빙화 상시 / 크롱 허상 복각 예정)

무지개송편 2022.12.23 58074

공지 벽람항로 채널 대함대목록

Enterprise 2022.11.22 21579

공지 신문고/ 완장목록 및 호출용 게시글

Asset 2023.10.02 5946

숨겨진 공지 펼치기(4개)

2399678 뭐 서인이가 페도인지 아닌진 사소한 문제고 [1]

델리만쥬 2024.04.19 17 0

2399677 일본에서 대박난 150엔 도시락 [5]

ㅇㅇ 2024.04.19 65 0

2399676 도미노 포장 50프로 할인이래 [7]

탱구 2024.04.19 38 0

2399675 벽람이 빈유캐를 내는 이유 알아냄 [2]

뉴비탈출깨청년 2024.04.19 50 0

2399674 알아서 방송 요약 해놔 [1]

HARUKAZE 2024.04.19 16 0

2399673 방송까지 뭐하노 [2]

바른생각 2024.04.19 37 0

2399672 응애졸업 [1]

흑요석뽀시래기 2024.04.19 18 0

2399671 사랑니는 뽑으면 안됨 왜냐하면 사랑니 뽑는 순간 [27]

JYC 2024.04.19 146 -1

2399670 아야나미 스킨 중에 RPG 격투가 스킨 자세히 보니까 [1]

10gag 2024.04.19 51 0

2399669 근데 페도면 어떻고 페도 아니면 어떰 [8]

바른생각 2024.04.19 94 -2

2399668 요즘은 도심에서 멧돼지도 출몰하네 [11]

Yorktown 2024.04.19 102 0

2399667 ㅁㅊ사루박이새끼 [8]

코데코데 2024.04.19 102 4

2399666 카가 VS 벨파 누가 더 육아 고수임? [4]

ㅇㅇ 2024.04.19 74 0

2399665 말랑말랑 나가토 볼따구 [1]

조조_맹덕 2024.04.19 21 0

2399664 사랑니는 근데 공장가는게편하긴함 [3]

ㅇㅇ 2024.04.19 69 0

2399663 벽부이들은 사랑니 언제남 [23]

ㅇㅇ 2024.04.19 93 0

2399662 그러니까 하지도 않은 콜라보로 [4]

바른생각 2024.04.19 87 -2

2399661 아즈렌의 정사이자 세계최고의 애니인 아즈애니에 따르면 [3]

ㅇㅇ 2024.04.19 52 0

2399660 문제의 임서인 인터뷰 영상 [5]

ㅇㅇ 2024.04.19 105 2

2399659 방송 존나멀었네 [1]

ㅇㅇ 2024.04.19 44 0

2399658 체셔 코스프레 [6]

주안 2024.04.19 79 0

2399657 사랑니 발치하고 치골이 잇몸을 뚫고 나왔는데 [18]

김춘복 2024.04.19 111 0

2399656 저어는 강박증이 있어요 [6]

인시생발 2024.04.19 52 0

2399655 덱케가 진짜 이쁘긴하다

조조_맹덕 2024.04.19 27 0

2399654 벽붕이 경찰서가는중 [7]

미쿠맘 2024.04.19 109 1

2399653 힌덴 도면 이정도면 실전투입 가능함?? [12]

ddddd 2024.04.19 87 0

2399652 님이 감옥 관리자인데 이런 죄수 있으면 어떡함? [7]

딥러닝다람쥐 2024.04.19 99 0

2399651 아직도 고민되네 [6]

김춘복 2024.04.19 69 0

2399650 사랑니빼러 왔는데 많이 아프냐 [54]

ㅇㅇ 2024.04.19 184 0

2399649 순한줄 알았던 덴이도 의외로 한 성질했네 [5]

요크타운펀치 2024.04.19 99 0

2399648 메드니도 최근캐릭답게 성능 좀 ㄱㅊ은것같음 [5]

코데코데 2024.04.19 91 0

2399647 오늘 방송까지만 딱 챙겨보고 [15]

노시로 2024.04.19 105 0

2399646 저거 임서인 짤방 원본 인터뷰 영상 보고 왔는데 [14]

델리만쥬 2024.04.19 168 2

2399645 요즘 재밌는 게임 [3]

하무망 2024.04.19 60 0

2399644 대작전에서 제일 힘든거 [16]

요크타운펀치 2024.04.19 101 0

2399643 아퀼라 복각 안해주거나 통상 안풀어주면 겜접음 [10]

쿠쨩 2024.04.19 75 0

2399642 뮤 꼬맹이가지금 르블랑뿐인가 [6]

ㅇㅇ 2024.04.19 102 0

2399641 아 시발 뭔가 이상하다 했어 [7]

Aicille 2024.04.19 126 0

2399640 아퀼라나오고부터 웬만한 방덱 다줘패서 좋앗음 [4]

병신 2024.04.19 64 0

2399639 왔다 [2]

조조_맹덕 2024.04.19 56 0

2399638 이번 장비스킨 이거 나만 이러냐 [5]

아이스펄 2024.04.19 61 0

2399637 유니온함순이들한테짜이다 벨파방으로 도망옴 [3]

Outlook 2024.04.19 47 0

2399636 어차피 너네 기억에 가장 ㅈ같은 연전조합 이거잖아 [18]

청포도볶음면 2024.04.19 145 0

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.