새벽에 잠깐 올라왔던거 궁금해서 전공책 잠깐 꺼내서 훑어보고 컴키고 앉아서 검색 조지면서 여러개 찾아봤는데

괜찮아 보이는 알고리즘이나 사용한 예제, 튜토리얼 or 프로그램이 좀 보이긴 함


문제는 공통적으로 들어가는 input data의 양이 많아야하는데

봤던건 소설을 가져다 박거나 한 사람당 기사 20편 이상씩 가져다 박거나 대통령 기준으로 연설문 하나 가져다 박거나 ㅇㅇ...

근데 챈럼들이 챈에 글 싸는거라고 해봐야 장문을 조지는 것도 아니고 존나 짤막 짤막하게 싸재껴서 테스트케이스 축에도 들기가 힘들다고 생각 되더라


내가 싸지르는 것만 해도 제목 한줄, 내용 한줄, 아카콘 하나

이걸 비교하기 위해선 챈에 싸지른 글 엄청 필요하겠다 싶음

텍스트 + 이미지(아카콘)으로 식별하면 더 좋은거 아니냐 싶겠지만 그 말이 맞는 대신 난이도도 올라가고


깃헙에 어떤 강사가 나이브 베이지안 분류기 사용해서 저자 식별하는 튜토리얼 올린거도 봤는데

은, 는, 이, 가 라던지 그, 그녀, 그들 등등 조사나 대명사도 당연하다시피 영어로 되어있다보니 써먹으려면 현지화 거쳐야하고

이렇게 생각하니 외국에서 판매하는 프로그램은 qna나 직접 본인들이 다국어 지원 같은거 안 써놓으면 불가능하다 봐야할거고

직접 만들어 쓰자니 나이브 베이지안 알고리즘 자체는 큰 데이터 셋에 사용하기 좋기 때문에 데이터가 부족한 문제점이 존재한다.

데이터가 부족하면 그만큼 정밀도를 신뢰하기가 어렵기 때문에 ㅇㅇ


마지막으로 외국 무료 프로그램 하나 써봤는데 한국어는 식별 못하는 단어가 95퍼 이상이었음

설치할때 한국어는 없더라 일본어는 있던데 시벌



현 상황으로써는 할매지우개들의 뇌가 처리하는 연산력이 훨씬 편하겠다 싶더라

아님 말고

반박시 님말이 맞음 ㅇㅇ


3줄 요약

1. 진짜 원하는 느낌의 프로그램은 머기업에서나 사용할 듯

2. 그럼 딱지들이 더 힘내는게 나을 듯

3. 내용 반박시 님말이 맞음


ps 글은 딱지가 읽고 삭제해버려도 무방하다