먼저 결론: 일본어는 띄어쓰기 없어서 한국어보다 토큰 덜 먹음, 한자를 쓰기 때문에 동음이의어에 의한 문맥 혼동이 없음


예를 들면, 

한국어로 "나는 공원에 산책하러 간다."를 번역하면

일본어로 "私は公園に散歩しに行く。"

이렇게 띄어쓰기가 아예 없다는 것을 알 수 있음.


개인적으론 띄어쓰기가 없는 일본어가 가끔 병신같다고 생각은 했었음. 왜냐면 띄어쓰기가 없으면 가독성이 좆박기 때문임. 일본어는 그걸 구분하기 위해서 3가지의 문자. 히라가나, 가타카나, 한자 등으로 구분함. 


아까 "私は公園に散歩しに行く。"의 한자를 전부 히라가나로 바꾸면, "わたしはこうえんにさんぽしにいく。"가 되는데, 가독성이 더럽게 없다는 것을 알 수 있음. 한국어로 "나는공원에산책하러간다." 랑 동급의 가독성이거나 그 이하임. 왜냐면 일본어는 발음 할 수 있는 숫자가 한국보다 훨씬 적음. 置換(치환), 痴漢(치한)이 일본어로 "ちかん(치칸)"으로 동일함. 한자로 표기 안하면 한국어보다 동음이의어 문제가 더 두드러짐. 


근데 역으로 생각하면 한자로 표현하면 동음이의어로 문맥을 혼동하는 경우는 없어진다는 소리지. 이게 한국어가 텍스트로 표현하는 AI대화에 불리한 요소로 작용함. 왜냐면 한국은 이제 한자문화권이라고 자칭하기에 부끄러울 정도로 한자를 안 쓰거든. 한자어의 음을 한글로 표기할 뿐이지. 한자 자체를 표기하진 않기 때문임. 이런 동음이의어 문제 때문에 인공지능이 인식에 혼동이 오기 쉽다는 거지.


다시 돌아와서, 띄어쓰기가 없다는 것 만으로 토큰을 덜 먹는다는 소리임. 예를 들어 한국어로 "라고 (말)한다", "것이 가능하다"가 일본어로 "という", "ことができる"로 1토큰으로 정의가 가능하기 때문에 토큰 절약이 가능함, 기본적으로 전각, 반각 스페이스로 표현하는 띄어쓰기는 그 자체만으로 1토큰을 먹기 때문임. 한국어도 묶어서 1토큰 처리할 수는 있지만 아예 띄어쓰기가 없는 일본어보다 토큰을 더 먹을 수 밖에 없는 건 필연임. 


그런 특수성 때문에 일본어는 한국어 같은 교착어인데도 토큰을 적게 먹음. 그리고 한자를 쓰기 때문에 한국어처럼 동음이의어로 문맥이 혼동되는 경우도 없음(텍스트가 아닌 음성이라면 일본이 더 불리).