Tokenizer라는 익스텐션 전에 봤던건데 오늘 써봄


4k랑 4 k랑 둘다 4 k로 토큰화되는데 그러면 과연 4k가 의미 있는 프롬인지 모르겠음.


이거 두개의 토큰값이 다른거는 의미 있을지도?


쉼표를 없애도 단어들은 토큰이 같은게 보임. 

물론 모델 훈련시킬 때 쓰인 태그 형식에 따라서는 의미 있을수도 있다고는 생각함.

그리고 이거는 (:2.0) 같은 가중치 프롬은 인식 못해서 여기서 보이는 것 자체가 의미가 적을 수 있음. 

하지만 4k랑 4 k가 토큰이 같은거는 좀 생각을 해봐야될 문제같음