Tokenizer라는 익스텐션 전에 봤던건데 오늘 써봄
![](http://ac.namu.la/20230329sac/cf534d204a0b5d9116eecb7f85630cf60e2db0785098c4a710b2e7f335cb8c63.png?expires=1719038380&key=Fx2psRKOgN8Y4-YQtq-4pQ)
![](http://ac.namu.la/20230329sac/506deb3ccc8d7ec5dd7eed4958573394324e2d298e46342cd924ab2f9d7452ec.png?expires=1719038380&key=iHgqGgudQ0UH520bx2q0gg)
4k랑 4 k랑 둘다 4 k로 토큰화되는데 그러면 과연 4k가 의미 있는 프롬인지 모르겠음.
이거 두개의 토큰값이 다른거는 의미 있을지도?
쉼표를 없애도 단어들은 토큰이 같은게 보임.
물론 모델 훈련시킬 때 쓰인 태그 형식에 따라서는 의미 있을수도 있다고는 생각함.
그리고 이거는 (:2.0) 같은 가중치 프롬은 인식 못해서 여기서 보이는 것 자체가 의미가 적을 수 있음.
하지만 4k랑 4 k가 토큰이 같은거는 좀 생각을 해봐야될 문제같음