개념글 모음

l3 70b speculative decoding에 사용할 draft 모델로 쓰고자 소형 모델 하나를 pretrain 했습니다.

40억 토큰 조금 안되는 양의 데이터가 학습되었습니다. 라이센스는 apache-2.0이니 출처 없이 막 가져다 쓰셔도 됩니다.


현재 컨텍스트 8k로 훈련했으며, 확장은 간단하니 필요하신경우에는 해서 쓰시길.
https://huggingface.co/maywell/l3-211m