초소형 언어모델 만드는 데이타셋 tinystories 를 한글로 번역한 데이타셋이 허깅페이스에 올라옴

https://huggingface.co/datasets/g0ster/TinyStories-Korean


이거에다 karpathy 의 llama2.c 이용해서 한국어 pretrained model 만들어볼 수 있을 듯?

https://github.com/karpathy/llama2.c