지난주 부터 돌렸던 데이터셋 생성 프로젝트를 중단하게 되어 글 남깁니다.

많은 분들의 참여로 4.3백만개 가량의 데이터셋이 생성되었습니다.

이만하면 충분하다는 판단 아래 서버를 내렸습니다.


데이터셋 자체로는 내용 자체는 훌륭하나 트레이닝에 바로 써먹을 수 있는 포맷은 아니기에, 대규모로 인퍼런스 돌릴 여건이 된다면 정제 후 업로드 해볼려합니다.


참여해주신 모든 분들께 감사의 말씀 드립니다.


https://huggingface.co/datasets/maywell/korean_textbooks