우선 현재 한국어 데이터셋은 매우 부족한 품질과 양으로 성능 향상에 한계가 있습니다. 

더욱이 GPT4, Gemini등을 통해 생성한 데이터셋은 라이센스 위반으로 상업적 활용 및 경쟁 모델을 만드는데 활용하는 것 자체가 불가능 합니다.
이러한 상황에 기업들은 이러한 라이센스 위반사항에 대해서 인지하지 못하고 있으며, 이 상황이 지속되게 된다면, 향후 오픈소스의 생태계가 무너질 수도 있는 위험이 있습니다.

라이센스 위반등을 통해서 모델이나 기업에 소송 및 법적인 문제점을 제기할 수 있겠지요.
수면위로 많이 드러나지 않았지만, 정말 심각한 문제점입니다. 
많은 연구자 및 개발자들이 이러한 문제점을 심각하게 받아들이고 움직여야합니다.
한 기업에 종속되어버리는 순간, 그 생태계는 서서히 말라 비틀어지게 됩니다.

이러한 문제점을 해결하고, 좋은 퀄리티 데이터들로 좋은 성능의 모델을 만들기 위해서는 라이센스가 프리한 많은 양의 한국어 고품질 데이터셋이 필요합니다. 

DPO, Near-Dedup, RLHF등 성능 향상을 위한 방법론들은, 데이터가 충분히 갖추어진 다음에 고민하고 적용해야할 부분입니다.

그렇기에 이번에 저희 Markr AI에서는 140만개의 한국어 Fine tuning 데이터셋을 모으고 만들어 배포하게 되었습니다.


특히 이번에 Self-Supervised Learning 매너로 다양한 도메인의 코퍼스에서 task를 만들어 모델에 도메인 지식과 한국어에 대한 이해를 향상시킬 수 있는 방법론을 적용하여 개발하였구요.


라이센스는 MIT 라이센스로 누구나 사용할 수 있도록, 배포하게 되었습니다.


더 발전된 한국 LLM생태계가 되기를 바라며 데이터셋 공유 드립니다!


허깅페이스 "MarkrAI/KoCommercial-Dataset"로 올라와져 있으며 링크는 다음과 같습니다.

https://huggingface.co/datasets/MarkrAI/KoCommercial-Dataset?library=true


발전된 한국 생태계가 되기를 바라며 많은 연구자 및 개발자들이 더 많은 고품질 한국어 데이터셋을 구축하여 더 발전하기를 소망하며 글 마무리 합니다.감사합니다!