안녕하세요?


기존에 저희가 공개하였던 "MarkrAI/KoCommercial-Dataset" 의 저작권 문제로 초기에 혼선이 생겨, NIA와 협의 후에 데이터셋을 다시 공개하게 되었습니다.



우선 저희는 필터링 과정과 자체 로컬 모델을 통해서 필터링 하는 과정을 거쳤습니다.


파이프라인은 기존의 페이스북의 SAM과 비슷한 방식으로 진행하였으나, NIA측에서도 저작원이 제작업체에 있기 때문에 보수적이라 공개를 자제해달라고 요청 받았습니다.


이에 저희는 너무 아쉬운 마음이 들지만, 기존의 SSL 방법론으로 생성한 데이터를 삭제하기로 결정했습니다.


하지만, 저희가 기존에 텍스트 마이닝으로 생성한 데이터 생성 기법을 코드로 그대로 공유드리기로 결심하고 아래의 깃허브 레포에 이렇게 공개하게 되었습니다.


https://github.com/DopeorNope-Lee/Ko-Fine-tuning_DataGen



데이터를 저장하고 모으는 시간이 더 들긴 하지만, 그래도 저희가 할 수 있는 최선을 다해서 한국의 LLM 생태계 발전에 작은 공헌을 해보고자 합니다.


혼선을 드려 죄송합니다.