한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스)

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3310명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스)

DopeorNope

추천 82 비추천 2 댓글 19 조회수 2353 작성일 2024-03-12 05:38:53 수정일 2024-03-12 06:18:12

https://arca.live/b/alpaca/101027511

우선 현재 한국어 데이터셋은 매우 부족한 품질과 양으로 성능 향상에 한계가 있습니다.

더욱이 GPT4, Gemini등을 통해 생성한 데이터셋은 라이센스 위반으로 상업적 활용 및 경쟁 모델을 만드는데 활용하는 것 자체가 불가능 합니다.
이러한 상황에 기업들은 이러한 라이센스 위반사항에 대해서 인지하지 못하고 있으며, 이 상황이 지속되게 된다면, 향후 오픈소스의 생태계가 무너질 수도 있는 위험이 있습니다.

라이센스 위반등을 통해서 모델이나 기업에 소송 및 법적인 문제점을 제기할 수 있겠지요.
수면위로 많이 드러나지 않았지만, 정말 심각한 문제점입니다.
많은 연구자 및 개발자들이 이러한 문제점을 심각하게 받아들이고 움직여야합니다.
한 기업에 종속되어버리는 순간, 그 생태계는 서서히 말라 비틀어지게 됩니다.

이러한 문제점을 해결하고, 좋은 퀄리티 데이터들로 좋은 성능의 모델을 만들기 위해서는 라이센스가 프리한 많은 양의 한국어 고품질 데이터셋이 필요합니다.

DPO, Near-Dedup, RLHF등 성능 향상을 위한 방법론들은, 데이터가 충분히 갖추어진 다음에 고민하고 적용해야할 부분입니다.

그렇기에 이번에 저희 Markr AI에서는 140만개의 한국어 Fine tuning 데이터셋을 모으고 만들어 배포하게 되었습니다.

특히 이번에 Self-Supervised Learning 매너로 다양한 도메인의 코퍼스에서 task를 만들어 모델에 도메인 지식과 한국어에 대한 이해를 향상시킬 수 있는 방법론을 적용하여 개발하였구요.

라이센스는 MIT 라이센스로 누구나 사용할 수 있도록, 배포하게 되었습니다.

더 발전된 한국 LLM생태계가 되기를 바라며 데이터셋 공유 드립니다!

허깅페이스 "MarkrAI/KoCommercial-Dataset"로 올라와져 있으며 링크는 다음과 같습니다.

https://huggingface.co/datasets/MarkrAI/KoCommercial-Dataset?library=true

발전된 한국 생태계가 되기를 바라며 많은 연구자 및 개발자들이 더 많은 고품질 한국어 데이터셋을 구축하여 더 발전하기를 소망하며 글 마무리 합니다.감사합니다!

댓글 글쓰기

철권짱

2024-03-12 05:51:52 답글

ㅠㅠ 감동이에요..

펼쳐보기▼

lIlBrother

2024-03-12 06:00:41 답글

감사합니다

펼쳐보기▼

Ikaros

2024-03-12 06:05:55 답글

감동입니다.. 개추한번박고가겠습니다

펼쳐보기▼

kaki

2024-03-12 06:07:32 답글

잘 쓰겠습니다. 감사합니다

펼쳐보기▼

Dikko

2024-03-12 06:10:13 답글

감사합니다!!

펼쳐보기▼

Dikko

2024-03-12 06:11:16 답글

1945Y

2024-03-12 06:13:22 답글

그래요

2024-03-12 06:16:58 답글

bedovyy

2024-03-12 06:18:32 답글

ㅇㅇ (211.207)

2024-03-12 06:34:53 삭제 수정 답글

감동 그 잡채

펼쳐보기▼

12시5분

2024-03-12 06:42:10 답글

어흐흑 감사합니다 센세.....

펼쳐보기▼

2024-03-12 06:58:00 답글

와

펼쳐보기▼

메가트론커피

2024-03-12 07:08:01 답글

와 감사합니다...ㅜㅜ

펼쳐보기▼

맥북에어좋아

2024-03-12 07:45:45 답글

타리아

2024-03-12 08:24:02 답글

hkhk

2024-03-12 09:00:07 답글

감사합니다!

펼쳐보기▼

ㅇㅇ (125.133)

2024-03-12 09:47:06 삭제 수정 답글

감사합니다. 진심으로 한국의 발전을 걱정하는게 느껴집니다. 영웅이십니다.

펼쳐보기▼

ㅇㅇ (221.155)

2024-03-12 13:09:17 삭제 수정 답글

고맙습니다!

펼쳐보기▼

ㅇㅇ (220.118)

2024-03-18 23:38:34 삭제 수정 답글

정말 감사합니다!!

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27967220

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5741

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25955

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8394

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2438 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5560 80

2437 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2354 80

2436 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4957 70

2435 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7363 67

2434 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2433 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2432 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1834 57

2431 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2492 53

2430 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2970 50

2429 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2108 50

2428 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6168 43

2427 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1970 41

2426 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1329 40

2425 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2424 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1542 36

2423 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2422 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1464 35

2421 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2420 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2419 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2425 33

글쓰기

전체글 개념글