KoCommercial-Dataset 재공개 및 코드 공유 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3311명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

일반 KoCommercial-Dataset 재공개 및 코드 공유

추천 40 비추천 0 댓글 7 조회수 1329 작성일 2024-03-21 12:56:47 수정일 2024-03-21 19:42:48

https://arca.live/b/alpaca/101757717

안녕하세요?

기존에 저희가 공개하였던 "MarkrAI/KoCommercial-Dataset" 의 저작권 문제로 초기에 혼선이 생겨, NIA와 협의 후에 데이터셋을 다시 공개하게 되었습니다.

우선 저희는 필터링 과정과 자체 로컬 모델을 통해서 필터링 하는 과정을 거쳤습니다.

파이프라인은 기존의 페이스북의 SAM과 비슷한 방식으로 진행하였으나, NIA측에서도 저작원이 제작업체에 있기 때문에 보수적이라 공개를 자제해달라고 요청 받았습니다.

이에 저희는 너무 아쉬운 마음이 들지만, 기존의 SSL 방법론으로 생성한 데이터를 삭제하기로 결정했습니다.

하지만, 저희가 기존에 텍스트 마이닝으로 생성한 데이터 생성 기법을 코드로 그대로 공유드리기로 결심하고 아래의 깃허브 레포에 이렇게 공개하게 되었습니다.

https://github.com/DopeorNope-Lee/Ko-Fine-tuning_DataGen

데이터를 저장하고 모으는 시간이 더 들긴 하지만, 그래도 저희가 할 수 있는 최선을 다해서 한국의 LLM 생태계 발전에 작은 공헌을 해보고자 합니다.

혼선을 드려 죄송합니다.

댓글 글쓰기

hkhk

2024-03-21 15:37:01 답글

깃헙 표지 그림이 참 70년대 공단 느낌이 ㅋㅋ

펼쳐보기▼

2024-03-21 15:43:24 답글

우리는 데이터의 노예니까요…

펼쳐보기▼

ㅇㅇ (125.133)

2024-03-21 18:40:02 삭제 수정 답글

MarkrAI 의 노력에 박수를 보냅니다.
현재는 인공지능 혁명기이자 춘추전국 시대에 빚대어도 부족함이 없습니다.
그리고 이런 시대일 수록 영웅들이 난세에 태동하죠.
과거 컴퓨터 초창기 시대에도 한국에서 한글이라는 문제를 해결하고자 영웅들이 나타났었던 것과 비슷한거 같습니다. (당시에는 한글과 컴퓨터에서 도스용 한글인식 ISA 카드까지 만들어서 팔던 시절)
인공지능 시대가 열렸지만 여전히 과거 그때처럼 한글이라는 부분은 늘 문제이자 영웅이 탄생하기 좋은 주제입죠.
이 난세에 많은 활약 부탁드립니다.
진심으로 자료공유 감사합니다.

펼쳐보기▼

2024-03-21 19:47:37 답글

이렇게 극찬 해주셔서 많이 부끄럽습니다. 
제가 처음 이 분야 연구를 많이 하면서, 많은 개발자들과 연구자들에게 많은 도움을 받았습니다. 

성과도 있고, 그게 정말 대단하듯이 받아들였는데 너무 작은 성과같이 느껴지고 좀 더 발전된 방향으로 모두가 향해가고 더 큰 목표를 가지고 움직이고자 합니다. 

감사합니다!

펼쳐보기▼

kaki

2024-03-21 23:53:46 답글

그러면 지금 남아 있는 데이터셋들은 어떤 데이터셋들인지 알 수 있을까요?

펼쳐보기▼

2024-03-22 03:46:39 답글

네 SSL을 제외한 데이터 다 남아 있는 상황입니다!

펼쳐보기▼

2024-03-24 16:30:53 답글

너무ㅜ아쉽네요 공들여 만드신건데 ㅜ

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27974919

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5746

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25969

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8397

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 4773

공지 신문고

바바리맨 2023.04.18 2063

숨겨진 공지 펼치기(1개)

2440 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5563 80

2439 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2354 80

2438 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4958 70

2437 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7364 67

2436 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2435 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2434 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1835 57

2433 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2494 53

2432 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2980 50

2431 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2109 50

2430 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6169 43

2429 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1971 41

2428 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1330 40

2427 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2426 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1543 36

2425 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2424 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1465 35

2423 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2422 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2421 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2428 33

전체글 개념글