[번역] 오픈소스 모델이 나아갈 길은 양질의 데이터 세트를 정제하는 것이다

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3307명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

스터디 [번역] 오픈소스 모델이 나아갈 길은 양질의 데이터 세트를 정제하는 것이다

hkhk

추천 29 비추천 0 댓글 15 조회수 1845 작성일 2023-12-15 08:57:09 수정일 2023-12-15 09:00:30

https://arca.live/b/alpaca/94106328

레딧 댓글에서 굴러다니던 문서중 하나 재밌는거 발견해서 번역해서 소개합니다. 누가 작성한건지는 모르겠네요. 아마 해외 언어모델 개발하는 디스코드 방에서 만들어진 것으로 추정됩니다.

제가 평소에 생각하던 주제와 거의 결이 같은것 같고 정보의 가치가 높은것 같아서 번역해서 소개합니다.

기본적으로 DeepL 로 번역한 다음에 제가 알고 있는 정보를 바탕으로 과감하게 의역해서 쓴 부분이라 원문과 약간 다를 수도 있습니다.

------------------------------------------------------------

데이터 품질은 오픈 소스 AI 커뮤니티가 모델 성능에 대한 개선의 실마리를 찾을 수 있는 분야입니다.

파운데이션 모델의 학습은 비용이 많이 들고 화려하지만, 그 이득은 일시적입니다. 최첨단 모델의 수명은 길어야 몇 달에 불과합니다.

- 그에 비해 데이터 세트는 수년(예: The Pile 같은 데이터 세트) 또는 그 이상의 의미있는 산출물을 제공하여 오랫동안 영향을 끼칩니다.

- 파운데이션 모델 학습은 분산처리하기 어렵지만 데이터 세트의 정제는 아주 쉽게 일감을 나눌 수 있습니다. 말 그대로 함께 하면 됩니다.

- 데이터 세트의 정제라는 분야는 아직 초기 단계입니다. 앞으로 데이터 변환이 더욱 보편화됨에 따라 '필터링된 데이터'와 '합성 데이터' 사이의 경계가 매우 모호해질 것으로 전망됩니다.

- 최상위 데이터 세트가 공개되면 선구자급 모델의 학습이 좀 더 원활해질 것입니다. 지금까지는 극소수의 전문가들만 미스트랄급의 모델을 학습하고 엄청난 투자를 끌어들일 수 있었지만, 최상급 데이타셋이 퍼지게 되면 이후에는 어느정도 자금만 있으면 파운데이션 모델을 만드는 문턱이 낮아질 것입니다.

- 모델 개발의 문턱이 낮아지고 나면 일반 소비자급 장비로 언어모델 개발에 참여하는 GPU 거지들의 연구에 더 많은 자금이 유입될 것으로 기대할 수 있을 것이며

- 프론티어 모델을 더 쉽게 훈련할수록 오픈 소스 AI 분야의 경쟁은 더욱 치열해질 것입니다.

- AGI에 도달하는 가장 그럴듯한 경로에는 데이터 세트 정제가 필수적일 것입니다.

tl;dr “it’s the data”

한마디로 데이타가 핵심입니다.

여기까지 도달한 과정 - LLM 데이터 구성의 간략한 역사 - 를 되짚어봅시다.

고품질의 텍스트를 선택하기 위한 다양한 방법이 시도되어 왔습니다.

- 최초의 현대적 LLM인 <15>Jeremy Howard의 ULMFit은 Wikipedia 텍스트 데이타에서 훈련되었습니다.

- GPT는 서적모음 말뭉치로 훈련되었습니다.

- GPT-2는 Reddit에 링크된 웹사이트의 크롤링인 "OpenWebText"로 훈련되었습니다.

- GPT-3은 데이터 세트 범위를 CommonCrawl에서 웹 텍스트로 확장했습니다.

- 데이터의 양과 다양성 요구 사항이 증가함에 따라 선택지는 감소하는 추세를 보였습니다.

GPT-3의 데뷔 이후, 비영리단체 EleutherAI는 Discord에서 결성되어 The Pile 이라는 기념비적인 데이터 세트를 구축했습니다. The Pile은 웹 텍스트뿐만 아니라 고품질 텍스트 말뭉치 모음입니다. 수년 동안 오픈 소스의 최신 기술이자 표준을 제시해 왔을 뿐 아니라 학계, 기업, 애호가들의 많은 관심을 받아왔습니다.

언어 모델 학습을 위해 더 파일(및 그 유사 제품)을 최적화하려는 최근의 노력[TODO: MiniPile 및 Slim-DC 논문 링크, DoReMi 확인]은 웹 텍스트가 많을수록 모델이 더 똑똑해진다는 동일한 결론에 도달했습니다. 이는 다소 직관적이지 않은 결과입니다. 웹 텍스트의 평균 품질 수준은 엄선된 고품질 텍스트 말뭉치에 비해 낮지 않을까요? 그 답은 다양성입니다. 웹 텍스트는 단점에도 불구하고 상상할 수 있는 거의 모든 언어 사용법을 가지고 있습니다.

작년 5월, OpenAI의 Andrej Karpathy는 트위터를 통해 좋은 데이터 세트와 강력한 모델을 위한 충분한 조건으로 '규모, 정제수준, 다양성'을 꼽았습니다.

CommonCrawl은 그 특성상 데이터의 다양성과 크기를 충분히 확보할 수 있습니다. together.ai가 CommonCrawl의 약 절반을 추출하고 중복을 제거했을 때, 중복 제거와 1차 필터링 후 20T의 영어 토큰이 남았습니다. 참고로, 이는 라마 2 제품군을 학습하는 데 사용된 데이터보다 훨씬 많은 양입니다. 이 다음으로는"데이터 다양성에 손해를 주지 않으면서 고품질 텍스트를 가장 잘 필터링하는 방법은 무엇일까?"라는 질문이 제기됩니다.

언어 모델링 문헌의 초기 웹 텍스트 품질 필터링 결과는 "중복 및 노이즈가 많은 텍스트를 필터링하는 것이 어느 정도 도움이 된다"로 요약할 수 있습니다. 필터링이 많을수록 약간 더 나은 것으로 나타났는데, 예를 들어 RefinedWeb 논문에서는 자사의 텍스트 품질 필터링 체계가 Google C4의 필터링 체계와 결합되었을 때 손실 곡선이 매우 약간 더 좋아졌다고 언급했습니다. Meta와 Google은 라인 단위로 중복을 제거하는 수준에는 도달했습니다. 이 작업을 통해 몇 가지 유용한 교훈을 발견했지만(예: 메타는 언어 식별에 앞서 줄 기반 중복 제거가 선행되어야 한다는 사실을 발견함), 이는 흥미로운 발견은 아니었습니다.

데이터 세트 품질의 중요성은 <10>신경 스케일링 법칙을 넘어서에서 충분히 정확한 데이터 가지치기 지표에 따라 유익한 데이터를 우선적으로 샘플링하면 트랜스포머의 스케일링 법칙을 놀라울 정도로 개선할 수 있다는 것을 보여줬습니다.

잠시 시간을 내어 이 차트를 살펴보세요. 특히 이 두 차트를 주목하세요:

데이터의 90%는 모델의 성능에 적극적으로 해롭습니다! 즉, 훈련은 쓸모없는 수준을 넘어 아예 언어모델에 뇌 손상을 유발합니다. 반복해서 설명하지만, 묘사된 모델은 훈련 세트에서 가장 정보의 가치가 적은 약 90%를 빼버리지 않는 한 최고 성능에 도달하지 못합니다.

이는 매우 흥미로운 결과이지만, 이 논문은 이미지 모델에 관한 것이어서 모든 사람에게 그 결과가 그대로 적용될 수 있는 것은 아닙니다. 저자들의 데이터 정리 이론에서 한 가지 '걸림돌'은 데이터 정리 메트릭의 유용성이 정확성에 의해 제한된다는 것입니다. 과연 데이터 정리 이론이 예측하는 성능 향상 기준을 충족하는 데이터 정리 메트릭을 찾을 수 있을까요?

이러한 궁금증과 기다림은 Phi-1 논문인 "Textbooks are All You Need"로 결론이 났습니다. 이 논문에서 Microsoft는 간단한 데이터 가지치기 메트릭과 약간의 합성 데이터를 사용하여 가장 가까운 비교 대상인 StarCoder보다 약 11배 더 작고 훈련 비용이 약 200배 더 저렴한 코딩용 언어 모델을 만들었습니다.

미스트랄은 최근 <10> 메모와 핵심 전제인 '프론티어 모델을 효율적으로 훈련하는 방법을 아는 사람은 거의 없다'를 통해 1억 달러 이상의 자금을 조달했습니다. 메모에서 발췌한 부분을 소개하자면:

https://drive.google.com/file/d/1gquqRqiT-2Be85p_5w0izGQGgHvVzncQ/view

"<18>우리는 떠오르는 제너레이티브 AI 시장에서 대부분의 가치가 제작하기 어려운 기술, 즉

만들기 어려운 기술, 즉 생성 모델 자체에 [...] 두 번째로 중요한 장벽은 <21>숙련된 팀을 구성하는 것이 어렵다는 것입니다.

...] 모든 주요 행위자들은 현재 미국에 기반을 두고 있습니다 [...] 이것은 주요 지정 학적 문제입니다.".

이것은 당시에는 충분히 사실로 보였습니다. 결국, 대부분의 댓글 작성자들은 <32>(나중에 Microsoft가 확인한) ChatGPT-3.5-Turbo가 20B 매개변수라는 루머에 대해 많은 사람들이 믿지 않았던 것처럼, 출시 당시 미스트랄-7B의 위력에 놀라움을 금치 못했습니다.

(와우, 이 Reddit 댓글 작성자도 7월에 데이터 정리를 언급했습니다. 그분도 트위터가 있나요?)

하지만 미스트랄이 순식간에 유니콘 기업 가치를 끌어올린 핵심 주장은 오늘날에는 더 이상 사실이 아닙니다:

- 과거에는 비밀에 싸여 있던 선구자급 언어 모델 훈련의 비밀이 점점 더 널리 알려지고 있습니다.

- 중국의 연구소들이 오픈 언어 모델에서의 선구자적 입자를 차지하고있습니다.

오픈 소스 데이터의 영웅이자 임베디드 모델 트레이너의 챔피언인 trytailor.ai의 창립자이자 GalacticAI의 창시자인 Ben Anderson은 미스트랄의 가격 인상 뒤에 숨어 있는 비밀스러운 하위 텍스트와 3.5 터보의 소문난 효율성에 대한 설명을 최초로 공개적으로 설명한 사람 중 한 명입니다:

"효율적인 모델을 훈련하는 방법을 아는 사람은 거의 없다"는 말은 "유익한 데이터 집합을 추출하는 방법을 아는 사람은 거의 없다"는 뜻이었습니다.

두 달 후, 이 핵심 인사이트는 Elon의 트윗 한 줄로 인해 상식적인 지식으로 급부상했습니다:

...이전에는 잘 알려지지 않았던 OpenAI 엔지니어 제임스 베커의 블로그 게시물이 주목을 받았습니다:

중국의 연구소들도 이미 주목하고 있었습니다: 알리바바는 데이터 증류 프레임워크와 관련 논문인 데이터 착즙기를 발표했는데, 이 논문은 아마도 Qwen 모델 제품군의 기반이 되는 데이터를 제공한 것으로 추정됩니다.

https://github.com/alibaba/data-juicer

또한 가장 강력한 오픈 웨이트 대규모 언어 모델 중에는 DeepSeek-67B가 있습니다. 이 모델은 이전에 알려지지 않았던 중국 팀에서 개발했습니다.

미스트랄과 마찬가지로 아키텍처는 라마 2입니다. <10>학습 속도 일정이 약간 이상해 보입니다 - 모호한 이유로 나쁘거나 좋은 것 같습니다. 훈련 예산은 라마 2 70B보다 약간 적었습니다. 그리고 이 모델은 이중 언어를 지원하기 때문에 트레이닝에 사용된 토큰 중 영어로 된 토큰이 더 적었습니다. 그리고 이 모델은 점점 더 GPU 기술 제재 조치의 압박을 받고 있는 중국의 팀에서 개발되었습니다. 그럼에도 불구하고 DeepSeek-67B는 영어 측정 기준으로도 이전 오픈 웨이트의 선도적인 기본 모델인 Llama 2 70B를 능가합니다. 정말 대단하죠!

어떻게 한 걸까요? 더 나은 데이터 정제에 답이 있습니다.

https://www.high-flyer.cn/en/blog/cc_cleaner/

놀랍게도 중국의 연구소인 DeepSeek와 Alibaba Cloud는 서구의 주요 연구소들보다 훨씬 더 큰 규모로 공개환경에서 언어모델을 개발하고 있습니다.

일단 여기까지 1부 번역.

관심있는 분이 많이 있으면 뒷부분도 번역하겠습니다.

댓글 글쓰기

버트가조아

2023-12-15 09:00:24 답글

감사합니다! 혹시 원본 레딧 댓글 링크도 공유해주실 수 있으실까요?

펼쳐보기▼

hkhk

2023-12-15 09:01:27 답글

제 구글드라이브로 사본저장해놓은거라 원문 레딧은 찾아봐야겠네요. 댓글들중에 있던거라 저도 금방은 ..

펼쳐보기▼

하늘의아리아

2023-12-15 09:00:26 답글

1945Y

2023-12-15 09:01:24 답글

>> GPU 거지들의 연구에
ㅋㅋ

펼쳐보기▼

ㅇㅇ

2023-12-15 09:50:02 답글

비영리 오픈소스 고품질 학습용 데이터 모음집

데이터 위키피디아각이다

펼쳐보기▼

calisolo

2023-12-15 10:39:19 답글

모델을 정제할수있다면 폼나겠지만 현실적으로는 데이터를.. 

근데 이제 데이터도 점점 공개하지 않는 상황이 온것같아요

펼쳐보기▼

hkhk

2023-12-15 13:16:37 답글

예전부터 공개하던 팀들은 꾸준히 공개하고 있던 판에 공개 안하는 세력들이 들어오면서 판이 커지면서 상대적으로 안하는걸로 보이는 듯함. 중국 따거들이 공개를 잘 해주고 계시니 감사드려야 할판

펼쳐보기▼

zzzzz5

2023-12-15 11:00:05 답글

데이터 = 돈

펼쳐보기▼

퉭

2023-12-15 14:15:28 답글

ㄹㅇㅋㅋ

펼쳐보기▼

hkhk

2023-12-15 17:46:19 답글

laion 에서 phi2의 오픈 데이터셋 만드는 프로젝트 시작했네요. 예전에 chatgpt가 나온 이후에도 OpenAssistant 프로젝트를 시작해서 오픈소스 rlhf 데이터셋의 대중화에 결정적인 기여를 했던걸 생각하면 이번의 행보에도 큰 의미가 있을것 같습니다.

펼쳐보기▼

여린늅이

2023-12-21 03:32:24 답글

음식으로 따지자면 잡곡밥보단 백미 쌀밥이 소화 잘되는 것처럼 정제를 잘하면 좋은 거라는 뜻 같은데 맞을까?

펼쳐보기▼

hkhk

2023-12-21 03:37:31 답글

공부를 할 때, 지능 수준에 맞춰서 적절한 분량의 개념 설명 텍스트 + 문제집으로 단계별 학습하는게 지금까지 가장 좋은 효율을 보여줬음. (textbooks are all you need) phi-2 의 용량대비 지능으로 입증된 바임. 

오픈소스 연구하는 사람들은 돈이 부족하니 최대한 가성비 좋은 모델을 만들 수 있어야 하는데 그러려면
 - 데이타 양이 작아야 한다
 - 학습 소요시간이 작아야 한다

그게 되려면
 - 중복 데이타가 없어야 한다
 - 쓰레기 데이타가 없어야 한다
 - 데이타가 간단한 패턴, 어휘부터 복잡한 패턴과 어휘로 점진적 학습이 되어야 바람직하다

라는 조건이 있다는 것임

기존의 큰 데이타는 이미 존재하니까, 그걸 잘 정제해서 위의 작업이 잘 된 컴팩트한 데이타셋이 있으면 모든 연구자들이 두루두루 쓰기 좋을 것이고 그럼 오픈소스 언어모델이 더 빨리 발전해서 gpt4 의 능력을 따라갈 수 있을 것 같다는 것

펼쳐보기▼

여린늅이

2023-12-21 03:41:23 답글

여린늅이

2023-12-21 03:45:22 답글

정보를 할머니가 밥해주는 스타일로 주면 안된다는 거였구나. 이거먹고 저거먹고 그러면 체하고 아직 처음 데이터를 접하는 거니까 죽같이 부드러운거 먹이고 반찬 대충 똑같은거 주지말고 탄거 주지 말고 완전 사람같아

펼쳐보기▼

레바

2024-02-29 17:52:18 답글

혹시 원본 파일 받아볼 수 있을까요??

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27951774

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5732

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25926

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8373

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

일반 로컬에서 인공지능하고 대화하다가 자꾸 다운되어버리는데.. 미치겠네요 [4]

zzninn 2023.12.17 439 0

자작모델 10.7B*4 MoE 모델 PiVoT-MoE 공개 및 PiVoT-10.7B-Mistral-v0.2 공개 [26]

maywell 2023.12.16 1728 18

일반 현재 난리난 리더보드 [4]

maywell 2023.12.16 1378 4

일반 대병합시대 [2]

zzzzz5 2023.12.16 784 7

질문 tokenizer pretain은 어떻게 진행하는지 알 수 있을까요? [2]

pyross 2023.12.16 304 0

일반 믹스트랄을 멀티모델처럼 쓸 수 있는 lora adapter [3]

사과는맛있어맛있으면바나나 2023.12.16 648 7

일반 챗봇 아레나 근황 [16]

사과는맛있어맛있으면바나나 2023.12.16 1491 12

질문 SFT된 모델에 DPO 학습으로 나온 adapter를 merge하여 최종모델을 만드는게 맞을까요? [7]

ㅇㅇ (119.70) 2023.12.16 566 1

질문 llama 7b를 다운받았는데 text-generation-webui에서 어떻게 로딩하나요? [8]

ㅇㅇ 2023.12.15 553 0

일반 메테오레이크에 NPU가 탑재됐네요 [2]

노랑노랑 2023.12.15 499 4

스터디 [번역] 오픈소스 모델이 나아갈 길은 양질의 데이터 세트를 정제하는 것이다 [15]

hkhk 2023.12.15 1846 29

일반 구글에서 FunSearch라는걸 발표했는데 신기하네요 [1]

그래요 2023.12.15 706 0

일반 현재 OpenLLM 치팅 관련 상황 [3]

버트가조아 2023.12.15 1091 5

일반 아 근데 리더보드70B….

DopeorNope 2023.12.14 551 0

일반 openai에서 뭔가 공개했네요? [4]

serina 2023.12.14 974 2

질문 영어 임베딩 벡터는 뭐로 하시나요들? openAI 제외하고...

감별사 2023.12.14 333 0

일반 믹스트랄 돌핀 2.5 파인튠 나옴 트라이~~ [2]

zzzzz5 2023.12.14 807 8

일반 lm-evaluation-harness polyglot branch의 boolq, copa, hellaswag, sentineg 간단정리 [1]

lIlBrother 2023.12.14 395 8

질문 alpaca-lora 코드에서 질문 있습니다.

존코더 2023.12.14 242 0

질문 pretraining은 보통 어떤 코드를 사용하시나요? [16]

pyross 2023.12.14 622 0

글쓰기

전체글 개념글