레딧 댓글에서 굴러다니던 문서중 하나 재밌는거 발견해서 번역해서 소개합니다. 누가 작성한건지는 모르겠네요. 아마 해외 언어모델 개발하는 디스코드 방에서 만들어진 것으로 추정됩니다.


제가 평소에 생각하던 주제와 거의 결이 같은것 같고 정보의 가치가 높은것 같아서 번역해서 소개합니다. 

기본적으로 DeepL 로 번역한 다음에 제가 알고 있는 정보를 바탕으로 과감하게 의역해서 쓴 부분이라 원문과 약간 다를 수도 있습니다.


------------------------------------------------------------


데이터 품질은 오픈 소스 AI 커뮤니티가 모델 성능에 대한 개선의 실마리를 찾을 수 있는 분야입니다.




파운데이션 모델의 학습은 비용이 많이 들고 화려하지만, 그 이득은 일시적입니다. 최첨단 모델의 수명은 길어야 몇 달에 불과합니다.

- 그에 비해 데이터 세트는 수년(예: The Pile 같은 데이터 세트) 또는 그 이상의 의미있는 산출물을 제공하여 오랫동안 영향을 끼칩니다.

- 파운데이션 모델 학습은 분산처리하기 어렵지만 데이터 세트의 정제는 아주 쉽게 일감을 나눌 수 있습니다. 말 그대로 함께 하면 됩니다.

- 데이터 세트의 정제라는 분야는 아직 초기 단계입니다. 앞으로 데이터 변환이 더욱 보편화됨에 따라 '필터링된 데이터'와 '합성 데이터' 사이의 경계가 매우 모호해질 것으로 전망됩니다.

- 최상위 데이터 세트가 공개되면 선구자급 모델의 학습이 좀 더 원활해질 것입니다. 지금까지는 극소수의 전문가들만 미스트랄급의 모델을 학습하고 엄청난 투자를 끌어들일 수 있었지만, 최상급 데이타셋이 퍼지게 되면 이후에는 어느정도 자금만 있으면 파운데이션 모델을 만드는 문턱이 낮아질 것입니다.

- 모델 개발의 문턱이 낮아지고 나면 일반 소비자급 장비로 언어모델 개발에 참여하는 GPU 거지들의 연구에 더 많은 자금이 유입될 것으로 기대할 수 있을 것이며

- 프론티어 모델을 더 쉽게 훈련할수록 오픈 소스 AI 분야의 경쟁은 더욱 치열해질 것입니다.

- AGI에 도달하는 가장 그럴듯한 경로에는 데이터 세트 정제가 필수적일 것입니다.



tl;dr “it’s the data”


한마디로 데이타가 핵심입니다.



여기까지 도달한 과정 - LLM 데이터 구성의 간략한 역사 - 를 되짚어봅시다.


고품질의 텍스트를 선택하기 위한 다양한 방법이 시도되어 왔습니다. 

 - 최초의 현대적 LLM인 <15>Jeremy Howard의 ULMFit은 Wikipedia 텍스트 데이타에서 훈련되었습니다. 

 - GPT는 서적모음 말뭉치로 훈련되었습니다. 

 - GPT-2는 Reddit에 링크된 웹사이트의 크롤링인 "OpenWebText"로 훈련되었습니다. 

 - GPT-3은 데이터 세트 범위를 CommonCrawl에서 웹 텍스트로 확장했습니다. 

 - 데이터의 양과 다양성 요구 사항이 증가함에 따라 선택지는 감소하는 추세를 보였습니다.



GPT-3의 데뷔 이후, 비영리단체 EleutherAI는 Discord에서 결성되어 The Pile 이라는 기념비적인 데이터 세트를 구축했습니다. The Pile은 웹 텍스트뿐만 아니라 고품질 텍스트 말뭉치 모음입니다. 수년 동안 오픈 소스의 최신 기술이자 표준을 제시해 왔을 뿐 아니라 학계, 기업, 애호가들의 많은 관심을 받아왔습니다.


언어 모델 학습을 위해 더 파일(및 그 유사 제품)을 최적화하려는 최근의 노력[TODO: MiniPile 및 Slim-DC 논문 링크, DoReMi 확인]은 웹 텍스트가 많을수록 모델이 더 똑똑해진다는 동일한 결론에 도달했습니다. 이는 다소 직관적이지 않은 결과입니다. 웹 텍스트의 평균 품질 수준은 엄선된 고품질 텍스트 말뭉치에 비해 낮지 않을까요? 그 답은 다양성입니다. 웹 텍스트는 단점에도 불구하고 상상할 수 있는 거의 모든 언어 사용법을 가지고 있습니다.



작년 5월, OpenAI의 Andrej Karpathy는 트위터를 통해 좋은 데이터 세트와 강력한 모델을 위한 충분한 조건으로 '규모, 정제수준, 다양성'을 꼽았습니다.


CommonCrawl은 그 특성상 데이터의 다양성과 크기를 충분히 확보할 수 있습니다. together.ai가 CommonCrawl의 약 절반을 추출하고 중복을 제거했을 때, 중복 제거와 1차 필터링 후 20T의 영어 토큰이 남았습니다. 참고로, 이는 라마 2 제품군을 학습하는 데 사용된 데이터보다 훨씬 많은 양입니다. 이 다음으로는"데이터 다양성에 손해를 주지 않으면서 고품질 텍스트를 가장 잘 필터링하는 방법은 무엇일까?"라는 질문이 제기됩니다.


언어 모델링 문헌의 초기 웹 텍스트 품질 필터링 결과는 "중복 및 노이즈가 많은 텍스트를 필터링하는 것이 어느 정도 도움이 된다"로 요약할 수 있습니다. 필터링이 많을수록 약간 더 나은 것으로 나타났는데, 예를 들어 RefinedWeb 논문에서는 자사의 텍스트 품질 필터링 체계가 Google C4의 필터링 체계와 결합되었을 때 손실 곡선이 매우 약간 더 좋아졌다고 언급했습니다. Meta와 Google은 라인 단위로 중복을 제거하는 수준에는 도달했습니다. 이 작업을 통해 몇 가지 유용한 교훈을 발견했지만(예: 메타는 언어 식별에 앞서 줄 기반 중복 제거가 선행되어야 한다는 사실을 발견함), 이는 흥미로운 발견은 아니었습니다.


데이터 세트 품질의 중요성은 <10>신경 스케일링 법칙을 넘어서에서 충분히 정확한 데이터 가지치기 지표에 따라 유익한 데이터를 우선적으로 샘플링하면 트랜스포머의 스케일링 법칙을 놀라울 정도로 개선할 수 있다는 것을 보여줬습니다.


잠시 시간을 내어 이 차트를 살펴보세요. 특히 이 두 차트를 주목하세요:


데이터의 90%는 모델의 성능에 적극적으로 해롭습니다! 즉, 훈련은 쓸모없는 수준을 넘어 아예 언어모델에 뇌 손상을 유발합니다. 반복해서 설명하지만, 묘사된 모델은 훈련 세트에서 가장 정보의 가치가 적은 약 90%를 빼버리지 않는 한 최고 성능에 도달하지 못합니다.


이는 매우 흥미로운 결과이지만, 이 논문은 이미지 모델에 관한 것이어서 모든 사람에게 그 결과가 그대로 적용될 수 있는 것은 아닙니다. 저자들의 데이터 정리 이론에서 한 가지 '걸림돌'은 데이터 정리 메트릭의 유용성이 정확성에 의해 제한된다는 것입니다. 과연 데이터 정리 이론이 예측하는 성능 향상 기준을 충족하는 데이터 정리 메트릭을 찾을 수 있을까요?


이러한 궁금증과 기다림은 Phi-1 논문인 "Textbooks are All You Need"로 결론이 났습니다. 이 논문에서 Microsoft는 간단한 데이터 가지치기 메트릭과 약간의 합성 데이터를 사용하여 가장 가까운 비교 대상인 StarCoder보다 약 11배 더 작고 훈련 비용이 약 200배 더 저렴한 코딩용 언어 모델을 만들었습니다.


미스트랄은 최근 <10> 메모와 핵심 전제인 '프론티어 모델을 효율적으로 훈련하는 방법을 아는 사람은 거의 없다'를 통해 1억 달러 이상의 자금을 조달했습니다. 메모에서 발췌한 부분을 소개하자면:

https://drive.google.com/file/d/1gquqRqiT-2Be85p_5w0izGQGgHvVzncQ/view


"<18>우리는 떠오르는 제너레이티브 AI 시장에서 대부분의 가치가 제작하기 어려운 기술, 즉

만들기 어려운 기술, 즉 생성 모델 자체에 [...] 두 번째로 중요한 장벽은 <21>숙련된 팀을 구성하는 것이 어렵다는 것입니다.

...] 모든 주요 행위자들은 현재 미국에 기반을 두고 있습니다 [...] 이것은 주요 지정 학적 문제입니다.".


이것은 당시에는 충분히 사실로 보였습니다. 결국, 대부분의 댓글 작성자들은 <32>(나중에 Microsoft가 확인한) ChatGPT-3.5-Turbo가 20B 매개변수라는 루머에 대해 많은 사람들이 믿지 않았던 것처럼, 출시 당시 미스트랄-7B의 위력에 놀라움을 금치 못했습니다.


(와우, 이 Reddit 댓글 작성자도 7월에 데이터 정리를 언급했습니다. 그분도 트위터가 있나요?)


하지만 미스트랄이 순식간에 유니콘 기업 가치를 끌어올린 핵심 주장은 오늘날에는 더 이상 사실이 아닙니다:

- 과거에는 비밀에 싸여 있던 선구자급 언어 모델 훈련의 비밀이 점점 더 널리 알려지고 있습니다.

- 중국의 연구소들이 오픈 언어 모델에서의 선구자적 입자를 차지하고있습니다.


오픈 소스 데이터의 영웅이자 임베디드 모델 트레이너의 챔피언인 trytailor.ai의 창립자이자 GalacticAI의 창시자인 Ben Anderson은 미스트랄의 가격 인상 뒤에 숨어 있는 비밀스러운 하위 텍스트와 3.5 터보의 소문난 효율성에 대한 설명을 최초로 공개적으로 설명한 사람 중 한 명입니다:

"효율적인 모델을 훈련하는 방법을 아는 사람은 거의 없다"는 말은 "유익한 데이터 집합을 추출하는 방법을 아는 사람은 거의 없다"는 뜻이었습니다.


두 달 후, 이 핵심 인사이트는 Elon의 트윗 한 줄로 인해 상식적인 지식으로 급부상했습니다:

...이전에는 잘 알려지지 않았던 OpenAI 엔지니어 제임스 베커의 블로그 게시물이 주목을 받았습니다:





중국의 연구소들도 이미 주목하고 있었습니다: 알리바바는 데이터 증류 프레임워크와 관련 논문인 데이터 착즙기를 발표했는데, 이 논문은 아마도 Qwen 모델 제품군의 기반이 되는 데이터를 제공한 것으로 추정됩니다.

https://github.com/alibaba/data-juicer


또한 가장 강력한 오픈 웨이트 대규모 언어 모델 중에는 DeepSeek-67B가 있습니다. 이 모델은 이전에 알려지지 않았던 중국 팀에서 개발했습니다.


미스트랄과 마찬가지로 아키텍처는 라마 2입니다. <10>학습 속도 일정이 약간 이상해 보입니다 - 모호한 이유로 나쁘거나 좋은 것 같습니다. 훈련 예산은 라마 2 70B보다 약간 적었습니다. 그리고 이 모델은 이중 언어를 지원하기 때문에 트레이닝에 사용된 토큰 중 영어로 된 토큰이 더 적었습니다. 그리고 이 모델은 점점 더 GPU 기술 제재 조치의 압박을 받고 있는 중국의 팀에서 개발되었습니다. 그럼에도 불구하고 DeepSeek-67B는 영어 측정 기준으로도 이전 오픈 웨이트의 선도적인 기본 모델인 Llama 2 70B를 능가합니다. 정말 대단하죠!


어떻게 한 걸까요? 더 나은 데이터 정제에 답이 있습니다.

https://www.high-flyer.cn/en/blog/cc_cleaner/

놀랍게도 중국의 연구소인 DeepSeek와 Alibaba Cloud는 서구의 주요 연구소들보다 훨씬 더 큰 규모로 공개환경에서 언어모델을 개발하고 있습니다.




일단 여기까지 1부 번역. 


관심있는 분이 많이 있으면 뒷부분도 번역하겠습니다.