오픈 소스 LLM의 새로운 기록을 세운 미스트랄의 Mixtral 8x22B

https://the-decoder.com/mistrals-mixtral-8x22b-sets-new-records-for-open-source-llms/
https://mistral.ai/news/mixtral-8x22b/
https://huggingface.co/mistralai

프랑스의 AI 스타트업인 미스트랄 AI는 오픈소스 최고의 성능과 효율성을 달성했다고 주장하는 새로운 오픈소스 언어 모델인 Mixtral 8x22B를 공개했습니다.

이 모델은 1,141억 개의 매개변수 중 390억 개만 적극적으로 사용하는 희소 전문가 혼합(SMoE) 모델입니다. 그 결과 개발팀은 규모에 비해 가격 대비 성능이 매우 뛰어나다고 주장합니다. 이전 버전인 Mixtral 8x7B는 오픈 소스 커뮤니티에서 호평을 받은 바 있습니다.

미스트랄에 따르면, 영어, 프랑스어, 이탈리아어, 독일어, 스페인어를 지원하는 다국어 지원과 강력한 수학 및 프로그래밍 기능이 Mixtral 8x22B의 강점이라고 합니다. 또한 외부 도구 사용을 위한 네이티브 함수 호출 기능도 제공합니다. 64,000개의 토큰으로 컨텍스트 창은 GPT-4(128K) 또는 Claude 3(200K)와 같은 현재 주요 상용 모델보다 작습니다.

제한 없는 오픈 소스

미스트랄 팀은 가장 허용 범위가 넓은 오픈 소스 라이선스인 Apache 2.0 라이선스에 따라 Mixtral 8x22B를 출시합니다. 이 라이선스는 모델을 제한 없이 사용할 수 있도록 허용합니다.

미스트랄에 따르면, 이 모델은 활성 파라미터를 드물게 사용하기 때문에 기존의 700억 개의 파라미터로 조밀하게 학습된 모델보다 더 빠르고 다른 오픈 소스 모델보다 성능이 뛰어납니다.

다른 개방형 모델과 비교했을 때 Mixtral 8x22B는 MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS와 같은 유명한 이해력, 논리 및 지식 테스트에서 최고의 결과를 달성합니다.

또한 지원되는 언어(프랑스어, 독일어, 스페인어, 이탈리아어)에서 70B LLaMA-2 모델보다 HellaSwag, Arc Challenge 및 MMLU 벤치마크에서 월등한 성능을 발휘합니다.

새로운 모델은 이제 미스트랄의 "la Plateforme"에서 테스트할 수 있습니다. 미스트랄에 따르면 오픈 소스 버전은 Hugging Face에서 이용할 수 있으며, 애플리케이션을 미세 조정하는 데 좋은 출발점이 될 수 있습니다. 이 모델에는 258기가바이트의 VRAM이 필요합니다.