DBRX: 엘론 머스크의 Grok-1을 능가하는 새로운 개방형 언어 모델

https://the-decoder.com/dbrx-new-open-language-model-outperforms-elon-musks-grok-1/
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

데이터브릭스는 GPT-3.5, Grok, Mixtral, Llama 2를 능가하는 강력한 새 오픈 언어 모델인 DBRX를 출시했습니다. 이 회사는 AI 업계에서 투명성과 개방형 모델에 대한 트렌드를 주도하는 것을 목표로 하고 있습니다.

기술 기업 데이터브릭스는 기존 오픈소스 모델보다 성능이 뛰어나다고 주장하는 새로운 오픈 언어 모델인 DBRX를 출시했습니다. 표준화된 벤치마크 테스트에서 DBRX는 Meta의 Llama 2, Anthropic의 Mixtral, 심지어 최근 출시된 Elon Musk의 xAI의 Grok-1 모델보다 뛰어난 성능을 보였습니다. DBRX는 또한 대부분의 벤치마크에서 OpenAI의 GPT 3.5 모델보다 우수한 성능을 보였습니다.

허깅 페이스 오픈 LLM 리더보드와 데이터브릭스 모델 건틀렛과 같은 복합 벤치마크에서 DBRX는 테스트한 모든 모델 중 가장 우수한 결과를 달성했습니다. DBRX는 프로그래밍과 수학 등의 영역에서도 뛰어난 성능을 발휘합니다.

데이터브릭스에 따르면 DBRX는 현재 OpenAI의 가장 강력한 폐쇄형 언어 모델인 GPT-4와 품질 면에서 비슷하다고 합니다.

그러나 이 모델은 완전한 오픈 소스는 아니며 사용 규칙을 설정하는 라이선스와 함께 제공되며 학습 데이터는 제공되지 않습니다. 오픈 소스 감시 기관에 따르면 오픈 소스가 아닌 Meta의 Llama 2와 유사한 오픈 모델로 분류될 가능성이 더 높습니다. 개인 및 상업적 사용은 허용됩니다.

또한 벤치마크에 따르면 적어도 MMLU 벤치마크에서 새로운 모델보다 성능이 뛰어난 Alibaba의 QWen1.5와 같은 다른 모델에 대해 DBRX를 테스트하지 않았습니다.

전문가 혼합 모델에 의존하는 DBRX

DBRX는 1,320억 개의 파라미터가 있는 혼합 전문가 모델로, 이 중 360억 개만 특정 시간에 활성화되어 초당 토큰 수 측면에서 높은 효율성을 제공합니다. 이 모델은 최대 32,000개의 컨텍스트 창을 가진 12조 개의 텍스트와 코드로 3,072개의 Nvidia H100 GPU에서 훈련되었습니다. 발표에 따르면, 높은 데이터 품질과 하드웨어 활용도를 개선하기 위한 모델 아키텍처 조정의 결합으로 학습 효율성이 최대 50%까지 향상되었습니다.

또한, 데이터브릭스는 고객이 데이터브릭스 플랫폼에서 DBRX를 사용 및 커스터마이징하고 개인 데이터로 자체 모델을 훈련할 수 있도록 지원합니다. 오픈 소스 커뮤니티는 데이터브릭스 깃허브 리포지토리와 허깅 페이스를 통해 DBRX에 액세스할 수 있습니다.

개방적인 접근 방식을 취함으로써 데이터브릭스는 제너레이티브 AI의 혁신을 촉진하고 AI 모델 개발에 더 많은 투명성을 제공하는 것을 목표로 합니다. 이 회사는 기업들이 효율성과 제어력을 높이기 위해 독점 모델을 맞춤형 오픈 소스 모델로 대체하는 사례가 늘어나면서 개방형 LLM의 중요성이 점점 더 커지고 있다고 강조합니다. 데이터브릭스는 DBRX와 같은 개방형 모델이 기업이 각자의 산업에서 경쟁력을 강화하는 데 도움이 될 수 있다고 믿습니다.

데이터브릭스에서는 DBRX 베이스와 DBRX 인스트럭트의 두 가지 변형을 제공합니다. 이 회사는 2023년에 MosaicML을 인수했으며, 이 팀은 초기에 강력한 개방형 언어 모델을 MPT 모델과 함께 출시했습니다.