작고 효율적인 Microsoft의 LLM Phi-3가 벤치마크에서 Meta의 Llama 3와 무료 ChatGPT를 능가합니다.

https://the-decoder.com/microsofts-small-and-efficient-llm-phi-3-beats-metas-llama-3-and-free-chatgpt-in-benchmarks/
https://arxiv.org/pdf/2404.14219.pdf

Meta의 Llama 3는 오픈 소스 모델의 새로운 표준을 세웠지만, Microsoft의 Phi 3는 적어도 서류상으로는 이를 능가할 준비가 되어 있습니다. Microsoft는 Phi의 핵심 기능인 데이터 품질에 초점을 맞추고 있습니다.

Microsoft Research는 내부 테스트에 따르면 Phi 3라는 새롭고 컴팩트한 언어 모델을 개발했는데, 이 모델은 Mixtral 8x7B 및 GPT-3.5와 같은 훨씬 더 큰 모델의 성능과 일치합니다. 컨텍스트 길이는 128K입니다.

Microsoft에 따르면 38억 개의 매개변수만 있는 Phi-3 미니 모델은 MMLU 언어 이해력 벤치마크에서 69%, MT 벤치마크에서 8.38점을 달성했습니다.

작은 크기 덕분에 Phi 3는 최소 1.8GB의 메모리와 4비트로 양자화된 표준 스마트폰에서 로컬로 실행할 수 있으며, A16 칩이 탑재된 iPhone 14에서 초당 12개 이상의 토큰을 처리할 수 있습니다.

"플립폰에 슈퍼컴퓨터를 장착하는 것과 같지만, 휴대폰을 망가뜨리는 대신 작지만 강력한 언어 능력으로 인터넷을 망가뜨리는 것입니다." ChatGPT 수준의 AI 모델이 어떻게 스마트폰에서 실행될 수 있느냐는 질문에 개발자들은 농담 삼아 이렇게 답했습니다.

고품질 훈련 데이터로 훈련 데이터 최대한 활용하기

Microsoft에 따르면 Phi 3의 성능 비결은 전적으로 트레이닝 데이터 세트에 있습니다. 이는 '교육 수준'에 따라 엄격하게 필터링된 웹 및 합성 LLM 생성 데이터로 구성되며 이전 버전인 Phi 2와 Phi 1에서 사용된 훈련 방법을 기반으로 합니다.

Microsoft는 학습 데이터 세트를 최적화함으로써 이러한 성능을 달성할 수 있었다고 강조합니다. 스포츠 경기 점수와 같은 정보로 웹 데이터를 '낭비'하는 대신, 지식과 추론 능력에 집중하여 데이터 집합을 콤팩트한 모델에 적합한 '데이터 최적'에 가깝게 만들었습니다.

사전 학습의 첫 번째 단계에서는 주로 웹 데이터를 사용하여 모델이 일반적인 지식과 언어 이해력을 개발할 수 있도록 합니다. 두 번째 훈련 단계에서는 고도로 필터링된 고품질 웹 데이터를 선별된 합성 데이터와 결합하여 로직 및 틈새 애플리케이션과 같은 특정 영역에서 모델의 성능을 최적화합니다.

Microsoft는 Phi 모델을 통해 고품질이면서도 훨씬 더 효율적이고 비용 효율적인 AI 모델을 구현하는 것을 목표로 합니다. 특히 Microsoft는 Windows 및 Office 제품 전반에서 AI를 확장하고 검색을 통해 생성형 AI를 비즈니스 모델로 전환하기 위해 비용 효율적인 모델이 필요합니다.

많은 벤치마크에서 라마 3를 능가하는 Phi 3

70억 개의 매개변수가 있는 Phi-3-small과 4조 8천억 개의 매개변수가 있는 Phi-3-medium은 모두 4조 8천억 개의 토큰으로 훈련되었으며, 동급 모델에 대한 벤치마크에서 Phi-3-mini와 비슷한 성능을 보였습니다.

MMLU 벤치마크에서는 75%와 78%, MT 벤치마크에서는 8.7점과 8.9점을 달성했습니다. 이는 최근 출시된 Meta의 700억 개 매개변수를 가진 Llama 3와 같은 훨씬 더 큰 모델에 크게 뒤지지 않는 수치입니다. 또한 Phi 모델은 대부분의 경우 같은 등급의 모델보다 성능이 뛰어납니다(Phi 3 7b 대 Llama 3 8b).

그러나 애플리케이션에서 인지되는 성능과 벤치마크 결과가 반드시 일치하는 것은 아닙니다. 이 모델이 오픈 소스 커뮤니티에서 어느 정도까지 채택될지는 아직 지켜봐야 합니다.

Microsoft는 Phi-3-mini의 사실 지식 용량이 대형 모델에 비해 낮은 점을 약점으로 꼽습니다(예: TriviaQA 벤치마크). 하지만 이는 검색 엔진의 통합으로 보완할 수 있습니다. 또한 교육은 주로 영어로만 제한됩니다.

안전성 측면에서 Microsoft는 정렬 교육, 레드팀 구성, 자동화된 테스트 및 독립적인 검토를 통해 다단계 접근 방식을 취했다고 말합니다. 이를 통해 잠재적으로 유해할 수 있는 응답의 수를 크게 줄였다고 회사는 말합니다.

Microsoft에 따르면 Phi 3는 메타의 라마 모델과 유사한 블록 구조와 동일한 토큰화 도구를 사용하여 오픈 소스 커뮤니티가 Phi 3를 통해 최대한 많은 혜택을 누릴 수 있도록 합니다. 즉, Llama 2 모델 제품군용으로 개발된 모든 패키지를 Phi-3-mini에 직접 적용할 수 있습니다.