MistralAI-0.1-7B
Mistral AI에서 방금 출시한 새로운 기초 언어 모델.
https://mistral.ai/news/announcing-mistral-7b/
* 7.3B 파라미터
* 모든 벤치마크에서 라마2 13B보다 뛰어난 평가를 획득
* 많은 벤치마크에서 라마1 34B보다 뛰어난 평가를 획득
* 뛰어난 언어능력을 유지하면서도, 코드라마 7B에 버금가는 코딩 성능을 보유
* Apache 2.0 라이선스 (상업적 이용 가능)
* 오리지널 라마 논문의 저자들(Timothee Lacroix, Guillaume Lample, Marie-Anne Lachaux)이 개발진에 포함되어 있음.
* 신속한 추론을 위한 Grouped-query attention (GQA) 사용
* 저비용으로 긴 시퀀스를 다루기 위해 Sliding Window Attention (SWA) 사용
관련 레딧
https://www.reddit.com/r/LocalLLaMA/comments/16tf4qn/mistralai017b_the_first_release_from_mistral/
다운로드 (원본)
https://huggingface.co/mistralai
https://huggingface.co/mistralai/Mistral-7B-v0.1 (베이스 모델)
https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1 (인스트럭션 튜닝 모델)
다운로드 (변환)
https://huggingface.co/TheBloke/Mistral-7B-v0.1-GGUF
https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF
https://huggingface.co/TheBloke/Mistral-7B-v0.1-AWQ
https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-AWQ
https://huggingface.co/bn22/Mistral-7B-v0.1-sharded
https://huggingface.co/bn22/Mistral-7B-Instruct-v0.1-sharded
https://huggingface.co/kittn/mistral-7B-v0.1-hf
깃허브
https://github.com/mistralai/mistral-src
벤치마크 결과
https://twitter.com/i/status/1707100769277595951
벤치마크를 무턱대고 믿을 수야 없지만 어쨌든 반가운 소식이네요.