MistralAI-0.1-7B



Mistral AI에서 방금 출시한 새로운 기초 언어 모델.

https://mistral.ai/news/announcing-mistral-7b/


* 7.3B 파라미터

* 모든 벤치마크에서 라마2 13B보다 뛰어난 평가를 획득

* 많은 벤치마크에서 라마1 34B보다 뛰어난 평가를 획득

* 뛰어난 언어능력을 유지하면서도, 코드라마 7B에 버금가는 코딩 성능을 보유

* Apache 2.0 라이선스 (상업적 이용 가능)

* 오리지널 라마 논문의 저자들(Timothee Lacroix, Guillaume Lample, Marie-Anne Lachaux)이 개발진에 포함되어 있음.

* 신속한 추론을 위한 Grouped-query attention (GQA) 사용

* 저비용으로 긴 시퀀스를 다루기 위해 Sliding Window Attention (SWA) 사용




관련 레딧


https://www.reddit.com/r/LocalLLaMA/comments/16tf4qn/mistralai017b_the_first_release_from_mistral/

https://www.reddit.com/r/LocalLLaMA/comments/16tnrpm/mistral_7b_releases_with_claims_of_outperforming/

https://www.reddit.com/r/LocalLLaMA/comments/16twtfn/llm_chatrp_comparisontest_mistral_7b_base_instruct/



다운로드 (원본)


https://huggingface.co/mistralai

https://huggingface.co/mistralai/Mistral-7B-v0.1 (베이스 모델)

https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1 (인스트럭션 튜닝 모델)



다운로드 (변환)


https://huggingface.co/TheBloke/Mistral-7B-v0.1-GGUF

https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-GGUF


https://huggingface.co/TheBloke/Mistral-7B-v0.1-AWQ

https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.1-AWQ


https://huggingface.co/bn22/Mistral-7B-v0.1-sharded

https://huggingface.co/bn22/Mistral-7B-Instruct-v0.1-sharded


https://huggingface.co/kittn/mistral-7B-v0.1-hf



깃허브


https://github.com/mistralai/mistral-src




벤치마크 결과









https://twitter.com/i/status/1707100769277595951



벤치마크를 무턱대고 믿을 수야 없지만 어쨌든 반가운 소식이네요.