개념글 모음

https://huggingface.co/hanzogak/Llama-3-Soliloquy-8B-exl2-h8-8.0
https://huggingface.co/hanzogak/Llama-3-Soliloquy-8B-exl2-h8-6.5
생각보다 exl2 7~10B 양자화 요구사항이 높지 않아서 직접 exl2 양자화 해봄. 


6.5는 12GB VRAM, 8.0은 16GB VRAM에 알맞을지도?


https://huggingface.co/hanzogak/Llama-3-Soliloquy-8B-GGUF/tree/main
보너스로 쓰는 사람이 있는지 모르겠지만 GGUF Q4_K_M / Q5_K_M / Q6_K / Q8_0도 허깅페이스에 업로드함.

GGUF 모델은 EOS 토큰 설정에 결함이 있어서 모델 원작자의 요청으로 내려감.