다른건 모르겠고 모델별로 VRAM 사용량만 체크해봄
뉴비라 아는게 없어서 ollama로 돌려봄
먼저 8B
ollama run llama3:8b-instruct-fp16
ollama run llama3:8b-instruct-q8_0
ollama run llama3:8b-instruct-q4_0
70B는 안될거 뻔해서 Q2만 돌려봄
ollama run llama3:70b-instruct-q2_K
VRAM 다쓰고도 추가로 26기가정도 땡기더라
다른건 모르겠고 모델별로 VRAM 사용량만 체크해봄
뉴비라 아는게 없어서 ollama로 돌려봄
먼저 8B
ollama run llama3:8b-instruct-fp16
ollama run llama3:8b-instruct-q8_0
ollama run llama3:8b-instruct-q4_0
70B는 안될거 뻔해서 Q2만 돌려봄
ollama run llama3:70b-instruct-q2_K
VRAM 다쓰고도 추가로 26기가정도 땡기더라