옆챈 게시글을 보고 궁금해서 진짜로 3090 단일 그래픽카드에서 라마3 70B 모델의 원활한 구동이 가능한지 한번 테스트해봤음. 사용 모델은 70B 원본 모델을 사용한 건 아니고 게시글을 참고해서 'Meta-Llama-3-70B-Instruct-IQ2_XS' (gguf) 모델을 사용함.




Oobabooga 세팅은 위와 같고, 백그라운드에 다른 프로그램들이 몇개 켜져있긴 한데 일단 해당 세팅으로 로드 시 차지하는 GPU 메모리는 대략 23GB 정도이며 어느 정도 여유공간은 있는 모습임.





일단 챈에서 다른사람들이 사용하던 환각질문들도 한번 따라해보고



긴 답변을 유도하기 위해 천안문 관련 질문도 던져봤는데 내용에 오류 없이 잘 대답해주는것 같음. 




 최대 콘텍스트 크기까지 사용 한 후에 로컬 콘솔창을 캡쳐해봤는데 간단하게 짚어보면 GPU 메모리는 약간의 여유를 남기고 더 늘어나는게 멈춘 상태이며, 생성 속도는 대략 5~6tokens/s 정도 꾸준히 나와주는 것을 확인했음.

 개인적인 세팅 환경 기준으로 장시간 사용에도 GPU 메모리가 23.5~23.6GB 를 오가며 공유메모리로 넘치지 않고 아슬아슬하게 균형점을 찾은 모습을 보여줌. 아마 내장, 외장그래픽카드를 동시에 활용하는 꼼수를 쓰면 더 여유롭게 사용할 수 있을거라고 봄. (테스트 해봤을때 대략 800MB정도의 VRAM이 절약됐었음) 


이 모델이 위자드 7B나 Soliloquy 8B 같은 모델보다는 토큰 생성 속도에서 2배 이상 느리지만 그래도 표현력 같은 부분에서 확실히 앞선 모델들과는 다르다는게 느껴져서 맘에 들었음.



++  Oobabooga를 사용한지 얼마 안되서 잘 몰랐는데 n_ctx 값을 조금 더 낮게 조절하니까 속도가 9~10 tokens/s 까지 올라가네요.. 위에서는 세팅을 잘못해놓고 좀 느리다고 했었는데 n_ctx 값을 조절해주니까 확실히 실사용에도 크게 무리없는 속도가 나오는것 같습니다.