openlynn/Llama-3-Soliloquy-8B


롤플레잉 모델을 만들고 오픈라우터에서 하루에 3억토큰 서빙을 진행하면서 몇가지 느낀점과 서빙 계획이 있다면 참고할만한 팁을 좀 가져와봤습니다.


A100 2way에서 Throughput 18 -> 160으로 개선할 수 있었습니다.


1. 소형 모델 멀티 GPU 쓸거면 tp >1 쓰지마세요.

vLLM에서 기본적으로 멀티 GPU를 사용하면 tp를 사용하기 마련인데, 처리량 증가에는 큰 영향이 없습니다.

GPU 2개 꼽는다고 처리량이 두배 나오지 않음. (멀티턴 데이터셋으로 측정 결과 + 10~15% 찍혔습니다.)


tp=1로 서버 여러개 켠 뒤 FastAPI로 라우터 하나 작성해서 띄우면 GPU 개수만큼 선형적인 처리량 증가를 얻을 수 있습니다. Gpu Util 100% 찍힘.


2-1. 양자화는 Marlin으로

다른 양자화 포맷들은 고배치에서 속도 하락 등 여러 이슈가 있으나, Marlin 쓰시면 30~50% 처리량 증가가 꾸준하게 찍힙니다. 웬만하면 사용하시길.


2-2. 양자화 한다면 A100 말고 4090을
4090에 올라간다면 4090 쓰십쇼. 속도 비슷하고 가격 많이 쌉니다.