vLLM 소형 모델 인퍼런스 느낀점 및 팁

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3312명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

일반 vLLM 소형 모델 인퍼런스 느낀점 및 팁

maywell

추천 20 비추천 0 댓글 18 조회수 1053 작성일 2024-04-25 04:44:56 수정일 2024-04-25 04:56:16

https://arca.live/b/alpaca/104526690

openlynn/Llama-3-Soliloquy-8B

롤플레잉 모델을 만들고 오픈라우터에서 하루에 3억토큰 서빙을 진행하면서 몇가지 느낀점과 서빙 계획이 있다면 참고할만한 팁을 좀 가져와봤습니다.

A100 2way에서 Throughput 18 -> 160으로 개선할 수 있었습니다.

1. 소형 모델 멀티 GPU 쓸거면 tp >1 쓰지마세요.

vLLM에서 기본적으로 멀티 GPU를 사용하면 tp를 사용하기 마련인데, 처리량 증가에는 큰 영향이 없습니다.

GPU 2개 꼽는다고 처리량이 두배 나오지 않음. (멀티턴 데이터셋으로 측정 결과 + 10~15% 찍혔습니다.)

tp=1로 서버 여러개 켠 뒤 FastAPI로 라우터 하나 작성해서 띄우면 GPU 개수만큼 선형적인 처리량 증가를 얻을 수 있습니다. Gpu Util 100% 찍힘.

2-1. 양자화는 Marlin으로

다른 양자화 포맷들은 고배치에서 속도 하락 등 여러 이슈가 있으나, Marlin 쓰시면 30~50% 처리량 증가가 꾸준하게 찍힙니다. 웬만하면 사용하시길.

2-2. 양자화 한다면 A100 말고 4090을
4090에 올라간다면 4090 쓰십쇼. 속도 비슷하고 가격 많이 쌉니다.

댓글 글쓰기

angmond2

2024-04-25 05:01:12 답글

tp는 TensorParallel인거죠?
감사합니다.

펼쳐보기▼

angmond2

2024-04-25 05:05:24 답글

그리고 Marlin이 여기 맞나요?
https://github.com/IST-DASLab/marlin

GitHub

GitHub - IST-DASLab/marlin: FP16xINT4 LLM inference kernel that can achieve near-ideal ~4x speedups up to medium batchsizes of 16-32 tokens.

FP16xINT4 LLM inference kernel that can achieve near-ideal ~4x speedups up to medium batchsizes of 16-32 tokens. - IST-DASLab/marlin

그리고 Marlin이 여기 맞나요?

펼쳐보기▼

maywell

2024-04-25 05:15:58 답글

AutoGPTQ 이용하셔서 만드실 수 있습니다.

펼쳐보기▼

호옹이

2024-04-25 05:06:44 답글

exl2 와 vllm 의 장단점을 알려주실수있나요?

펼쳐보기▼

maywell

2024-04-25 05:16:58 답글

exl2 쉽고 단일배치에서 빠름
그 외 vllm(이것도 요즘 양자화 모델들 단일 배치에서 많이 빠름, 초기 설정 어려울 수 있음)

펼쳐보기▼

호옹이

2024-04-26 01:20:26 답글

vllm이 더빠른가보네요??

펼쳐보기▼

철권짱

2024-04-25 06:53:15 답글

"A100 2way에서 Throughput 18 -> 160으로 개선할 수 있었습니다."
초당 18번 작업에서 160번 작업으로 개선된 거라고 보면 되나요?
개선률이 엄청나네요.
감사합니다.

펼쳐보기▼

maywell

2024-04-25 06:54:42 답글

*수정됨

리퀘에 쌓이는게 적어졌기에 유저 입장에서 느껴지는 toks/s가 저렇게 올라갔습니다.

펼쳐보기▼

maywell

2024-04-25 06:55:28 답글

대기열 한번 생기고 리퀘 쌓이기 시작하면 Throughput 떨어지는건 한순간입니다.

펼쳐보기▼

철권짱

2024-04-25 06:56:27 답글

아하, 답변 감사합니다. ㅎ

펼쳐보기▼

ㅇㅇ (59.7)

2024-04-25 11:30:25 삭제 수정 답글

2-2에 4090 여러개 쓰라고 하심은 도커로 여러 개의 4090을 독립적으로 띄워서 분산시키라는 말씀이실까요?

펼쳐보기▼

maywell

2024-04-25 11:37:14 답글

tp=1로 여러 포트에서 여신후 묶으시면 됩니다. 방법이 도커가 되었든 그냥 두개를 띄우든 tp=1 이면 됩니다.

펼쳐보기▼

모맵

2024-04-25 11:55:03 답글

개꿀팁 ㄷㄷㄷ

펼쳐보기▼

Dikko

2024-04-25 23:12:34 답글

vllm시도해보랴고하는데 꿀팁 감사합니다

펼쳐보기▼

ㅇㅇ (39.7)

2024-04-25 23:18:09 삭제 수정 답글

와!

펼쳐보기▼

변태Lv1

2024-04-26 07:26:03 답글

정말 좋은 정보 감사합니다 (___)

펼쳐보기▼

ㅇㅇ

2024-04-27 17:34:25 답글

이런 정보들이 정말 얻기 힘든데 개추

그나저나 throuput 개선 대단하네요 ㄷㄷ

펼쳐보기▼

ddggripe

2024-04-30 14:52:59 답글

이런걸 꽁으로 푸시다니 ㅡㅜ 무한 감사
드립니다

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28015278

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5754

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25997

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8423

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4136 일반 14b =/= 220 x 8 MoE [5]

HyperBlaze456 2024.05.05 372 1

4135 질문 (스압) AutoRAG QA 데이터 생성 중에 이런 오류 겪으신 분 계실까요? [4]

ㅇㅇ 2024.05.05 208 0

4134 질문 4060 12GB x2 vs 3090 24GB vs 4090 24GB [11]

Thomas_Shelby 2024.05.04 412 1

4133 질문 학습 데이터 저장장치 어떤 거 써? [9]

ㅇㅇ 2024.05.04 329 1

4132 일반 대기업 사장님이 직접 배달해주는 GPU [4]

ㅇㅇ (221.141) 2024.05.04 469 5

4131 일반 GLaDOS 성격 코어 (직접 번역) [1]

pussydestroyer 2024.05.03 383 9

4130 일반 ai expo 코리아 왔는데 사람 엄청 많음 + 관람 후기 [19]

hkhk 2024.05.03 1027 17

4129 일반 needle in a haystack 평가 코드는 어떤거 써야 하나요? [1]

ㅇㅇ (121.170) 2024.05.03 241 0

4128 학습 몇가지 llama 2 7b instruction format 테스팅하면서 느낀점 [2]

ㅇㅇ (61.33) 2024.05.02 414 2

4127 정보 모델은 얼마나 벤치마크에 과적합 되어 있은가?: GSM-1k [14]

jackofmaster 2024.05.02 953 13

4126 일반 라마3 8B모델 파인튜닝용 PC 견적 문의 [15]

ㅇㅇ (58.87) 2024.05.02 794 -1

4125 일반 llama3는 어떤 시스템 프롬프트를 사용해야 될까요? [3]

ㅇㅇ (112.146) 2024.05.02 539 0

4124 일반 여기 국제인공지능대전 다녀오신 분 있나요? [5]

ㅇㅇ (58.232) 2024.05.01 755 3

4123 일반 Llama-3-8B-Instruct & 한국어 모델들에 "DJ DJ pump this party"로 테스트를 해봤습니다 [4]

ㅇㅇ 2024.05.01 1349 19

4122 일반 5090 5080 루머라는데 [17]

ㅇㅇ 2024.05.01 882 0

4121 정보 4060ti 16GB 메모리 오버클럭 비교 [6]

게지네 2024.05.01 505 7

4120 일반 A6000x3 llama3 70B inference 가능한가요? [3]

ㅇㅇ (1.241) 2024.04.30 423 -1

4119 일반 메모리 대역폭과 이론적 최대 토큰 수 (cpu 추론이 느린 이유) [9]

PRG 2024.04.30 539 6

4118 일반 뉴비 4060ti 16G 사서 llama3 돌려봄 [1]

게지네 2024.04.30 606 7

4117 일반 라마3 토크나이저 기반 소형 모델 l3-211m [2]

maywell 2024.04.30 1106 22

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.