![](http://ac.namu.la/20230322sac/2d1250c6486e5c57ccd90372bdb6987442593d422e690da413127ba59ca20aaa.jpg?expires=1719795600&key=13b9kVrsttUih1JXfGsJ3w)
두서없이 생각나는 대로 적었습니다.
CPU 24코어 48쓰레드
RAM 160GB
OS ubuntu
3090 + 4090 조합
24GB + 24GB = 48GB 에서 가능한 것
1. 70B 4bit 초당 15~20토큰 추론 (vllm or llama.cpp 이용)
2. vllm api 70B AWQ 양자화 모델 추론한 경우
동시에 5 요청 시 2~3개가 초당 15~20토큰으로 처리되고 후에 나머지가 처리됨.
최종적으로 5개 모두 처리완료됨.
3. miquliz 120B EXL2 2.65bpw 초당 15토큰 추론.
우바부가 textgen 이용, GPU split 19,22 / max_seq_len 10k
4. 70B senku 4bit 32k, miquliz-v2.0 120B 2.65bpw 32k / 10k로 제한 사용.
이 2개 사용 추천. senku 한국말 나름 잘함. miquliz 한국말 못함. 하지만 영어 명령 수행 능력 최고.
miquliz(120B) = miqu(70B) + lzlv(70B) 병합 모델임.
2개 모두 유출된 miqu 기반이라 라이센스는 글쎄?
5. 양자화하면 성능이 떨어진다.
그렇지만 70B이상의 양자화는 7B 양자화 하는 것만큼
성능 하락이 크진 않음.
7B가 정형화된 입력 및 결과를 파인튜닝에 의해서 정형화된 결과를 주는 느낌이라면
70B는 내 입력 프롬프트에 따라서 반응하여 결과를 주는 듯한 느낌임.(영어만 ㅜㅜ)
입력 프롬프트가 길고 구체적일수록 7B와 70B 답변 차이가 심하게 느껴짐.
물론 GPT4가 더 좋지만 GPT4와 GPT3.5정도의 차이 만큼 70B와 7B의 차이도 있다고 체감함.
6. 파인튜닝은 7B를 QLORA로 할 수 있음.
13B 이상은 못한다고 보는게 맞을 듯
13B도 물론 길이를 줄이고 1 배치로 QLORA가 가능해 보이긴 하는데 굳이?
그리고 전기세 이슈-집에서 사용하는데 3~4만원 나오던 전기세가 파인튜닝 일주일 풀로 돌리면 8~10만원 ㅠㅠ
2024.03.08
https://arca.live/b/alpaca/100734824?p=1
70B 파인튠 가능! 댓글 확인!
7. 70B를 AWQ(4bit) 양자화 하려면 48GB VRAM으로 못함.
CPU 24 코어 48 쓰레드, RAM 160GB로 1시간 30분 소요됨. RAM 128GB는 실패.
이상입니다.