두서없이 생각나는 대로 적었습니다.


CPU 24코어 48쓰레드 

RAM 160GB

OS ubuntu

3090 + 4090 조합

24GB + 24GB = 48GB 에서 가능한 것


1. 70B 4bit 초당 15~20토큰 추론 (vllm or llama.cpp 이용)

2. vllm api 70B AWQ 양자화 모델 추론한 경우
  동시에 5 요청 시 2~3개가 초당 15~20토큰으로 처리되고 후에 나머지가 처리됨.
  최종적으로 5개 모두 처리완료됨.
  
3. miquliz 120B EXL2 2.65bpw 초당 15토큰 추론.
  우바부가 textgen 이용, GPU split 19,22 / max_seq_len 10k
  
4. 70B senku 4bit 32k, miquliz-v2.0 120B 2.65bpw 32k / 10k로 제한 사용.
  이 2개 사용 추천. senku 한국말 나름 잘함. miquliz 한국말 못함. 하지만 영어 명령 수행 능력 최고.
  miquliz(120B) = miqu(70B) + lzlv(70B) 병합 모델임.
  2개 모두 유출된 miqu 기반이라 라이센스는 글쎄?
  
5. 양자화하면 성능이 떨어진다.
  그렇지만 70B이상의 양자화는 7B 양자화 하는 것만큼
  성능 하락이 크진 않음.
  7B가 정형화된 입력 및 결과를 파인튜닝에 의해서 정형화된 결과를 주는 느낌이라면
  70B는 내 입력 프롬프트에 따라서 반응하여 결과를 주는 듯한 느낌임.(영어만 ㅜㅜ)
  입력 프롬프트가 길고 구체적일수록 7B와 70B 답변 차이가 심하게 느껴짐.
  물론 GPT4가 더 좋지만 GPT4와 GPT3.5정도의 차이 만큼 70B와 7B의 차이도 있다고 체감함.
  
6. 파인튜닝은 7B를 QLORA로 할 수 있음.
  13B 이상은 못한다고 보는게 맞을 듯
  13B도 물론 길이를 줄이고 1 배치로 QLORA가 가능해 보이긴 하는데 굳이?
  그리고 전기세 이슈-집에서 사용하는데 3~4만원 나오던 전기세가 파인튜닝 일주일 풀로 돌리면 8~10만원 ㅠㅠ

2024.03.08 

https://arca.live/b/alpaca/100734824?p=1

70B 파인튠 가능! 댓글 확인!



7. 70B를 AWQ(4bit) 양자화 하려면 48GB VRAM으로 못함. 
  CPU 24 코어 48 쓰레드, RAM 160GB로 1시간 30분 소요됨. RAM 128GB는 실패.


이상입니다.