24GB x2 / 48GB 개인 서버 구동기 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3541명 알림수신 175명 @바바리맨

제한없는 언어모델을 위한 채널

구동후기 24GB x2 / 48GB 개인 서버 구동기

zzzzz5

추천 7 비추천 0 댓글 9 조회수 779 작성일 2024-02-14 05:09:18 수정일 2024-03-08 10:17:44

https://arca.live/b/alpaca/98972089

두서없이 생각나는 대로 적었습니다.

CPU 24코어 48쓰레드

RAM 160GB

OS ubuntu

3090 + 4090 조합

24GB + 24GB = 48GB 에서 가능한 것

1. 70B 4bit 초당 15~20토큰 추론 (vllm or llama.cpp 이용)

2. vllm api 70B AWQ 양자화 모델 추론한 경우

동시에 5 요청 시 2~3개가 초당 15~20토큰으로 처리되고 후에 나머지가 처리됨.

최종적으로 5개 모두 처리완료됨.

3. miquliz 120B EXL2 2.65bpw 초당 15토큰 추론.

우바부가 textgen 이용, GPU split 19,22 / max_seq_len 10k

4. 70B senku 4bit 32k, miquliz-v2.0 120B 2.65bpw 32k / 10k로 제한 사용.

이 2개 사용 추천. senku 한국말 나름 잘함. miquliz 한국말 못함. 하지만 영어 명령 수행 능력 최고.

miquliz(120B) = miqu(70B) + lzlv(70B) 병합 모델임.

2개 모두 유출된 miqu 기반이라 라이센스는 글쎄?

5. 양자화하면 성능이 떨어진다.

그렇지만 70B이상의 양자화는 7B 양자화 하는 것만큼

성능 하락이 크진 않음.

7B가 정형화된 입력 및 결과를 파인튜닝에 의해서 정형화된 결과를 주는 느낌이라면

70B는 내 입력 프롬프트에 따라서 반응하여 결과를 주는 듯한 느낌임.(영어만 ㅜㅜ)

입력 프롬프트가 길고 구체적일수록 7B와 70B 답변 차이가 심하게 느껴짐.

물론 GPT4가 더 좋지만 GPT4와 GPT3.5정도의 차이 만큼 70B와 7B의 차이도 있다고 체감함.

6. 파인튜닝은 7B를 QLORA로 할 수 있음.

13B 이상은 못한다고 보는게 맞을 듯

13B도 물론 길이를 줄이고 1 배치로 QLORA가 가능해 보이긴 하는데 굳이?

그리고 전기세 이슈-집에서 사용하는데 3~4만원 나오던 전기세가 파인튜닝 일주일 풀로 돌리면 8~10만원 ㅠㅠ

2024.03.08

https://arca.live/b/alpaca/100734824?p=1

70B 파인튠 가능! 댓글 확인!

7. 70B를 AWQ(4bit) 양자화 하려면 48GB VRAM으로 못함.

CPU 24 코어 48 쓰레드, RAM 160GB로 1시간 30분 소요됨. RAM 128GB는 실패.

이상입니다.

댓글 [9] 글쓰기

ㅇㅇ

2024-02-14 05:13:22 답글

*수정됨

qlora같은 경우 단일 RTX3090 가지고 
13b 
batch size 3 
seq length 4096 까지 해봤습니다만 저도 전기세 이슈로 그냥 vastai 사용해서 훈련합니다.

펼쳐보기▼

hkhk

2024-02-14 05:41:14 답글

mikuliz 한번 써봐야겠네요. 정보 감사합니다

펼쳐보기▼

hkhk

2024-02-14 06:19:43 답글

mikuliz 써서 대화좀 해볼려고 했더니 웬만한 요상한 얘기들에 대해서는 엄청 철벽을 치네요. 그냥 코딩 조수 시키는용도인건가

펼쳐보기▼

zzzzz5

2024-02-14 06:34:36 답글

https://huggingface.co/lizpreciatior/lzlv_70b_fp16_hf

여기보면 창의적인 nsfw를 위해 그런 모델도 넣은거 같긴하네요 ㅋㅋㅋ 잘 뚫어보세요 ㅋ

huggingface.co

lizpreciatior/lzlv_70b_fp16_hf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

여기보면 창의적인 nsfw를 위해 그런 모델도 넣은거 같긴하네요 ㅋㅋㅋ 잘 뚫어보세요 ㅋ

펼쳐보기▼

hkhk

2024-02-14 08:51:34 답글

우바부가의 기본 카드를 좀 바꿔서 해보니까 잘 되네요. chiharu yamada 의 직업을 porn actress 로  써놓고 새 영화 찍는 설정으로 바꿔놨음 ㅎㅎ

펼쳐보기▼

감별사

2024-02-14 06:35:27 답글

영어 70b를 가지고 사내 챗봇을 쓰는 업체가 몇 있더라구요. 번역은 deepl 로 어찌저찌 해결..

펼쳐보기▼

포리X

2024-02-14 09:44:01 답글

hkhk

2024-02-14 11:49:37 답글

한참 돌려보니까 로컬모델이 작년의 gpt-3.5 수준은 확실히 넘은거 같네요. 컨텍스트도 길어진게 체감되고요

펼쳐보기▼

zzzzz5

2024-02-14 11:57:52 답글

llama 3 이번 년도에 나온다는 거 같은데 더 발전될수 있어 보여 기대가 됩니다 ㅎㅎ 잘 나왔으면 좋겠네요.

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31566080

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6301

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28660

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9515

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

일반 재미나이 1.5가 발표되었는데 1천만 컨텍스트 성능 유지라고 합니다 [4]

그래요 2024.02.15 717 7

질문 SFTTrainer 에러.. 도와주세요 [2]

초초초초초보 (112.220) 2024.02.15 524 0

질문 같은 모델을 oobabooga webui 에서는 잘되는데 risuai 에서는 잘 안되는 현상 [2]

hkhk 2024.02.15 431 0

질문 qlora로 생성된 adapter를 양자화 하지 않은 원본 모델에 merge 했는데..? [2]

wickout 2024.02.15 426 0

질문 요새 4090 가격이 미쳐돌아가던데 A6000도 괜찮을까여 [14]

ㅇㅇ 2024.02.15 1009 0

질문 oobabooga(우바부가) Text Generation Webui 모델 로드할때 오류 해결방법좀 알려주세요 ㅠㅠ [3]

촙뉴비 (211.193) 2024.02.15 430 0

일반 프롬프트 엔지니어링을 위한 horizontal 주피터 노트북 만들기 [8]

oarfish 2024.02.15 460 2

일반 밑의 글은 삭제했습니다 [3]

바바리맨 2024.02.14 792 19

질문 여기 채널은 왜 국가에서 차단하나요? [4]

shower 2024.02.14 1062 0

질문 로컬모델 다운로드 하고 테스트 해보는중인데 하이퍼파라미터 [1]

뉴비챗 2024.02.14 357 1

일반 Chat with RTX 돌려봤습니다. [6]

도레시 2024.02.14 1143 4

질문 나의 모든것을 기억하는 ChatGPT?? [2]

cocojojo (61.74) 2024.02.14 688 0

질문 SSD 속도가 LLM 추론 / 학습하는데 영향을 미칠까요? [2]

ㅇㅇ (166.125) 2024.02.14 458 0

정보 엔비디아가 자체 챗봇을 냈다네요 [3]

노랑노랑 2024.02.14 753 4

정보 RAG를 자동으로 최적화해주는 툴 - AutoRAG [12]

제풀이 2024.02.13 2104 19

스터디 [부록] 트랜스포머를 통해 상상해본 외계인의 언어 이해방식 [5]

hkhk 2024.02.13 878 15

스터디 [ver 1.1] 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 2275 41

일반 데이터셋 한글화 [8]

ㅇㅇ 2024.02.13 678 1

질문 50기가 넘어 가는 파일 어떻게 합치나요? [15]

ㅇㅇ (125.128) 2024.02.13 653 0

글쓰기

전체글 개념글