vllm의 AutoAWQ 관련해서 질문드립니다. (모델 양자화)

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3444명 알림수신 170명 @바바리맨

제한없는 언어모델을 위한 채널

질문 vllm의 AutoAWQ 관련해서 질문드립니다. (모델 양자화)

Dikko

추천 2 비추천 0 댓글 17 조회수 525 작성일 2024-05-17 17:55:16

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/106462110

채널에서 써보고 싶은 10b 모델을 발견해서 양자화시키려고

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
import accelerate

model_path = 'path of model/llama-3-10b-it-kor-extented-chang'
quant_path = 'path of model/llama-3-10b-it-kor-extented-chang_fp16'
quant_config = { "zero_point": True, "q_group_size": 128, "version": "FP16" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, **{"low_cpu_mem_usage": True})
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

# Quantize
model.quantize(tokenizer, quant_config=quant_config)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

이런식으로 코드를 적용했는데,

FileNotFoundError: No such file or directory: "모델위치/llama-3-10b-it-kor-extented-chang/model-00001-of-00004.safetensors"

이런식으로 에러가 발생합니다.. 아마도 AutoAWQ에서

model-00001-of-00004.safetensors 이 파일을 불러오려다가 실패한것 같은데,
이런식이면 무조건 safetensors파일이 4개만 있는 파일만 양자화가 가능한건가요?
이 모델의 경우

model-00001-of-00008.safetensors 이런식으로 8개의 세이프텐서 파일이 있는데, 어떤식으로 적용해야될지 궁금합니다..

너무 초보적인 질문인것 같아서 죄송합니다..ㅠ

댓글 [17] 글쓰기

HyperBlaze456

2024-05-17 17:59:40 답글

모델위치/llama-3-10b-it... 이건 terminal이 열린 밑에 하위 디렉토리에 있어야지만 찾을수 있습니다.
파일 양자화가 되고 안되고 문제가 아니라, 그냥 safetensor 형식의 모델이 어디 있는지를 못찾았네요

펼쳐보기▼

Dikko

2024-05-17 18:02:00 답글

*수정됨

모델위치의경우 실제로 모델위치라고 쓴건 아니고 하위 디렉토리는 모델위치라고만 적어뒀습니다!--아.. 터미널의 하위 디렉토리요? 현재 디렉토리가 어디인지 확인해보겠습니다!

펼쳐보기▼

HyperBlaze456

2024-05-17 18:06:03 답글

\바탕 화면\LiveCharacter\risu-backend-python 요런식으로 터미널이 열려있다면, 저 모델이 있는 위치 디렉토리가 risu-backend-python 밑에 있어야지 저렇게 해서 불러올 수 있다는 겁니다. os 쓰는 방법도 있긴 하겠지만 그건 이제 C:부터 거슬러 올라가는 디렉토리 넣어줘야 할거고요.

펼쳐보기▼

Dikko

2024-05-17 18:14:17 답글

*수정됨

os.getcwd()로 확인했을때 모델 위치는
터미널 현재경로 밑에있는 디렉토리에llama-3-10b~ 폴더안에 있는 상황입니다..

펼쳐보기▼

HyperBlaze456

2024-05-17 18:16:31 답글

파일구조를 알려주세요

펼쳐보기▼

Dikko

2024-05-17 18:18:08 답글

model_path = '/home/robi/Fullstack_GPT/lcw99/llama-3-10b-it-kor-extented-chang'
이게 전체 모델경로입니다. 처음에 이렇게 입력했구요.

펼쳐보기▼

HyperBlaze456

2024-05-17 18:21:57 답글

터미널이 home에서 열려있지 않았다면 안돼요
예를들어 터미널이 lcw99에서 열려있다면 model_path는 ./llama-310b-it-kor-extended-chang 이어야 합니다

펼쳐보기▼

Dikko

2024-05-17 18:26:36 답글

답변은 감사하지만 그문제는 아닌거같습니다. os.getcwd()로 확인해보고, 모델파릴 디렉토리 위치도 수정해서ㅠ돌려봐도ㅠ 계속 동일한 에러가 생깁니다

펼쳐보기▼

HyperBlaze456

2024-05-17 18:29:05 답글

우선 모델위치 문제고 quant과정 문제가 아니라는거 염두에 두시고, vsc같은거 쓰시면우 사진도 글에 첨부해주세요. 폴더구조를 모르면 못도와드립니다. 흔한 에러지만 개인마다 다 달라서 형태가

펼쳐보기▼

Dikko

2024-05-17 18:30:25 답글

캡쳐한 파일을 보내드리고싶은데, 글 수정이 막혀있습니다. 방법이 있을까요?

펼쳐보기▼

Dikko

2024-05-17 18:28:19 답글

말씀해주신대로 현재 디렉토리 ./Fullstack_GPT의 하위 디렉토리인 './lcw99/llama-3-10b-it-kor-extented-chang'으로 변경해봐도 동일한 에러가 생기네요..ㅠ

펼쳐보기▼

HyperBlaze456

2024-05-17 18:31:57 답글

그뒤에 /model-0001..이거 이름 붙여넣으시면 될거에요

펼쳐보기▼

Dikko

2024-05-17 18:42:30 답글

개별 파일 이름으로 붙여넣어봤는데 또 에러가 발생하더라구요..
일단 허깅페이스 페이지 보니깐 올려져있는파일은 model-00001-of-00004.safetensors
이런식으로 4개가 올려져있어서 차선책으로 해당파일을 사이트에서 직접 다운로드 한다음에 다시 시도해보려고 합니다.

펼쳐보기▼

Dikko

2024-05-18 02:41:11 답글

허깅페이스에서 개별 텐서파일 4개 다운받아서 교체했더니 진행되었습니다!

펼쳐보기▼

gadgetrie

2024-05-20 01:18:29 답글

*수정됨

그러면 git lfs관련 문제일지도 모르겠네요
저도 처음에 허깅에서 큰 파일 받을 때 lfs가 안깔려있어서 고생 좀 했네요

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-20 01:48:20 삭제 수정 답글

늦게봤지만 첫댓 글 분 말대로 파일을 못찾은거라 1. 권한 문제 2. 실수로 파일 이름을 변경한 경우 3. git으로 다운받을때 깨져서 인식을 못하는경우 이 세가지 경우 중 하나였는데
파일교체로 해결됐다는거보면 2번 아니면 3번이었겠네요

펼쳐보기▼

Dikko

2024-05-20 02:25:34 답글

서칭으로 찾은 코드로 모델을 다운받았는데, 해당 코드가 문제가 있었나봅니다..

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29846647

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6111

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27578

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9100

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4274 일반 LLMOps로 살아남을 수 있을까?

maywell 2024.06.02 85 1

4273 일반 라마3-v 8b모델 공개했네요 [2]

ㅇㅇ 2024.06.01 168 2

4272 질문 LoRA 제작 두번 실패하면서 모은 질문들 [1]

세법상법 2024.06.01 152 0

4271 일반 command r plus 4bit + 3090 4way 후기 [6]

감별사 2024.06.01 340 5

ㅇㅇ 2024.06.01 331 14

4269 일반 일지

세법상법 2024.05.31 169 0

4268 일반 vast.ai + command r plus 4bit + a4000 * 8 [8]

감별사 2024.05.31 255 5

4267 일반 오늘은 다른 방식으로 굽는 중

세법상법 2024.05.31 192 0

4266 질문 데이터 형식 질문

ㅇㅇ 2024.05.31 165 0

4265 일반 rtx5090 vram 28기가 루머 [18]

whs 2024.05.31 653 2

4264 일반 4060ti 16g 4way 로는 command r plus 는 좀 힘드네요 [12]

감별사 2024.05.30 421 3

4263 일반 runpod tinyllama 야인시대 LoRA 시도(실패) [2]

세법상법 2024.05.30 311 4

4262 일반 gpu 안좋은 분들 뭐 씀? [9]

세법상법 2024.05.30 657 0

4261 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [16]

bedovyy 2024.05.30 886 16

4260 일반 하 이직하고 오랜만에 접속하니 세계가 바뀌어 있네요... [10]

lIlBrother 2024.05.30 836 5

4259 정보 Mistral의 첫 코딩 AI, Codestral 발표 [3]

Thomas_Shelby 2024.05.29 646 5

4258 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 989 17

4257 일반 역시 Kiqu 70B는 맛있네요 [2]

용바오 2024.05.29 643 0

4256 일반 (리눅스) 수정된 nvidia 드라이버로 3090/4090 에서 P2P를 활성화해보자.

bedovyy 2024.05.29 430 5

4255 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1024 13

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.