3달 간 LLM qlora 7b ~ 13b 사이 모델 fine tuning 한 결과

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3471명 알림수신 173명 @바바리맨

제한없는 언어모델을 위한 채널

학습 3달 간 LLM qlora 7b ~ 13b 사이 모델 fine tuning 한 결과

ㅇㅇ (61.33)

추천 20 비추천 0 댓글 12 조회수 1882 작성일 2024-04-14 23:57:24

https://arca.live/b/alpaca/103677370

이 카테고리란에 써야할지, 질문/일반/정보 보다 이쪽이 더 비중이 큰 듯해서 글을 끄적여봅니다..

주어진 장비/환경 상 풀파인튜닝이나 llama 2 기준 13b 정도가 한계이고 이마저도 qlora 4bit를 적용을 limit으로 두고

진행해왔습니다.

챈에서도 학습 과정에 대해 질문도 몇번 하고 고쳐서 다시 진행하면서 제 나름의 경험을 작성해볼까 합니다.

혹시나, 다른 분들의 추가 경험이나, 지적 또는 개선사항이 있다면 부디 부탁드립니다..

# 7b

model_name = "beomi/llama-2-ko-7b"

- 사용 eos token : <|endoftext|> 46332

- instruction 학습 잘되며, 기존 llama 2 format과 다르게 해도 학습이 잘 됨. 단, 가장 작은 소형모델이기에 환각증상은 종종 있음

- 멀티 턴 대화거나, task 적 질의 일때 앞에 이전 대화를 그대로 반복하는 현상 (13b에서는 덜함)

model_name = "maywell/Synatra-7B-v0.3-dpo"

- 사용 eos token : <|im_end|> 32000

- 잘 되긴하는데... 스페셜토큰이 그대로나옴 , 결과적으로 학습 미묘

model_name = "maywell/Mistral-ko-7B-v0.1"

- 사용 eos token : <|im_end|> 46080

- 이상하게 댐...ㅠ 2 </s> 으로도 테스트 진행했으나, 잘안댐

model_name = "google/gemma-7b"

- 환경이 window이고 bitandbyte 가 0.42.1? 까지만 현재 지원가능한데 해당 경우엔 버전업이 필요해서 보류

- 7b ko 버전이 나온걸로 아는데, 추후 할 수 도 있으나 현재는 보류

# 10b

model_name = "maywell/Synatra-10.7B-v0.4"

- 사용 eos token : </s> 2

- 잘되긴 하나 llama 2 에 비해 종종 답변을 계속 진행

model_name = "beomi/SOLAR-KOEN-10.8B"

- 사용 eos token : </s> 2

- 좀 느린데 모델 토큰 문제일수도 있음 inst 추가해야한다던지, 문제 존재 , eos 토큰이 제대로 안찍힘... (학습 문제?)

model_name = "beomi/OPEN-SOLAR-KO-10.7B"

- 사용 eos token : <|endoftext|> 46100

- 잘됌, "maywell/Synatra-10.7B-v0.4" 비슷한 현상 존재

model_name = "yanolja/EEVE-Korean-10.8B-v1.0"

- 사용 eos token : <|im_end|> 32000

- 폴리그롯과 같은 패딩 에러 ..혹은 조절 하면 될거같긴한데...? 자체적으로 10b 내외 중 최고이나 파인튜닝은 글쎄...

# 13b

model_name = "EleutherAI/polyglot-ko-12.8b"

- 사용 eos token : <|endoftext|> 2

- 별로... 대부분 듀토리얼 파인튜닝 가이드와 같이 학습이 잘된 것처럼 보이나 eos 토큰 학습이 잘 안되고, 답변을 계속 생성하는 현상 존재

model_name = "beomi/llama-2-koen-13b"

- 사용 eos token : : <|endoftext|> 46332

- 현존 학습 잘되기로 최고의 모델, 가장 높은 성능 보유

- 자체 베이스 성능은 주어듣기로는 llama 2 가 저 위의 다른 모델보다 낮다고 하나 경험상 파인튜닝으로 이 모델을 이긴 현존 한글 모델은 없었음

정리 :

- 현재 llama 2 backborn 모델을 제외하곤 파인튜닝(풀파인튜닝이거나 베이스 모델이 30b 이상이면 다를수 있음. 아마도 그럴거라 생각함) 학습이 잘 되지 않음

- 파라미터를 조절해도, 이상한 답변 (말이 반복된다던지, 가가가가아아아 같은 의미불명 반복) 은 없어질 수 있으나, eos 토큰 학습이 잘 안되는 형상이 주류

- 이에 판단한건데 위에 언급한 거처럼 백본 모델을 교체하거나 (더큰 모델), 풀파인튜닝하면 해결하지 않을까ㅓ? 싶음 (주어진 환경상 이이상은 불가...)

- 데이터셋은 3개의 레퍼런스에서 가져온 것을 기반으로 약 29000개의 혼합 데이터셋 활용 : 싱글,멀티턴 대화 / 뉴스 요약 / 뉴스 감정 분류

나름 3개월간 sLLM을 목표로 제 기준 다양한 모델과, 여러 참고 자료를 기반으로 시도했고,

Instruction format도, chatML, llama, alpaca 등 몇가지 템플릿을 기반으로 학습도 해봤으나 결국 한글 베이스 모델중

llama 2 7b, 13b를 이기는 모델은 없었습니다...

다른 모델은 몇번 인퍼런스 시도해보니 답변이 중지 안 되는 현상이 주 현상이더라구요.

물론, 단독으로 쓸때는 얘기가 완전히 달라지겠지만... 적어도 제가 qlora 4bit 파인튜닝 시에는 그랬습니다.

혹시나 저와 같은 과정을 겪어서 저와 다른 결론에 있으시거나 해결되신분이 있다면 조언 부탁드려봅니다.

개인적으로 한글 베이스 모델이 더 많아지길 기원합니다.

주절두서리없는 비화를 봐주셔서 감사합니다!

댓글 [12] 글쓰기

ㅇㅇ (61.74)

2024-04-15 02:43:47 삭제 수정 답글

혹시 파인튜닝은 어떤 툴로 하신건가요?

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-15 04:29:39 삭제 수정 답글

툴요...? 걍 아나콘다 주피터노트북에서 했습니다...

펼쳐보기▼

ㅇㅇ (49.174)

2024-04-15 03:39:19 삭제 수정 답글

혹시 튜닝한 특정 태스크가 있으시면 모델 별 태스크 별 메트릭 평가 같은 것도 있을까요?

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-15 04:31:00 삭제 수정 답글

싱글턴/멀티턴 , 요약 경우 G-EVAL 이라는 걸 활용했고,  분류는  Confusion matrix 써서 f1 score로 확인했습니다. 요약쪽 데이터가 추출 요약이라 그런지 성능이 좀 미묘하긴한데 분류 평가 기준 85% 정확도 나왔습니다.  이외에 더 확인하고픈 방법들이 있었는데 비용/시간 상 더 하진 못하겠더라구요...

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-15 04:38:06 삭제 수정 답글

추가로, 평가를 위해 29000 개를 학습으로, 800개정도 (싱글/멀티 300, 요약 200, 분류 300 = 800개 test) test로 썼습니다. 원래 데이터셋 자체는 41000개? 정도 였는데 데이터 불균형때문에 위 처럼 나누었습니다.

펼쳐보기▼

maywell

2024-04-15 03:48:01 답글

고생많으셨습니다.
eos 토큰은 기존 모델의 eos를 따라가시는게 좋습니다.

펼쳐보기▼

ㅇㅇ (61.33)

2024-04-15 04:31:53 삭제 수정 답글

넵... 그걸 느끼긴했는데 아무래도 eos 토큰 학습이 생각보다 잘안되더라구요. mistral 7b 경우, 1000 step 돌려서 잘나와서 29000개 마저 해보니까 안되는 현상도 있었습니다...

펼쳐보기▼

철권짱

2024-04-15 05:07:53 답글

ㅇㅇ (210.91)

2024-04-15 05:43:35 삭제 수정 답글

저만 이런줄 알았는데 다른 분들도 그러시군요.
beomi/SOLAR-KOEN-10.8B는 동어반복이 좀 있고 학습이 이상하게 됩니다.
beomi/OPEN-SOLAR-KO-10.7B는 자기 혼자 질문을 만들도 답변을 계속하고
yanolja/EEVE-Korean-10.8B-v1.0는 검증된 오픈데이터로 학습을해도 성능향상이 거의 없다싶이합니다.
동어 반복이나 가끔 이이갸갸 같은 의미 불명의 답변을 하는건 솔라 베이스 모델의 문제라 다들 공유하는건가 싶어요.

펼쳐보기▼

기면민

2024-04-15 08:39:21 답글

정보감사합니다. evee 4bit qlora 학습 후 inference 해도 자꾸 지혼자 assistant, user 말을 만들던데 그냥 솔라 기반 모델 문제일 가능성이 높군요.
우선, 분류 태스크를 다르게 접근해야겠습니다.

펼쳐보기▼

2024-04-15 09:22:01 답글

흥미롭게 읽었습니다.

펼쳐보기▼

Dikko

2024-04-24 14:42:01 답글

저도 최근 파인튜닝 시도해본결과 생각보다 성능향상이 없는게 공감됩니다. 깨진 특수문자를 주르륵 쏟아낸다던가, 의미없는 답변을 한다던가 그러더군요. 문제는 아직 쓸만한 속도로 베이스모델을 추론하는것도 못해본지라 아직 학습단계가 이른것같기도 합니다..

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30663573

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6181

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27999

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9230

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

일반 일본어 모델들 양자화 했는데 공유해도 문제 없음?? [2]

iau 2024.04.17 517 2

일반 트위터) 라마3 진짜 곧 출시 [8]

사과는맛있어맛있으면바나나 2024.04.16 1301 10

일반 일본쪽 모델은 왜 성능 발전이 느릴까 [13]

iau 2024.04.16 723 0

일반 mlx 를 돌려봤습니다. [2]

noopSD 2024.04.16 369 2

질문 2070s로 어디까지 할 수 있나요..? [8]

ㅇㅇ 2024.04.16 463 3

질문 ai가 문장을 이해한다라는 문장은 현재수준에서는 틀린말인가요? [19]

shower 2024.04.16 700 1

일반 아 쿼드로 8000 48GB 모델 겁나 싸게 떴네요... [18]

감별사 2024.04.16 890 0

질문 임베딩 모델 SBERT 학습관련 [6]

ㅇㅇ (121.166) 2024.04.16 478 0

정보 mt bench에서 gpt4 0314능가: wizardlm 2 8x22b [12]

ㅇㅇ 2024.04.15 1033 11

일반 이브이 16k/32k [24]

maywell 2024.04.15 1448 28

학습 3달 간 LLM qlora 7b ~ 13b 사이 모델 fine tuning 한 결과 [12]

ㅇㅇ (61.33) 2024.04.14 1883 20

질문 챗gpt 같은 애들이 답변 출력 할 때 [9]

페르소나dh 2024.04.14 702 0

일반 m1 ultra 128gb 이거 쓸모가 많을까요?? [20]

돌돌돌돌 2024.04.14 907 1

일반 파인튜닝 공부 관련 질문 및 조언 부탁드립니다 [8]

ㅇㅇ (211.201) 2024.04.14 558 1

일반 Winograd

pussydestroyer 2024.04.14 505 4

일반 chain of thought전용 모델을 만들면 어떨까? [8]

ㅇㅇ 2024.04.14 433 1

질문 아렛글 수정이 안되 스샷 첨부해 다시 올려요 [4]

bigton 2024.04.14 250 -2

일반 컴파일이 가능한 Natural-C (상상의 나래) [4]

pussydestroyer 2024.04.14 380 0

질문 우바부가 모델이 vram이 아닌 ram으로만 로딩이 되네요 [3]

bigton 2024.04.14 371 0

일반 챈섭 오픈 Mixtral-8x22B-v0.1 (종료) [11]

변태Lv1 2024.04.14 692 11

글쓰기

전체글 개념글