axolotl 레이어 얼리는 문제관련 버그 해결 방법 공유

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3513명 알림수신 173명 @바바리맨

제한없는 언어모델을 위한 채널

정보 axolotl 레이어 얼리는 문제관련 버그 해결 방법 공유

DopeorNope

추천 14 비추천 0 댓글 8 조회수 752 작성일 2024-01-13 01:15:59 수정일 2024-01-18 21:29:47

https://arca.live/b/alpaca/96496905

자 이틀간 제 골머리를 썩히게 만들었던 axotl의 레이어 가중치 묶고 푸는것에 대한 문제 해결 방법 공유하도록 하겠습니다.

우선 어떤것이 문제냐?

deepspeed zero3 이놈이 문제였다.

문제인 이유: 우선 이놈으로 가지고 오게 되면, 우선 명시적인 텐서의 size가 0이 되어버리는 이상한 문제가 있다.

물론, 그대로 full fine-tuning이나, pre-train 하게 되면, 상관 없지만, 특히 내가 원하는 레이어만 얼리고 싶은데, 이놈을 기존의 방식대로 풀어주려면, 텐서사이즈가 0으로 torch에서 찍히니, 문제가 발생

나는 8번 레이어를 묶어주고 싶었는데, 8번 레이어중 하나의 shape을 찍어보면, 이렇게 보인다.

model.layers.8.self_attn.q_proj.weight

torch.Size([0])

for param in model.parameters():

param.requires_grad = False

for name, param in model.named_parameters():

if any(pattern.match(name) for pattern in compiled_patterns):

if is_main_process():

LOG.debug(f"unfreezing {name}")

param.requires_grad = True

기존 axotl의 freeze.py 의 코드이다.

여기서 발생하는 문제가 무엇이냐면, param.requires_grad = False는 문제가 없지만, size가 0인 텐서에 param.requires_grad = True를 해주면서 에러가 발생한다.

아마 지금 올라와 있는 solar 모델도 비슷한 이유로 lm_head와 embede_token 레이어만 풀어주는 것 같다.

그러면 lm_head와 embede_token은 문제가 없는가?

=> 이건 신기하게, deepspeed 영향을 안받는것 같다.

아래의 레이어를 찍어보면 이렇게 찍힌다.

lm_head.weight

torch.Size([32000, 4096]) 이렇게 말이다.

그래서 이것은 기존의 axotl방식으로 해도 문제가 밣생하지 않는다.

그러면 나는 내가 원하는 레이어들만 묶고 풀어주려면 어떻게 해야하나요?

방법은 간단하다.

이걸 기존의 방식으로 해결하려고 거의 25시간동안 디버깅을 했지만,

풀수 있는 로직은 간단하였다.

반대로 풀어주면되는것.

즉 이미 모델을 불러오는 순간 require_grad=True인 상태이다.

그러니, 내가 원하는 레이어를 제외하면 require_grad=False로 만들어주면 아주 간단하게 해결이 된다...

즉 기존의 코드가 아닌

~~for param in model.parameters():~~

~~param.requires_grad = False~~

for name, param in model.named_parameters():

if any(pattern.match(name) for pattern in compiled_patterns):

if is_main_process():

LOG.debug(f"unfreezing {name}")

~~param.requires_grad = True~~

pass

else:

param.requires_grad = False

이렇게 반대로 해결해주면 문제는 간단하게 해결된다....

그나저나 진짜 마이크로 소프트 이시키들은 윈도우 만들듯이 라이브러리 만들어놔서 진짜 사람 잠도 못자게 하고 빡치게 만드네.....

해결방안 찾고자 라이브러리 직접 수정하고 별짓하다가 포기하고 그냥 1분만에 해결함....

이런 이슈가지고 어려워 하는 사람들 있던데 그냥 삽질말고 가장 간단한 방법으로 해결하시길...

* 추가

deepspeed로 훈련할때 bfloat16은 쓰면 안되는것 같습니다.

우선 loss가 explode합니다. fp32로 해야합니다.

weighted decay할때, 로스가 정확하게 계산 안된다는 이슈가 있네요...

댓글 [8] 글쓰기

초딩영웅

2024-01-13 01:59:39 답글

하늘의아리아

2024-01-13 02:25:41 답글

버트가조아

2024-01-15 06:19:25 답글

deepspeed에서 bf16이 튀나요?? 저도 axolotl accelerate+deepspeed zero2로 돌리고 있는데(zero3에서 assertion error가 나서), 저는 loss 안 튀는 것 같아요

펼쳐보기▼

DopeorNope

2024-01-15 16:13:55 답글

*수정됨

@버트가조아 러닝레이트가 크고 bf16이면 튀더라구요?혹시 에러나신거 디테일한 인포 제 링크드인으로 보내주시면 제가 해결하는데 도와드릴게요. 

저도 assertion error해결했습니다 ^^

펼쳐보기▼

버트가조아

2024-01-16 02:09:16 답글

헉 감사합니다..! (A100 40GB)*8  / (A100 80GB)*4 두 세팅 모두에서 에러가 나더라구요..! 조만간 학습 다 끝날 것 같은데, 새로 모델 돌릴 때 연락 드리겠습니다! 미리 감사합니다 :D

펼쳐보기▼

DopeorNope

2024-01-16 11:27:22 답글

ㅇㅇ (211.252)

2024-01-19 00:54:08 삭제 수정 답글

어쩐지... weight decay 0으로 잡으니까 훨씬 좋았던 이유가...

펼쳐보기▼

ㅇㅇ

2024-01-23 05:03:39 답글

zero2에서도 튀는 현상이 발생하나요?
국밥 베이스모델 beomi/llama2-koen-13b가 bf16인지라 다른 정밀도로 로드가 안되니 강제로 bf16을 써야하니..

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31295699

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6248

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28402

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9398

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

627 정보 Jan으로 GGUF 모델을 쉽게 구동해보기 (+ Synatra 7B DPO 구동) [6]

12시5분 2024.02.20 736 7

626 정보 macOS 에서 nvtop 이 되는군요

noopSD 2024.02.18 303 1

625 정보 엔비디아가 자체 챗봇을 냈다네요 [3]

노랑노랑 2024.02.14 752 4

624 정보 RAG를 자동으로 최적화해주는 툴 - AutoRAG [12]

제풀이 2024.02.13 2058 19

623 정보 파인튜닝한 miqu 70B가 gpt4를 이겼다는 소식 [8]

사과는맛있어맛있으면바나나 2024.02.07 1896 15

622 정보 Qwen1.5 출시. 한국어도 지원 [11]

ㅇㅇ 2024.02.05 1128 4

621 정보 딥 러닝을 이용한 자연어 처리 입문 위키독스 [7]

고닉고로시 2024.02.05 1087 14

620 정보 a100 80g로 라마7b 100만 context, x8way로 1000만 context 논문 [4]

그래요 2024.02.02 1296 14

619 정보 miqu-70b는 mistral model의 초기 버전의 유출 [6]

ㅇㅇ 2024.01.31 955 6

618 정보 100+개 언어를 지원하는 Eagle 7B (RWKV-v5기반) 모델 [10]

12시5분 2024.01.31 771 9

617 정보 100개이상의 언어(한국어 포함)를 지원하는 다국어 임베딩 모델 BGE-M3 [1]

ㅇㅇ 2024.01.31 1034 7

616 정보 mistral medium 유출? miqu-70b [6]

ㅇㅇ 2024.01.30 876 3

615 정보 gemini pro(bard)가 gpt-4 성능에 근접했다는 소식입니다 [3]

그래요 2024.01.27 1193 13

614 정보 일→한 번역기 윈도우 앱 데모 만들었다 [23]

12시5분 2024.01.26 993 15

613 정보 데이타셋 클리닝을 위해 활용하는 편집자 모델 '카렌' [2]

hkhk 2024.01.25 446 6

612 정보 Stability AI에서 Stable LM2 1.6B를 공개했습니다 [1]

그래요 2024.01.24 692 4

611 정보 독자적인 방식의 토크나이저를 탈-Python화 시키기 [11]

12시5분 2024.01.22 1124 21

610 정보 orion-14B: 한국어를 포함한 다국어 언어 모델 [8]

ㅇㅇ 2024.01.21 982 7

609 정보 네이티브 환경에서 허깅페이스 Tokenizer 활용하기 [7]

12시5분 2024.01.20 751 10

608 정보 <중요>peft 업데이트 이후 fine-tuning에러 사항 공유 및 해결방법 공유 [5]

DopeorNope 2024.01.19 606 8

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.