500개 이상의 LoRA를 만들어본 후, 터득한 비결

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3326명 알림수신 164명 @바바리맨

제한없는 언어모델을 위한 채널

스터디 500개 이상의 LoRA를 만들어본 후, 터득한 비결

hkhk

추천 27 비추천 0 댓글 15 조회수 2957 작성일 2024-01-25 11:49:39

https://arca.live/b/alpaca/97501537

이라는 제목의 글을 허깅페이스 블로그에서 발견해서 소개함

https://huggingface.co/blog/FPHam/lora-secrets-1

(레딧에 게시된 제 글을 전재한 글)

원하셨으니 여기 있습니다:

데이터 세트의 품질은 모든 것의 95%입니다. 나머지 5%는 잘못된 파라메터로 망치지 않는 것입니다.

네, 알아요, 쩝! 사람들이 비밀 파라메터나 비법을 찾는다고 하지만, 이것이 핵심입니다.

그리고 저는 깨끗한 데이터 세트를 의미합니다. 네, 인터넷에서 생성되거나 긁어온 수천 개(어쩌면 수만 개)의 항목이 있는데 누가 그것을 볼 시간이 있을까요? 저는 "유명한" 데이터 셋에서도 그것들을 종종 발견합니다. 무작위로 몇 가지 항목을 살펴보면 곧 쓰레기를 발견할 수 있는데, 이는 분명히 생성되었거나 긁어왔지만 실제로 내용물을 확인 하지 않았기 때문입니다. 썩은 달걀 몇 개만 있어도 전체를 망칠 수 있습니다.

데이터 세트를 수동으로 확인하고 쓰레기를 제거하거나 변경하기 시작하자 품질이 10배나 향상되었습니다. 예, 시간이 많이 걸리긴 하지만 어떤 파라메터나 요령으로도 이 문제를 피해갈 수는 없습니다.

훈련 파라메터는 더 나은 목표물을 만들기 위한 것이 아니라 망치지 않기 위한 것이므로, 존재하지 않는 완벽한 학습률 2.5647e-4를 쫓을 필요는 없습니다. 올바른 방향을 목표로 삼고 데이터 세트가 잘 준비되어 있다면 대부분의 경우 그 목표에 도달할 수 있습니다.

몇 가지 참고 사항이 더 있습니다:

13b의 한계는 딱 명확합니다. 13b에서 100% 견고한 파인튜닝을 할 수 있는 방법은 없습니다. 근접할 수는 있지만 어린아이처럼 무릎에 우유 한 컵을 엎을 때도 있습니다. 제대로된 결과를 보려면 최소 33b는 필요합니다. 안타깝게도 24GB의 가정용 하드웨어에서 33b를 훈련하는 것은 기본적으로 불가능합니다. 앞서 말씀드린 대로 파라메터를 낮춰야 하기 때문에 기본적으로 망칠 수 있습니다. 33b의 경우 최소한 48GB가 있어야 돌려볼 수 있습니다.

경험에 비춘 솔직한 의견으로는 그라데이션 누적(GA = gradient accumulation)은 몇 개 이상의 batch를 수행하는 경우 품질을 저하시킬 수 있습니다. 어딘가에 최적점이 있을 수 있지만 전 못 찾았습니다. 물론 배치 1과 GA 32가 배치 1과 GA 1보다 낫겠지만, 결국 미봉책에 불과합니다: 그래도 과적합을 방지할 수 있으므로 일반화에 도움이 될 수 있습니다. 목표가 무엇이고 데이터 세트가 얼마나 다양한지에 따라 다릅니다.

데이터 세트의 크기는 베이스모델을 파인튜닝 할 때는 중요하지만 이미 파인튜닝된 모델을 바탕으로 추가 파인튜닝할 때는 덜 중요합니다. - 사실 이 경우에는 오히려 적을수록 좋거나 이전의 파인튜닝을 망칠 수도 있습니다.

알파 = 랭크의 2배 라는 공식은 사람들이 저사양 GPU를 가지고 있고 목표에 빨리 도달하기를 원했던 옛날에 나온 것 같습니다. 가중치를 두 배로 늘리는 것 외에는 별 의미가 없는 것 같습니다. 더 크게 만들면 노이즈도 더 커지기 마련입니다

제가 선호하는 스케줄러는 워밍업을 1에포크 동안 유지한 다음 남은 1-x에포크 동안 cosine down입니다.

rank는 말 그대로 훈련 가능한 파라미터의 수를 의미하며, 다른 의미(스타일 vs 지식)를 찾으려고 노력할 필요가 없습니다. 비유하자면 1백만 화소와 16백만 화소로 촬영한 이미지를 비교하는 것과 같습니다. 1M픽셀의 경우 전체 이미지는 항상 선명하지만 디테일이 매우 흐릿합니다. 큰 피사체는 여전히 볼 수 있지만 디테일은 괜찮을 것이라고 기대하지 않는 것이 좋습니다. 물론 문제는 이러한 매개변수를 채울 수 있을 만큼 다양한 학습 데이터를 보유하고 있느냐는 것입니다. 그렇지 않다면 일반화하기 어려운 매우 특정한 모델을 만들게 될 것입니다. 랭크를 낮추게 되면 일반화에 도움이 되지만, 일상적인 세부 사항을 놓치게 됩니다.

또 다른 조언이 있나요?

아, 네, LLM용 LORA에 대해 말씀드렸지만 이미지 디퓨전 모델의 로라 튜닝에도 분명히 적용될 수 있는 개념들입니다. 실제로는 모두 같은 것입니다(따라서 PEFT는 두 가지 모두에 사용할 수 있으며 동일한 규칙이 적용됩니다).

댓글 글쓰기

파라노이아

2024-01-25 12:29:03 답글

*수정됨

소설도 난잡한 비문이 있는 글보다 편집과 퇴고를 거친 깔끔한 글이 독해도 잘 되고 읽히기도 쉽듯이, 언어모델의 데이터셋도 그런 편집과 퇴고를 거쳐야 성능이 더 잘 나온다는 것... 음미해볼만한 대목인듯.

펼쳐보기▼

noopSD

2024-01-25 12:54:27 답글

역시 재료가 좋아야 나오는 것도 좋다 이거군요. 좋은 글 감사합니다.

펼쳐보기▼

뉴비챗

2024-01-25 13:10:29 답글

그럼 결국에
sft데이터셋의
중요성 저임금
노동자로 데이터셋 하나하나 검증 작성한 OAI가
맞았네요

펼쳐보기▼

hkhk

2024-01-25 15:36:57 답글

오픈ai가 그런 면에서 판단을 잘 했고 그덕에 기술우위를 가져가고 있는것 같습니다

펼쳐보기▼

DopeorNope

2024-01-25 14:38:06 답글

*수정됨

데이터 퀄이 맞지요.. 저도 이번에 MOE모델 코퍼스 말고.  Instruct tune용 데이터 하나하나 다 확인했습니다.

약 15만개 가량 다 확인하느라 힘들더라구요..

펼쳐보기▼

hkhk

2024-01-25 15:36:06 답글

수동 노가다 도와주는 툴을 잘 만드는 회사가 ai사업에서 장기적으로 비전이 있다고 봅니다. 데이타셋을 만듬에 있어서 초반에는 사람의 힘으로 bootstrapping 을 시키고, 그 다음부터는 점점 기계가 도와주다가 나중에는 자동으로 전환하는 과정을 스무스하게 해주는 환경이 이상적이라고 봅니다

펼쳐보기▼

익명 (211.54)

2024-01-26 01:33:59 삭제 수정 답글

*수정됨

AC는 코드적으로 배치 사이즈 늘리는 거랑 완전히 같은 거라고 알고 있었는데 제가 잘못 알고 있는 걸까요?

펼쳐보기▼

hkhk

2024-01-26 06:54:12 답글

그냥 배치사이즈 늘리는것과는 다를거 같네요.

펼쳐보기▼

ㅇㅇ (59.15)

2024-01-27 04:08:15 삭제 수정 답글

그러게요 저 말은 batch norm을 가진 모델이어야 성립할텐데 이상하네요

펼쳐보기▼

포리X

2024-01-26 06:30:53 답글

Dikko

2024-01-26 10:44:43 답글

33b모델에 필요한 vram 최소 48g라는건4090 듀얼로도 가능하다는 뜻인가요?

펼쳐보기▼

hkhk

2024-01-26 12:25:47 답글

그런것 같습니다. 다만 모델 올릴때 디바이스 스플릿을 잘 해서 올려야 할 것 같습니다. 허깅페이스 트랜스포머에서 디바이스 그냥 auto 로 주는걸로는 알아서 잘 되진 않을겁니다.

펼쳐보기▼

Dikko

2024-01-27 08:43:08 답글

그렇군요..답변 감사합니다!

펼쳐보기▼

12시5분

2024-01-27 13:34:05 답글

ㅇㅇ

2024-05-03 02:39:14 답글

개추가 안되네
좋은 데이터 얻기가 진짜 힘들다...

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28147794

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5808

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 26209

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8498

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4163 일반 gemma를 ollama에서 서빙을 하려 합니다.

ㅇㅇ (218.145) 2024.05.09 67 0

4162 질문 llama.cpp로 양자화할때 에러가 뜨는데 무슨 문제려나요 [2]

그래요 2024.05.09 89 0

4161 질문 Deepspeed 사용하는 방법 아시나요? [16]

ㅇㅇ (223.39) 2024.05.09 247 0

4160 일반 코딩 llm 자주 사용함? [16]

사과는맛있어맛있으면바나나 2024.05.09 336 1

4159 자료 IBM에서 아파치2 라이센스로 코딩모델 출시 [4]

이하비스 2024.05.09 171 1

4158 일반 호기심에 번역한거 비교해봄 [10]

pussydestroyer 2024.05.08 433 1

4157 스터디 비전 트랜스포머에는 레지스터가 필요하다 [18]

hkhk 2024.05.08 486 25

4156 스터디 디퓨전 모델이 학습하는 원리 - 어디까지 암기이고 어디부터 학습일까? - 디퓨전 모델은 정말 이해를 하고서 이미지를 만드는걸까? [6]

hkhk 2024.05.08 578 26

4155 질문 업무 목적으로 한국어 튜닝해서 사용하시는 분 계신가요? [2]

페르미 2024.05.08 265 0

4154 일반 (구글x서울디지털재단)2024 서울 프롬프톤(AI 프롬프트엔지니어링 해커톤) 참가자 모집(기간 연장, ~5.15) [5]

ljhljhljh 2024.05.08 466 8

4153 일반 A100 40GB로 llama3 70B 구동은 되는지? [3]

ㅇㅇ (203.252) 2024.05.08 407 2

4152 일반 ms가 500b 모델을 학습중이라고 합니다 [2]

그래요 2024.05.08 326 3

4151 질문 베이스라인 모델 선정 방법

레바 2024.05.08 271 0

4150 일반 판매자 정보 실수 - 4060ti 16gb dual 또는 3way 를 위한 핫딜 정보 [11]

ㅇㅇ 2024.05.07 557 5

4149 질문 vllm 활용 추론 관련해서 질문드립니다. [10]

Dikko 2024.05.07 370 0

4148 질문 3090(24gb) 대신 4060ti 16gb 2개 사용하는건 추천 안 하시나요? [6]

ㅇㅇ (110.8) 2024.05.07 386 0

4147 일반 런팟 NFS 마운트 안되나요?

ㅇㅇ (121.135) 2024.05.07 140 0

4146 정보 gpt2-chatbot돌아옴 [15]

HyperBlaze456 2024.05.07 1317 11

4145 질문 gpu 4개를 공냉으로 구성하면 IDC입고 필수일까요? [10]

ㅇㅇ (203.245) 2024.05.07 469 0

4144 일반 rag를 사용할때 로컬모델의 경우 모르는것을 모른다고 잘 하던가요? [7]

호옹이 2024.05.07 487 2

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.