몇가지 llama 2 7b instruction format 테스팅하면서 느낀점 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3539명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

학습 몇가지 llama 2 7b instruction format 테스팅하면서 느낀점

ㅇㅇ (61.33)

추천 2 비추천 0 댓글 2 조회수 737 작성일 2024-05-02 23:48:14 수정일 2024-05-02 23:52:50

https://arca.live/b/alpaca/105226617

환경상 7b 또는 13b 정도가 한계라...

최소한 eos 토큰 학습을 잘되는 것을 목표로 몇주간 트라이 했으나 일단 기록을 목표로 작성해봅니다.

그냥 이런 사례도 있구나 정도로 봐주시면 될 것 같습니다

베이스 모델 : llama 2 7b ko (beomi님 모델)

파인튜닝 데이터셋 : 29000개 (싱글/멀티턴 대화 , 분류, 요약 등)

사용한 포맷 :

=> 알파카 포맷 기반의 약간의 커스텀 :

{system_msg}

[이전대화]

{history}

[현재대화]

## instrcution :

{instruction}

## output :

{output}

그외 시도한 사용한 포맷 :

=> 미스트랄 내지는 llama 2 chat, instruction 포맷 :

미스트랄 포맷 : 심플하게 <s>[INST] [/INST]</s> 로 진행...

llama 2 :

<s>[INST] <<SYS>>

{system_msg}

<</SYS>>

{instruction} [/INST]

{output}</s>

이것을 기반으로 띄어쓰기/\n/\n\n 여러 케이스 하면서 테스트

예 )

<s>[INST] <<SYS>>

{system_msg}

<</SYS>>

{instruction} [/INST]

{output}<s>

<s> ...

<s>[INST] <<SYS>>

{system_msg}

<</SYS>>

{instruction} [/INST]

{output}<s></s> ...

결론 : 미스트랄/라마2 에서 선호하는 포맷은 전부 실패

1) 말이 반복하는 현상 (이 경우 epoch 수와 lr 조절로 해결 )

2) eos 학습 안되는 현상 (가장 큰 문제로, 7b 자체 문제인가? 했으나 성공 사례가 있어서 아직 정확한 원인 불가)

3) 알파카 기반 포맷의 커스텀이 가장 잘 학습됨 (일부 환각증상은 있으나 eos 토큰 문제가 없음 현재까지)

모델이 10b 아래라서 모델 베이스 자체문제인지, 아니면 백본모델을 instruction/chat 미세조정한거로 해야 제대로 먹히는지는

아직 시도안해봐서 확인은 안되었으나

라마 2 base 인 경우엔 생각보다 메타에서 추천하는 포맷은 잘 안먹히더라구요

아마 다음 테스팅은 라마 3 instruction 기반으로 만지작 거릴텐데 (이건 포맷이 바꼇던데 그걸 기준으로 할생각입니다)

굳이 기록용이다 싶으면 라마2 base 경우 생각보다 추천 format이 안먹힌다는 점이 제 학습상 느낀점이네요...

그냥 이런 게 있구나 정도로 봐주십사 합니다

제가 잘못했을 수도 있고 다른 분들도 뭔가 경험이 있으시다면 답변 부탁드립니다.

댓글 [2] 글쓰기

2024-05-03 10:10:48 답글

eos문제가 생긴다는건 첨들어봄

펼쳐보기▼

2024-05-03 14:44:15 답글

전처리 좀 다시해보고 테스팅해볼려구여

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31532207

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6298

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28650

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9509

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5498

공지 신문고

바바리맨 2023.04.18 2367

숨겨진 공지 펼치기(1개)

4265 일반 오늘은 다른 방식으로 굽는 중 [2]

세법상법 2024.05.31 320 0

4264 질문 데이터 형식 질문

ㅇㅇ 2024.05.31 220 0

4263 일반 rtx5090 vram 28기가 루머 [19]

whs 2024.05.31 987 2

4262 일반 4060ti 16g 4way 로는 command r plus 는 좀 힘드네요 [12]

감별사 2024.05.30 602 3

4261 일반 runpod tinyllama 야인시대 LoRA 시도(실패) [4]

세법상법 2024.05.30 428 4

4260 일반 gpu 안좋은 분들 뭐 씀? [9]

세법상법 2024.05.30 942 0

4259 일반 aya-23-35B 6.0bpw + 아프로디테로 "소설가가 되자" 일한 번역 [17]

bedovyy 2024.05.30 1312 16

4258 일반 하 이직하고 오랜만에 접속하니 세계가 바뀌어 있네요... [10]

lIlBrother 2024.05.30 1092 5

4257 정보 Mistral의 첫 코딩 AI, Codestral 발표 [3]

Thomas_Shelby 2024.05.29 839 5

4256 정보 MS, 미세조정 기술 '로라' 개선한 '모라' 공개 [3]

ㅇㅇ (211.214) 2024.05.29 1524 17

4255 일반 역시 Kiqu 70B는 맛있네요 [2]

용바오 2024.05.29 801 0

4254 일반 (리눅스) 수정된 nvidia 드라이버로 3090/4090 에서 P2P를 활성화해보자.

bedovyy 2024.05.29 550 5

4253 일반 혹시 채널발 '한국어' 정보글 집대성 해볼 생각 없음? [26]

세법상법 2024.05.29 1419 13

4252 일반 (성공) Aphrodite + 160GB + 4060ti * 4 + llama 3 70b [23]

감별사 2024.05.29 1419 11

4251 질문 공부하다가 모르는게 있어서 질문드립니다 [9]

ㅇㅇ 2024.05.29 609 3

4250 일반 Aphrodite + 4060ti 16gb 4way + 96GB + llama 70b inst 4bit 후기 [5]

감별사 2024.05.28 668 3

4249 일반 wikichat + gpt4o 강력합니다. [2]

zzzzz5 2024.05.28 1018 6

4248 일반 Aphrodite 매우 빠르네요. [9]

감별사 2024.05.28 1067 8

4247 질문 text-generation-webui 에서 답변을 받아오고싶은데 뭘로 검색해야 찾아볼수있나요 ? [1]

ㅇㅇ (211.118) 2024.05.27 533 0

4246 일반 document layout parsing 은 마음에 드는 게 도통 없네요.. [10]

감별사 2024.05.27 604 3

전체글 개념글