TinyStories-Korean 모델 학습 결과

개념글 모음

알림 알림 중 알림 취소

구독자 2760명 알림수신 77명

각 채널의 개념글을 모은 게시판입니다.

Ai 언어모델 로컬 스터디 TinyStories-Korean 모델 학습 결과

hkhk

추천 20 비추천 0 댓글 6 조회수 1105 작성일 2024-05-22 10:47:06

https://arca.live/b/alpaca/106846619

https://huggingface.co/datasets/g0ster/TinyStories-Korean

tinystories 한국어 번역 데이타셋을 갖고 llama.c 저장소에 있는 코드를 이용해서 학습해봄.

https://github.com/karpathy/llama2.c

15M 버전으로 일단 만들어보고 (학습 소요 시간 4090*2 로 약 3시간) 110M 버전으로도 만들어봄 (약 20시간)

llama2.c 에 있는 데이타셋 읽는 코드와 허깅페이스에 올라간 한국어 데이타셋의 형식이 약간 달라서 그 부분 고쳐주고 실행함

먼저 sentencepiece 를 이용해서 vocab 를 뽑아주는데 사전 사이즈를 4096 으로 잡으니까 넉넉하게 토큰화됨

토큰화를 하고 나면 생기는 tok4096.vocab 파일 내용

vocab 을 뽑았으면 데이타셋에 있는 텍스트 (약 1100만줄의 한국어 텍스트들이 50개의 json 파일로 나뉘어져 있음) 을 미리 토큰화시킴

토큰화가 끝났으면 학습스크립트를 이용해서 돌리면 된다

아래는 110M 버전의 결과

번역하면서 문장의 퀄리티가 좀 저하되서 그런지, 아니면 학습 스텝수가 부족해서 그런지 (스크립트에 기본으로 지정된 100000 스텝까지만 진행) 논리적으로 약간씩 이상한 부분이 보이지만 그냥저냥 문장은 뽑아줌. 위의 tok/s 는 gpu 를 사용하지 않고 순수 cpu 로만 뽑은거라 그렇게 빠르진 않음.

성능상에서 한계는 분명하지만, 일단 LLM pretrain의 helloworld 에 해당하는 것 하나는 해봤다는 것에 의의를 둘 수 있겠음.

여기서 더 연구해볼 부분이 몇가지 있을거 같은데

- 위의 동화이야기들은 한국어이지만 사람 이름이 맥스, 톰, 릴리 같은 이름만 되어있음. 철수나 영희 같은 이름도 추가되어야 함.

- 한국어와 동시에 원래 영어 데이타까지 합쳐서 같이 학습하게 해서 다국어버전을 만들어 돌려보는 것도 시도해볼만 함

- 유치원 수준 산수에 대한 내용을 데이타셋에 추가시켜보면 어떨까 싶음. 그냥 순수하게 숫자 연산하는 것 and 이야기 내에 사과를 먹고 또 먹었다 몇개를 먹었을까? 하고 선생님이 물어보면 두 어린이가 세개에요! 두개에요! 하는 식으로 논리적 추론을 하는 내용

- 역시 유아용 동화책에 나오는 그림들을 붙여서 vlm 으로 만들어보기. 영어 원문 동화를 잘 설명할 수 있는 그림을 한장씩 생성하고, clip 같은 이미지 인코더를 이용해서 혼합 트레이닝

- instruct 에 해당하는 질문 답변을 추가하기. Q: 이 이야기의 교훈은 무엇일까요? A: 욕심을 부리면 안된다. 같은 추상적 내용이던가, 정답이 있는 사실관계에 대한 내용 (위의 이야기에서 강아지의 이름은 무엇인가요? 같은..)

댓글 [6] 글쓰기

그래요

2024-05-22 11:57:14 답글

와 pre-train 모델을 만들수 있군요

펼쳐보기▼

한가운데

2024-05-22 12:10:53 답글

scratch부터 학습한 모델이 말을 한다는것부터가 신기하네요 ㄷㄷ

펼쳐보기▼

bedovyy

2024-05-22 13:26:24 답글

데이터셋 알려주셨을 때 저도 해보고 싶었는데, 데이터셋 가공을 할 줄 몰라 손가락만 빨고 있었는데 귀중한 정보 감사합니다.
아직도 모르는 부분은 많지만 많은 도움이 될 거 같아요.

펼쳐보기▼

hkhk

2024-05-22 14:34:17 답글

두가지 버전을 학습해보면서 느낀 점 
같은 스텝만큼 학습시킨 경우, 작은 모델이 더 실수가 적고 빨리 출력됨. 하지만 그만큼 단순한 문장이 나오는 느낌. 큰 모델은 작은 모델만큼의 정확성이 나오려면 더 많이 학습시켜야 할거 같아서 20만 스텝 학습 걸어놓음. 아마도 '대기만성' 그 자체가 아닐까?

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-24 00:37:52 삭제 수정 답글

타이니 라마처럼 아예 모델 가중치를 날리고 아키텍쳐만 가지고 학습시키셨다는거져?
저는 생각만해보고 시간과 자원이 딸려 못해봤는데 대단하시네요

펼쳐보기▼

hkhk

2024-05-24 05:45:50 답글

베이스부터 학습한거고요, 전혀 어렵지 않습니다. 4090 기준 3시간이면 작은 모델 10만 스텝 가능하고요, 한글 데이터셋이 문제였는데 누가 공개했으니 필요한건 다 있는거죠

펼쳐보기▼

글쓰기

전체글 Ai 언어모델 로컬 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31309261

2995516 장르소설 ts) 이 작가들 뭐함 ㅋㅋㅋ [7]

들여쓰기 1시간전 155 8

2995515 젤다의 전설 짤 신수 합체 [10]

고인물 (116.125) 06-12 219 5

2995514 얀데레 짤(외부) 퐞) 단장이 나루메아에게 고백하는 만화 [3]

ㅇㅇ (14.4) 7시간전 1466 26

2995513 걸 카페 건 연차 쓰고 일본 온 이유 [10]

우냥 54분전 47 5

2995512 우마무스메 프리티 더비 짤 옷 갈아입는 카훼 [3]

cmre 10시간전 162 7

2995511 가이진 팁/정보/마이닝 키 설정 고민 많은 가붕이들을 위하여... HOWAM #2 [8]

Emil_Sung 8시간전 227 10

2995510 던전앤파이터 진짜 울고싶네 [21]

감자 17분전 350 22

2995509 원신 펠리컨처럼 무엇이든 시도하는 사람이 됩시다. [12]

이브아델 18분전 373 19

2995508 AI 반실사 그림 일반 사람들 정보공개 모델공개 소극적으로 된거 여기 정보글 가져가서 욕심챙기고 모델 가져가서 돈벌고 해서 그런거 아냐 ? [37]

newMan 9시간전 560 10

2995507 주식 분석 ChatGPT> 기업 어닝 예측 캘린더 [7]

조선닌자핫토리 6시간전 156 5

2995506 블루 아카이브 1111111111 [16]

존버충 06-14 386 26

2995505 근대 음악 🌎아메리카🌎 마이클 잭슨 - Black Or White (1991) [3]

조타구 06-12 40 5

2995504 블루 아카이브 개시발 샤워하다 똥쌌는데 이거 어케 치우냐 [25]

리쿠하치마_아루 22시간전 645 28

2995503 최면세뇌 💦세뇌타락 번역 예정 +α [4]

따뜻한커피 1시간전 535 14

2995502 미소녀 피규어 🔞 구독자 9000명 달성!!!! [23]

아키야마미오 6시간전 431 8

2995501 에어소프트 🔫총짤 AKX...쩔더라... [20]

버딤_915 7시간전 346 10

2995500 유즈소프트 시발 팬티만 입고 나갔다가 옆집 아줌마랑 아이컨텍했네... [16]

마멀레이드 13시간전 137 13

2995499 로보토미 코퍼레이션 🎨창작 정 실 등 장 [7]

블랙신스나낙고 1시간전 268 10

2995498 블루 아카이브 🎨창작 호시노 진화!!!!!!! [9]

ㅣㅇ0ㅇㅣ 11시간전 423 22

2995497 TS물 신경핫도그눈꽃사탕네스트아르촉백결 좋아해! [4]

SIEYAN 8시간전 77 12

2995496 툴리우스 의상 [SE] (19) DTD Untouchable - 3BA UBE [5]

ㅇㅇ 1시간전 331 7

2995495 블루 아카이브 🎨창작 아리스 눈치 [21]

아리스는건전지를먹지않습니다 9시간전 344 22

2995494 폴아웃 76 나눔 눔나 결과 발표함. [20]

tantarn 27분전 196 12

2995493 림월드 모드 림잡 애니 사운드 교체 [3]

ㅇㅇ 13시간전 268 7

2995492 블루 아카이브 🎨창작 줄 [9]

꿈꾸는탁류 9시간전 163 17

2995491 백합 🔞번역 블아, SM) 주의 뜻대로 [1]

ㅇㅇ (125.142) 5시간전 286 11

2995490 몬무스 짤 찌찌 큰 리리스몬 [5]

ACW11 8시간전 350 17

2995489 몬무스 짤 부끄러워하는 얼음여왕 [7]

OO 06-14 451 15

2995488 bulge 본인 흰나시티 회그라미 [4]

exhib 1시간전 134 14

2995487 핫딜 후기 근데 스스디 쓰기속도좀 안나올수도 있지 왜 짜증을 내지 [22]

morita_K 7시간전 278 5

글쓰기

전체글 Ai 언어모델 로컬 채널

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.