[연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까?

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3310명 알림수신 163명 @바바리맨

제한없는 언어모델을 위한 채널

일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까?

maywell

추천 55 비추천 2 댓글 24 조회수 2492 작성일 2024-03-09 16:13:37

https://arca.live/b/alpaca/100858579

지난 2주간 글 작성을 거의 안하고 있었는데
뭐, 이거 하느라 글 쓸 시간이 없었습니다.

후술 하겠지만, 하루에만 모델 몇 개씩 굽고 벤치마크하는 삶을 살았습니다.

서론
시나트라 0.1 버전(미스트랄 0.1 기반입니다.)을 구우면서 가장 크게 느꼈던게
1. 한국어를 애매하게 한다. (이해는 하는데 출력이 조금 이상한 정도.)

2. 한국어를 학습을 시킬때 loss가 지나치게 빠르게 붙는다.

였는데요.

이상하다는게 어떤 형식이었냐면,

"해당 부분을 리construct 하면"

이런식으로 언뜻 보기에는 그냥 고장난 모델 처럼 보이는 현상이었습니다.

이런 미스트랄의 출력을 보고 든 생각이

질문은 잘 이해하면서, 출력이 저런 형식으로 되는거면 내부적으로 서로 다른 언어가 마치 하나의 언어처럼 유기적으로 연결된게 아닐까?

이런 현상때문에 미스트랄이 multilingual task를 잘하고, 그 어떤 모델보다(당시) parameter efficient 하지 않을까?

라는 생각을 했었습니다.

그래서, 오히려 이런 애매한, 한국어 영어를 섞어서 출력하는 현상을 이용할 수 있지 않을까? 싶었습니다.

한국어와 영어를 인위적으로 섞은 후 그런 데이터로 학습을 진행한다면 임베딩 단계에서 한국어와 영어가 유기적으로 연결되지 않을까?

라는 생각을 했습니다.

Tsunami is 가장 dangerous한 natural disaster 중 하나이다. Originally는 해저 지진으로 인해 생기는 tidal wave를 말하는데, 일본에서 frequently 발생하다 보니 these days는 지진해일을 typically 대표적인 Japanese-style 영어 표현인 'tsunami'로 통용하고 있다.

이런 문장을 가지고 학습을 시켜보면 어떨까? 라는 생각이었습니다.

당시에는 이런 생각만 하였고, 바로 진행은 하지 못했습니다. 다른 모델 굽느라 바쁜것도 있었고 막 모델 굽기 시작한 늅늅이라서 뉴비인 제가 생각할 정도면 다들 이미 해봤을 거라는 생각도 있었던것 같습니다.

실행

해당 아이디어를 실제로 구현하게 된 건 약 2주 전부터입니다. (정확히는 2월 24일)
계기는 다른분이랑 이야기를 나누다가 해당 주제가 나왔는데, "당장 해보자!"라는 분위기가 형성되서 시작했던것 같네요.

처음 며칠은 데이터를 구성했습니다.

고전적 NLP를 사용해서 형태소 분석등의 방법으로 대규모로 데이터셋을 제작해보려고 했습니다.

그러나, 문맥에 따른 의미 등, 이 방법으로는 해결이 되지 않을 것 같았기에 단순 무식하게 GPT에 few-shot 넣어서 만들자!의 방법이 사용되었습니다.

이런 문장을 code-mixing한 문장이라고 표현을 하는데요. GPT에게 해당 개념과 몇가지 예시를 보여준 후, 생성을 진행했습니다.

만들어진 데이터셋은 이런 느낌입니다. (약 62k)

원본 한국어 문장을 바탕으로 code-mixing한 문장을 생성하는 task를 진행하였고, 결과물의 토큰수, 퍼센트 등을 분석하여 전처리를 진행했습니다.

가설

실험하기에 앞서 저의 가설을 아래와 같았습니다.

1. 영어 모델에 영어위주의 문장부터 시작해서, 한국어 위주의 문장 순서로 학습을 시키면 유기적인 임베딩이 형성될 것이다.

-> 따라서, 영어 벤치마크의 점수가 최소한으로 하락하면서 한국어 학습 또한 기존 지식을 가져오기에 한국어만 학습시킨것 보다 좋을 것이다.

2. 그렇다면, 임베딩, lm_head만 열어넣고 먼저 수렴시킨후 Instruction 튜닝을 하면, 유의미한 차이가 있지 않을까?

이 정도의 가설을 세우고 실험을 진행했습니다.

실험

(무수한 학습의 흔적... 하이퍼파라미터 수정한다고 지운 로그까지 포함하면 훨씬 많습니다. a100 8대 1주일 풀가동..)

가진 데이터로 가능한 거의 모든 조합으로 학습을 진행해보았습니다.

- 위 가정 1 대로 영어 많은 순서로 raw학습 진행하기.

- 랜덤하게 raw학습 진행하기.

- 임베딩 레이어 제외 얼린 후 학습 진행하기.

- 문장 수정 task로 학습시키기 (code-mix to original)

- 영어 토큰에 한해서 loss 계산 제외하기

- 위 학습들에 대해서 단순 영어, 한국어 데이터 50% 섞어서 진행하기.

- 그렇게 튜닝 된 모델들에 Instructon 먹여보기 등등...

정말 수많은 경우의 수로 실험을 해보았고.

해당 모델들의 체크포인트를 epoch당 16으로 설정해서 각각 체크포인트에 대한 kobest, hellaswag, winogrande 등의 벤치마크를 돌려보았습니다.

결과 (최종 결과 아님!)

생각 할 수 있는, 거의 모든 경우의 수를 시도해보았습니다.

(벤치마크 결과 일부분)

그러나, 벤치마크에서 유의미한 결과는 얻지 못했습니다.

모델 써보면 꽤나 괜찮은 것 같은데, 벤치마크에서는 딱히 뛰어난 모습을 보이진 않더군요.

그래서, 뭐 어쩌라는거죠?

위에 보여드린 실험들은 1주일 전(3월 3일)까지 했던 결과입니다.

중간 체크포인트들, 결과물, 모델 출력을 보았을때 가능성은 보였습니다.

하루종일 아카이브를 뒤져보며 비슷한 연구 결과를 찾아보기도 하고, 여러 사람들에게 조언을 구하며 새로운 가설들을 세워나갔습니다. (관련된 학습은 현재 진행형)

그러던 중, 충격적인 소식을 접하게 되었습니다. (3시간 전)

다른 분께서 몇개월 전에 비슷한 실험을 진행 하셨더라구요..? (아카이브만 뒤져봐서 못찾았음 ㅠ)

데이터셋 구성도 비슷했고, 훈련 방식도 비슷했습니다.

https://github.com/MrBananaHuman/PangyoCorpora/blob/main/Knowledge%20Transfer%20in%20Multilingual%20LLMs%20Based%20on%20Code-Switching%20Corpora.pdf

(논문링크)

6장 정도 되는 짧은 논문이지만 핵심 아이디어는 비슷.. 거의 같았습니다.

다만, 도출된 결과가 많이 달랐습니다.

단순 오차라고 하기에는 비슷한 실험에서 결과가 너무 달랐습니다.

그래서 오히려 안심? 되었던 것 같네요.

그래서 결론은

이런저런 실험 계속 하느라 글 안싸고 있었습니다.

하던 실험을 이미 누군가 했다? -> 그런데 결과가 많이 다르다...?

해당 논문에서 조금의 인사이트를 얻어서 다른 실험 이어서 하는 중입니다.

원래 private하게 진행하고 paper랑 같이 발표 하려고 했는데 펑 해버렸습니다.

허깅페이스에 관련 데이터셋 업로드 하였고, 중간 체크포인트 모델들도 업로드 할 계획입니다.

완전히 성과가 없는건 아니라서, 상세한 내용은 paper로 찾아뵙겠습니다.

댓글 글쓰기

maywell

2024-03-09 16:21:58 답글

데이터셋:
https://huggingface.co/datasets/maywell/ELLL_sorted
https://huggingface.co/datasets/maywell/ELLL_bge_m3]

huggingface.co

maywell/ELLL_sorted · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

*수정됨

데이터셋:
https://huggingface.co/datasets/maywell/ELLL_sorted
https://huggingface.co/datasets/maywell/ELLL_bge_m3]

펼쳐보기▼

이하비스

2024-03-09 16:50:20 답글

코드 스위칭을 LLM 학습에 쓴다는 생각은 해본적이 없는데 신기하네요
하나의 문장 안에서 단어별로 언어를 혼용하는것 외에도 문장간 코드 스위칭이나 하나의 단어 안에서도 코드 스위칭이 일어나는 경우에는 결과값이 또 달라질까 싶기도 하고 아무튼 좋은 연구 공유 감사합니다

펼쳐보기▼

김플리

2024-03-09 16:56:56 답글

몇 개월 전에 저 논문 재현시도 했었는데 그닥 좋은 결과는 안 나왔었어요…

펼쳐보기▼

maywell

2024-03-09 23:25:18 답글

재현이 안댐 ㅠ

펼쳐보기▼

쿠루가이

2024-03-09 21:29:54 답글

뭔가 데이터셋이 정청조 말투 같아요.

펼쳐보기▼

용바오

2024-03-10 00:43:12 답글

A100 8대 풀가동 ㄷㄷ

펼쳐보기▼

ㅇㅇ

2024-03-10 02:56:06 답글

Tsunami is 가장 dangerous한 natural disaster 중 하나이다. Originally는 해저 지진으로 인해 생기는 tidal wave를 말하는데, 일본에서 frequently 발생하다 보니 these days는 지진해일을 typically 대표적인 Japanese-style 영어 표현인 'tsunami'로 통용하고 있다.

이거 완전 이과 대학교 스타일 화법인데. 한국어로 말해야 하는데 한국어로 뭔 지 모를 때 영어 나옴 ㅋㅋ

펼쳐보기▼

hkhk

2024-03-10 05:22:37 답글

I AM 지능에요

펼쳐보기▼

salmanu

2024-03-10 11:48:46 답글

팡요어 데이터셋 학습이라고 이미 논문으로 연구한 바가 있긴해요. 위에서 찾은 해당 논문 맞아요.
KT에서도 내부적으로는 코드 믹스는 이미 증명이 되서 쓰고 있다고 팡요어 논문 쓰신 분 페북 글에 연구원분이 댓글로 피드백 했었습니다.

펼쳐보기▼

salmanu

2024-03-10 11:49:57 답글

MS에서도 코드 올림.

https://github.com/microsoft/CodeMixed-Text-Generator

GitHub

GitHub - microsoft/CodeMixed-Text-Generator: This tool helps automatic generation of grammatically valid synthetic Code-mixed data by utilizing linguistic theories such as Equivalence Constant Theory and Matrix Language Theory.

This tool helps automatic generation of grammatically valid synthetic Code-mixed data by utilizing linguistic theories such as Equivalence Constant Theory and Matrix Language Theory. - microsoft/Co…

MS에서도 코드 올림.

펼쳐보기▼

maywell

2024-03-10 11:59:53 답글

MS쪽 자료는 후반에 발견해서 사용해보려고 하다가, 한국어에서는 제대로 작동안해서 사용 못했었습니다.
관련 논문으로 올라온거에는 비슷한 과제를 진행하지는 않아서 그냥 진행 했었습니다.

그래서 현재는 지금 가지고있는 작은 규모의 데이터가 아닌 훨씬 큰 규모로 데이터 생성해서 구체적으로 다루어 보려고합니다.
한국어 LLM들 가지고 last token embedding 추출해서 측정해본결과 굳이 이 방식으로 접근하지 않고도 knowledge distillation이 제대로 일어나고 있는것을 확인했습니다.
그리고 위 논문 내용에 대해서는 기존 저의 실험에서도 그렇고, 논문을 재현해본결과 논문에서 보여준 수준의 드러나는 차이는 전혀 관찰하지 못했기에 (오히려 반대의 결과가 나옴) 충분히 더 다루어볼 가치가 있다고 생각합니다.

'그래서 일단은 구체적으로 어떤 레시피를 사용해서 어떻게 진행했을때, 기존 방식보다 ~~만큼 효율적이더라'를 확실히 해보고자 합니다.

펼쳐보기▼

초딩영웅

2024-03-10 12:44:27 답글

그래요

2024-03-10 13:16:09 답글

맥북에어좋아

2024-03-10 15:09:53 답글

철권짱

2024-03-11 00:30:33 답글

영감을 주는 글 너무 좋아요~

펼쳐보기▼

oharinth

2024-03-11 02:53:28 답글

좋은 글 잘 읽었습니다. 
갑자기 궁금한 생각이 드는 것이, 설명하신 것처럼 언어를 섞어서 만든 문장들을 학습시킨 것과, 완전한 문장의 영문과 그것을 번역한 완전한 문장의 한글을 1대1로 학습시킨 결과물이 어떤 차이를 가져오는지 궁금하네요. 
번역된 완전한 문장쌍(영문-한글)을 충분히 많은 데이터셋으로 학습시켜도 신경망모델이 모종의 multilingual 한 구조를 형성할 것 같은데요. 설명하신 것처럼 영문과 한글을 섞어서 학습시키는 것과 효율성과 성능에서 각기 어떤 다른 특성을 나타낼 지가 알고 싶어요.

펼쳐보기▼

maywell

2024-03-11 04:16:08 답글

last embedding 추출해본결과 말씀하신대로 한국어만 훈련시킨 모델들도 신경망이 알아서 multilingual 한 구조를 형성한것을 확인했습니다. (그것도 꽤나 잘)
이제 각각의 효율성을 수치적으로 파악하는게 주요 과제입니다.

일단 저로서는 한국어만 훈련시키는것 보다 섞어서 주입하는게 초반 임베딩 형성에는 긍정적일거라고 생각하고 있습니다.
다만 지난 학습 방식들이 LLM에는 크게 적절하지 않아보여서 다른 방식으로 증명하려고 시도 해보는중입니다.

궁극적 목표로는 multilingual 모델을 가장 parameter-efficient 하게끔 제작하는 방법을 찾고자 합니다.

펼쳐보기▼

lHIGH

2024-03-11 07:49:30 답글

저도 Mrbananahuman님 논문 보고, 되게 신기한 접근 방식이라고 생각했었는데, maywell님도 관련연구를 진행하고 계셨다니 신기하네요! 어떤 성과가 나오셨는지 Paper가 기대됩니다 ㅎㅎ
혹시 생성된 데이터 퀄리티에 대한 평가는 따로 진행하지는 않으셨나요? 저도 GPT3.5, GPT4, GEMINI API로 비슷하게 데이터 생성하려고 해봤는데, 아무리 fewshot과 prompt를 넣어도 죄다 영어로 번역해버리기 일쑤더라고요.. (그래서 전체 문단 단위가 아니라 문장 단위로 생성하긴 했습니다)

펼쳐보기▼

maywell

2024-03-11 09:27:13 답글

데이터셋은 프롬프팅 할때 적절히 하지 않으면 명사 부분만 바꾸어 버리는 현상이 너무 심해서, 해당 부분에 집중해서 few-shot 진행했습니다.

펼쳐보기▼

maywell

2024-03-11 09:27:51 답글

평가에 대해서는 nltk로 토크나이징 후 한국어 영어 토큰 수를 기반으로 부적절한 데이터셋 필터링하는 정도로만 진행했습니다.

펼쳐보기▼

lHIGH

2024-03-12 01:28:54 답글

아..! 생성된 답변의 영어 토큰 비율을 확인하는 건 생각해보질 못했었는데, 새로운 걸 또 하나 배워 가네요. 너무 Naive 하게 제가 시도했었던 것 같군요 ㅎㅎ 답변 감사합니다!! 데이터세트 공유도 감사합니다!! 좋은 성과 있으시길 바랍니다!

펼쳐보기▼

스와마망

2024-03-11 07:55:33 답글

저런식으로 단어를 영어로 바꿔서학습한다면 뉘양스차이나 완벽하게 매칭되는 단어가 없을때는 어떤식으로 될지 궁금해지네

펼쳐보기▼

maywell

2024-03-11 08:04:45 답글

그런 문제 때문에 고전적 nlp 못쓰고 llm사용해서 알잘딱 하게 했음

펼쳐보기▼

스와마망

2024-03-11 08:09:06 답글

llm정도면 어느정도 스무스하게 처리되는구나

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27968159

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 5744

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 25961

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8396

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

2438 일반 한국어 모델 리더보드는 망했다. + 그래서 새로 만듬 [55]

maywell 2024.03.25 5561 80

2437 일반 한국어 대용량 finetuning 데이터셋 공개 (MIT 라이센스) [19]

DopeorNope 2024.03.12 2354 80

2436 일반 와 이런데도 있네? [38]

ㅇㅇ 2023.04.29 4957 70

2435 정보 구글: 우리에겐 방어막이 없습니다. - 유출 문건 한글 번역 [36]

hkhk 2023.05.05 7363 67

2434 자작모델 한국어Vicuna 모델 학습완료 및 모델 공개 [76]

하늘의아리아 2023.04.20 6890 65

2433 일반 여기 계신분중에 AI 프리트레인,파인튜닝법에 대해서 궁금하신분 있을까요? [22]

ㅎ헤ㅔ헤헤헤 2023.10.04 1724 61

2432 일반 70B개발 시작. [28]

DopeorNope 2023.12.05 1834 57

2431 일반 [연구결과+ing] 어떻게 언어모델에 한국어롤 효율적으로 학습 시킬 수 있을까? [24]

maywell 2024.03.09 2493 53

2430 일반 1-딸깍 is all you need. 컨텍 확장, 채팅 모델 제작을 단 한번의 클릭으로. [42]

maywell 2024.04.28 2974 50

2429 일반 한국어 데이터셋 생성 중단(완료) 총 4.3M+ [20]

maywell 2024.01.10 2108 50

2428 스터디 In-context Learning 에 대해 알아보자 (Feat. 논문 읽는 tip) [28]

hkhk 2023.05.02 6168 43

2427 스터디 트랜스포머의 의미를 생각해보기 (코드x, 수식x) [11]

hkhk 2024.02.13 1970 41

2426 일반 KoCommercial-Dataset 재공개 및 코드 공유 [7]

DopeorNope 2024.03.21 1329 40

2425 자료 토큰 확장법 정리 [19]

버트가조아 2024.01.05 1400 36

2424 자작모델 시나트라 v0.1 허깅 리더보드 결과 [14]

maywell 2023.10.10 1542 36

2423 자작모델 레몬LLM 13b (한국어) 공개 [92]

하늘의아리아 2023.05.27 4322 36

2422 일반 한국어 멀티턴 데이터셋 생성 모델, KoMultiGen-General [7]

maywell 2024.03.14 1464 35

2421 일반 안녕! 게임에 특화된 일→한 번역모델 만드는 챈럼임 [43]

12시5분 2024.01.19 1420 34

2420 정보 AutoGPTQ가 huggingface Transformer에 통합됨 [19]

ㅇㅇ 2023.08.24 1086 33

2419 스터디 딥러닝 모델은 어떻게 정보를 '기억' 할까? [30]

hkhk 2023.08.22 2426 33

글쓰기

전체글 개념글