딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰

개념글 모음

알림 알림 중 알림 취소

구독자 2765명 알림수신 78명

각 채널의 개념글을 모은 게시판입니다.

Ai 언어모델 로컬 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰

hkhk

추천 33 비추천 0 댓글 13 조회수 1661 작성일 2024-05-22 17:55:24 수정일 2024-05-22 17:59:27

https://arca.live/b/alpaca/106879069

오늘은 딥러닝 모델의 파인튜닝을 하면서 만나게 되는 난제, 망각증상 (catastrophic forgetting) 에 대해 다뤄보려고 합니다. 주로 참고한 논문은 아래와 같습니다.

Reawakening knowledge: Anticipatory recovery from catastrophicinterference via structured training

https://arxiv.org/abs/2403.09613

모델을 학습하다보면 이전에 학습한 내용을 까먹는 현상이 문제가 됩니다. 이게 단순히 모델의 용량을 넘는 너무 많은 정보를 넣어서 이전정보를 까먹는게 아니라, 학습의 순서에 따라서 최근에 학습한거 중심으로 기억하고 이전에 학습한 것은 까먹게 되는 경향이 있는게 문제입니다.

다국어로 가면 한국어를 가르치면 영어를 까먹고, 영어를 가르치면 또 한국어를 까먹고 하는 식입니다. 코딩을 가르치면 롤플레이를 까먹고, 롤플레이를 가르치면 코딩을 까먹고...

이렇게 까먹는 증상이 점점 스무스하게 드러나는 것도 아니고 갑자기 어느 순간 헤까닥하고 까먹는다는게 체감되어 사람들이 파국적 망각이라는 다소 무서운 이름까지 붙여주었습니다.

그러한 증상을 극복하기 위해서 여러가지 해결책을 시도했는데, 그중 한가지 방법은 모델의 레이어를 추가한 다음에 나머지 레이어들을 얼려놓고 그부분만 따로 학습을 시키는 방법입니다. llama2 에 한국어를 성공적으로 학습시킨 야놀자 eeve 같은 모델이 이러한 방법을 사용했습니다.

또 다른 방법으로는 학습이 진행되면서 까먹기 전에 다시 원래 지식을 넣어줘서 까먹는 것을 방지하는 방법입니다. 비유하자면 우리나라에 살던 사람이 미국에 가서 영어만 쓰고 살게 되면 한국어를 까먹기 쉬운데, 가끔씩 한국에 돌아와서 원래 친구들을 만나서 우리말을 쓰면서 놀다보면 한국어를 까먹지 않게 되는 느낌이지요.

사실 후자의 방법이 어떻게 보면 당연하긴 합니다. 언어모델을 프리트레이닝을 할 때에는 여러가지 지식을 혼합하고 순서가 랜덤화되게 해서 (반드시 시드값을 주입) 넣어주는게 기본입니다.

또한 최근에 배운 학습내용을 더 잘 기억한다라는 편향성을 이용해서 전체적인 트레이닝을 단계로 나눠서 접근하는 것도 요즘에는 보편화된 방식입니다. 처음에는 다양한 기본적인 어휘들을 먼저 학습시키고, 그 다음에 좀 더 난이도가 있는 개념들이 들어있는 텍스트를 학습시키고, 그 다음에는 더욱 구체적인 질문과 답변 (이전에 학습한 개념들에 관련된) 을 학습시키는 식으로 접근하는거죠. 이미지 생성모델의 경우 처음에는 이미지의 형태를 다양하게 익힐 수 있도록 다양한 해상도의 단순한 이미지들 (주로 단일 소재) 을 학습시켰다가, 나중에 갈 수록 고퀄리티의 이미지 (예: 만화 모델이라면 최신 그림체에 유명 캐릭터들의 고퀄리티 일러스트) 을 학습시키는 식으로 단계를 짜는 식입니다. 이러한 학습 방식을 '커리큘럼 학습' 이라는 개념으로 부릅니다

http://dmqm.korea.ac.kr/activity/seminar/338

그런데 저는 이런 학습의 개념과 망각증상의 관계가 궁금해졌습니다. 파국적 망각이란게 정말 까먹는걸 의미하는가? 라는 것이지요. 아무리 생각해봐도 완전한 '망각'이 일어난다면 LLama3의 경우처럼 15T 토큰이나되는 방대한 양의 지식을 8B 같은 비좁은 공간에 넣는다는게 말이 안된다는 느낌이 들었습니다. 학습이 계속되다보면 한참 전에 학습한 정보는 망각할 수 밖에 없을텐데 말이죠.

좀 더 구체적으로 표현하자면 보통 사람들이 '망각증상' 이라고 부르는 현상이 실은 완전한 망각은 아니고 기억속에 잠재되어있긴 하지만 그것을 쉽게 꺼내지 못하게 되는 상태가 아닌가 하는 것입니다.

위에 소개한 논문은 그러한 가정을 실험으로 증명한 연구를 소개합니다.

실험의 편의를 위해 작은 파라메터의 언어모델 pythia-1b 모델을 준비했고, 25가지의 문서를 이용해서 순서대로 학습을 시켜본 결과입니다. 문서들의 순서를 섞지 않고 1번 문서를 학습시킨다음 2번 문서, 3번문서, .. 차례로 25번까지 학습시키고 나면 다시 1번문서로 돌아가서 학습을 반복하는 식이지요. 위의 그래프는 그렇게 학습이 이루어지는 과정에서 1번 문서에 대한 loss 값을 측정한 것입니다. loss 가 높으면 1번문서에 나타나는 문장의 흐름을 잘 예측하지 못한 것입니다.

두 그래프 모두 같은 내용을 담고 있는 것이니 편의상 오른쪽의 그래프를 보자면 처음에 1번 문서가 학습되고 나면 loss 값이 1 아래로 떨어지지만, 다른 문서들에 대한 학습이 진행되면서 1번 문서에 대한 loss 는 다시 증가하는 양상을 보이다가 다시 1번 문서를 또 학습하게 되면서 loss 가 줄어들고, 다시 다른 문서들을 학습하면서 늘어나고.. 하는 양상을 보여줍니다.

특기할만한 사항

- 한번 망각증상이 일어난 후에 다시 그 문서를 배우게 되면 loss 는 예전보다 더 아래로 떨어지고, 망각이 반복되고 처음처럼 심하게 망각하진 않는다

- 망각과 재학습, 재망각과 재재학습을 반복하면서 점점 망각의 정도가 완화된다

- 망각의 완화는 심지어 학습을 하기 약간 이전에 일어난다. 1번 문서에 대한 망각의 완화가 1번문서를 재학습할 때 일어나는게 아니라 25번 문서나 그 이전 문서를 재학습할 때 일어난다 (!?) 이것을 논문에서는 (anticipatory behavior) 라고 불렀습니다. 마치 파블로프의 개를 보는게 아닌가 하는 생각이 드네요. 위의 로스 그래프를 보면 u 자가 뒤집어진 모양으로 된 것을 확인할 수 있습니다. 학습의 패턴 자체를 모델이 학습하고 있다는 증거입니다.

이러한 학습/망각의 효과는 그 베이스가 무엇이냐에 따라서, 모델의 크기에 따라서도 다소 다른 모습을 보입니다.

일단 프리트레이닝이 잘 된 모델일 수록, 망각후 재학습의 효과가 더 큽니다. 결국 기억과 이해라는 것은 불가분의 관계라는 것이 인간과 비슷하게 딥러닝모델에서도 통한다는 의미로 해석할 수 있습니다.

유명한 사례로 체스 게임의 고수들은 체스판의 내용들을 잠깐 보고난 후에 그 말의 위치를 보통사람보다 훨씬 잘 기억한다고 알려져 있습니다. 다만 이러한 기억력은 체스판의 배치가 정상적인 게임의 흐름에 속할 때에만 가능하고, 아무런 규칙없이 기물들을 배치한 경우 일반인과 다를바 없는 기억력을 보였다고 합니다

https://m.blog.naver.com/cp6445/149152545

이제 내용을 정리해보겠습니다

- 파인튜닝을 잘 하고 싶다면? 원 데이터의 지식들을 간간히 섞어준 데이터셋을 만드는 것이 좋습니다

- 프리트레이닝을 잘 하고 싶다면? 데이터들을 개념적인 복잡도와 구체적인 출력 형태에 따라 단계를 나눠 학습하는 것이 좋습니다. 또한 각 단계별 데이터는 잘 섞여져 있고 다음 단계로 넘어가기 전까지 충분한 분량의 학습을 시켜주는 것이 좋습니다.

- 언어모델은 인간과 비슷하게 반복적인 재학습을 통해 더 심층적인 개념을 이해하게 되고, 그 이해가 뒷받침되었을때 학습/재학습시 높은 효율을 보입니다.

위의 그림과 같이 학습이 계속될 수록 개념의 이해라는 본질에 점점 수렴하는 모습을 기대할 수 있습니다

또 다른 연구에서는 새로운 지식이 추가적으로 학습되었을때 판단의 경계선 (decision boundary) 이 옮겨가는 현상때문에 망각증상이 나타나는 것으로 보인다는 점을 밝히고 있습니다. 적절하게 기존의 정보를 데이터셋에 섞어주는 것은 위와 같은 경계선을 예전과 호환되도록 유지하는데 도움을 주고 결과적으로 망각증상을 억제할 수 있다는 것이지요.

마지막으로 덧붙이자면, 지금까지 다룬 망각증상에 대한 케이스는 어디까지나 모델의 파라메터 규모에 따라 학습할 수 있는 대강의 정보량 이내에서 학습될 때를 전제로 한 것입니다. 너무 작은 모델에 너무 많은 정보를 넣으려고 하면 어떤 방법으로 동원하더라도 기억력의 한계는 극복할 수 없을 것입니다.

이상입니다. 읽어주셔서 감사합니다

댓글 [13] 글쓰기

그래요

2024-05-22 20:44:44 답글

단달루

2024-05-22 23:45:51 답글

마치 인간이 망각하고 이를 극복하기 위해 복습시키는 것과 비슷하네요.

펼쳐보기▼

용바오

2024-05-23 00:29:48 답글

직접 해보신 게 놀랍습니다...

펼쳐보기▼

Anonymous

2024-05-23 00:35:21 답글

약팔려고 감성적인 anticipatory behavior라는 이름을 붙인게 아닐까요? 
학습 안시킨 다른 문서의 Loss를 찍어도 점점 감소할테니,과접합과 중첩시켜놓은 그래프 같은데요.

펼쳐보기▼

hkhk

2024-05-23 01:31:58 답글

다른문서를 학습하면 당장은 망각증상 때문에 loss가 올라갈거에요. 그리고 저 loss는 모델 자체의 평가가 아니고 문서1만 대상으로 한 경우라서 올라갔다가 다시 문서1을 학습시키기전에 내려오는 현상은 단순한 과적합으로만 설명하긴 어렵지 않을까요

펼쳐보기▼

Anonymous

2024-05-23 02:52:23 답글

학습하면서 모델의 추론능력이 올라가면서, 학습시키지 않는 문서 A의 loss만 찍으면 모델 능력을 따라 감소할텐데,  대충 그래프의 상단 꼭지점을 이은것 처럼 감소할거 같습니다.
학습데이터에 문서A를 넣으면 일시적으로 A에 약한 과적합 된 모델이 되고, 다른문서 학습시키면서 Loss가 증가하다가 모델 자체 능력을 따라감소하고  A학습시킬때 저 그래프처럼 뚝 떨어질꺼구요.

N을 25말고 N을 100쯤 하면 모델 능력따라가다 과적합되는게 잘보일것 같은데 일부러 실험결과를 빼버린게 아닌가 하는 생각이..

펼쳐보기▼

ㅇㅇ

2024-05-23 03:33:43 답글

Pretrained model에 추가 학습시킨 거라 추론 능력에 영향을 주진 않았을 것 같습니다. 파인튜닝에 쓰인 것과는 데이터 분량에서 너무 차이가 나서요

펼쳐보기▼

Anonymous

2024-05-23 03:56:49 답글

파인튜닝도 해당도메인 지식에 의해 감소하는 그래프가 그려질테니까요.

펼쳐보기▼

ㅇㅇ (220.117)

2024-05-23 01:02:23 삭제 수정 답글

좋은 논문 소개 감사합니다
내용이 흥미롭네요

펼쳐보기▼

한가운데

2024-05-23 01:44:57 답글

여러번 경험적으로 이야기가 나왔지만 이렇게 보니 또 새롭네요

펼쳐보기▼

ㅇㅇ (128.134)

2024-05-23 10:00:34 삭제 수정 답글

파인튜닝 대신
전이학습을 하면 어느정도 극복은 됩니다.. 어큐러시는 저하되지만 말이죠..
LoRA 같은 것으로도 어느정도 극복이 가능하지 않나요?

펼쳐보기▼

이부키츠바사

2024-05-24 21:32:53 답글

감사합니다.

펼쳐보기▼

lIlBrother

2024-05-30 02:21:39 답글

TTS를 할때 커리큘럼 러닝 방식으로 1개국어로 학습된 vits를 4개국어까지 넓혀본 경험이 있네요
상당히 유의미한 아티클 잘 읽었습니다. 나중에 쓰게되면 참고해야겠네요 감사합니다.

펼쳐보기▼

글쓰기

전체글 Ai 언어모델 로컬 채널

최근 최근 방문 채널

최근 방문 채널

전체

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31391027

3002476 메이플스토리 창작(🔞) 여은월 쇼타오네 망가 [9]

키문 5시간전 537 19

3002475 AI 그림 🔞 NAI 미식연구회의 재료수급 [5]

레이라 06-17 945 13

3002474 블루 아카이브 🔞 창작 귀여운 유카리 [10]

음지마스터 6시간전 1659 45

3002473 뉴럴 클라우드 공략/정보 NEW 리세계 '구매' 가이드 [7]

네당신말이옳습니다 6시간전 302 14

3002472 메이플스토리 GLOBAL V251 GO WEST! 패치 노트 초초초초 요약버전 [9]

TianCity 7시간전 556 11

3002471 리그 오브 레전드 야심한 밤...뱅가드 야매 해결법 공유함

Aix_la_Chapelle 6시간전 397 8

3002470 장르소설 임심한 유부녀 터트려서 죽이는 용사님 [5]

유리멘턀 12시간전 610 21

3002469 툴리우스 🔞스샷 소문의 현역여고생 지하아이돌과 오프파코 [7]

ㅇㅇ 6시간전 541 15

3002468 엘소드 응애 나 뉴비 [22]

플라스틱병 6시간전 202 9

3002467 붕괴 스타레일 🖍창작/번역 반디 그려써 [15]

으냐냐온 6시간전 1575 55

3002466 순애 투명인간의 몸속 manhwa [14]

우편물레이블마법사 7시간전 1665 36

3002465 장르소설 정말 필요할때 나타나지 않는 완장이 제대로 된 완장일까요? [4]

핫초코 6시간전 481 22

3002464 도시·지리 뉴스 서생면 : 우리 원전 더 지어줘! [4]

코리도라스 10시간전 286 12

3002463 Tomboy 그림 19 전술 말량광이 ( +보너스) [3]

Tomboy_Lover 10시간전 290 12

3002462 라스트오리진 유릭스) 레오나 [5]

보보보 6시간전 488 62

3002461 얀데레 짤(외부) 블아 2장 [11]

ChickenUnion 10시간전 2534 36

3002460 AI 그림 🔞 NAI 뭔가 이거 자세가 복종의 자세 같아서 개꼴리네 [6]

진나빛 06-17 1203 11

3002459 TS물 에루냐 작가님 많이 힘드신가보다... [11]

Ecrire 6시간전 381 15

3002458 명조 아침부터 밤까지 개판인 챈떡... "완장 책임은 없나" [12]

강간해주마_키리후지_나기사 7시간전 2258 54

3002457 AI 그림 🔞 NAI vibe에 쓴 그림 맞춰보기

Rem_Suki_Suki 06-17 865 11

3002456 블루 아카이브 🎨창작 고즈 존나 패는 manhwa [33]

장은솔 6시간전 2404 64

3002455 블루 아카이브 🎨창작 탐정 마리 그려봤어요! [14]

핑쿠마 6시간전 813 40

3002454 핫딜 식품 광동 비앙떼 유자캐모마일/자몽블랙티 500ml 24+24 총 48개 (14,256원/무료) [26]

ㅇㅇ 7시간전 1736 10

3002453 AI 그림 🔞 NAI 자캐 왜 만드는지 알겠네 [5]

ㅇㅇ 06-17 1114 11

3002452 블루 아카이브 🎨창작 2차 창작 금속 공예 굿즈, 펜던트와 반지 앞으로의 계획(임시 일정) [30]

미치즈레 8시간전 1140 36

3002451 전술 전장에서 전사한 적/아군의 물건을 가져가면 어떻게 될까? [17]

kwpnjae 06-16 294 9

3002450 메이플스토리 자랑 아이고 세상에!!!! [13]

사보텐더 21시간전 340 7

3002449 블루 아카이브 🎨창작 이즈미 그린거 [13]

ararara 11시간전 683 27

3002448 원신 비경/영상 12-1 전반. 명함 전무 클로린드. 클피카키 46초 [31]

MSA 6시간전 1050 18

3002447 우마무스메 프리티 더비 육성 가르쳐주신 분들 감사합니다 [10]

행복한하루가되기를 6시간전 307 13

글쓰기

전체글 Ai 언어모델 로컬 채널