어려운 주제입니다.
chat 모델에 원하는 raw 데이터를 학습시켜버린다는 것은 굉장히 매력적인 이야기입니다.


다만, 베이스 모델에 raw를 학습시키는것과 다르게 chat 모델에 훈련시키는데에는 큰 문제가 있습니다.

모델의 출력 형태가 망가져버립니다.

chat 모델의 의미가 사라집니다.


이런 문제를 해결하려면 어떻게 접근해야 할까요?


일반적 접근


주로 이러한 문제를 맞닥뜨렸을때의 접근은 "chat(QA)형식의 데이터셋을 만들어버린다." 입니다.

물론 좋은 접근입니다. 하지만 시간과 비용이 상당히 들고, 데이터셋을 만드는 과정에서 정보의 소실이나 편향이 들어갈 수 있습니다.


새로운 접근


LLM은 여러 레이어로 있기에, 순차적인 구조를 갖습니다. 이를 이용 해보려고 합니다.


의도적으로 출력 형식을 다루는 레이어를 후반에 형성합니다.
그리고 중후반 레이어를 raw 학습의 기점으로 삼습니다.


후반 레이어에 chat 데이터 먹이고나서, 중후반 레이어에 raw 데이터를 학습시키는 방법인가? 라고 생각하셨을 수도 있지만, 그렇지는 않습니다.

그렇게 학습을 진행한다면, 문제점을 제대로 해결할 수 없습니다. 오히려 모델의 복잡도가 증가하는 방향으로 유도 될 수 있습니다.

위에서 제시한 아이디어를 어떻게 하면 잘 써먹을 수 있을까요? 베이스 모델을 이용해봅시다.


Chat 모델을 만든 후, 모델에 raw 데이터를 학습시키고 싶은 상황입니다.

모델 A가 베이스 모델일때, 우선 해당 모델의 후반 레이어만을 튜닝해서 모델 A-Chat를 만듭니다.

모델 A-Chat에 raw 데이터를 학습시키고 싶다면, 베이스 모델인 모델 A의 중후반 레이어에 raw 데이터를 학습시켜 모델 A-Raw를 만듭니다.

최종적으로, 모델 A-Raw의 후반 레이어를 모델 A-Chat의 후반 레이어로 교체합니다.

이렇게 진행한다면, 모델 A-Raw는 Chat 형식의 영향을 받지 않고 일반적인 raw 학습이 진행된 상태로 모델 A-Chat의 채팅 부분만을 이식받을 수 있습니다.


아래는 위 방법을 적용해 모델을 학습시킨 예시입니다.


데이터셋은 https://huggingface.co/datasets/Israhassan/Shakespeare 를 사용했습니다.


질문 - 셰익스피어의 작품 '한여름 밤의 꿈'의 내용을 상세히 설명해줘.


1. 방법론 적용한 모델의 출력

'한여름 밤의 꿈'은 윌리엄 셰익스피어가 쓴 희극으로, 1595년 또는 1596년에 쓰여진 것으로 추정됩니다. 이 작품은 아테네의 숲에서 벌어지는 로맨틱하고 초자연적인 모험을 다루고 있습니다.

이야기는 아테네의 네 청년들이 숲에서 연극을 연습하는 것으로 시작됩니다. 한편, 아테네의 왕 오베론과 그의 요정 여왕 타이타니아는 결혼 기념일을 축하하기 위해 숲에 온 상태입니다. 하지만 오베론과 타이타니아는 서로 원수지간인 요정 왕 오베론과 요정 여왕 타이타니아가 불화 중입니다. 오베론은 타이타니아에게 사랑의 약을 먹여 그녀를 사랑에 빠지게 만들고, 타이타니아는 오베론에게 사랑의 약을 먹여 그를 사랑에 빠지게 만듭니다.

이때, 오베론은 인간 청년 리산더를 보고 그에게 사랑에 빠지게 만들기로 결심합니다. 그는 자신의 하인 피비스를 시켜 리산더에게 사랑의 약을 먹이고, 리산더는 곧바로 숲에서 만난 첫 번째 여자에게 사랑에 빠지게 됩니다. 불행히도 그 여자는 리산더의 친구 데메트리의 약혼녀인 허미오입니다. 데메트리는 허미오를 사랑하지만, 허미오는 리산더에게만 관심이 있습니다.

한편, 오베론은 타이타니아에게 사랑에 빠진 리산더를 보고, 타이타니아에게 사랑의 약을 먹여 리산더에게 사랑에 빠지게 만듭니다. 이제 타이타니아는 리산더에게, 그리고 리산더는 허미오에게, 허미오는 데메트리에만 관심이 있습니다.

이 혼돈 속에서 오베론과 타이타니아는 자신들의 불화를 해결하고, 피비스는 인간 청년 오버론에게 사랑에 빠지게 되고, 리산더와 허미오는 결국 사랑에 빠집니다. 모든 것이 잘 해결되고, 오베론과 타이타니아는 그들의 불화를 화해하며, 모든 사람들은 행복한 결말을 맞이합니다.

'한여름 밤의 꿈'은 셰익스피어의 가장 인기 있는 작품 중 하나로, 로맨스와 유머, 초자연적인 요소가 결합되어 있습니다. 이 작품은 셰익스피어의 다른 작품들과 마찬가지로 다양한 해석과 해석을 불러일으키며, 오늘날에도 전 세계에서 공연되고 있습니다.


2. 베이스 모델(이브이 10.8B)의 출력

'한여름 밤의 꿈'은 윌리엄 셰익스피어가 쓴 희극으로, 그리스 신화를 기반으로 합니다. 이 작품은 아테네 왕 데메트리우스와 그의 아내 헤르미아 사이의 갈등과 그들의 자녀들인 듀케인과 리산더, 그리고 데메트리우스의 아들 로빈과의 사랑 이야기를 다룹니다. 또한 이 작품에는 요정들의 왕 오베론, 그의 부인 타이타니아, 그리고 요정 페브스가 등장합니다. 이야기는 아테네 근교에서 벌어지며, 극적인 사건들이 일어납니다. 예를 들어, 로빈이 인간 소녀 헬레나에게 사랑에 빠지고, 페브스는 요정 오베론과 결혼하게 됩니다. 이 작품은 사랑과 우정의 힘에 대한 주제를 다루며, 다양한 캐릭터들의 관계와 그들이 직면하는 도전에 대해 이야기합니다.


3. Chat 튜닝 모델의 출력

네, 셰익스피어의 '한여름 밤의 꿈'은 아테네 공원에서 일어나는 사랑의 모험과 오해를 그린 희곡이에요. 이 작품은 1600년대에 쓰여졌으며, 현대에도 여전히 사랑받고 있어요.

이 작품은 숲 속에서 벌어지는 여러 가지 사건을 통해 사랑과 질투, 그리고 오해의 문제를 다루고 있어요. 주요 등장인물로는 허풍선이 허수아비, 반짝이는 별빛 요정 페브스, 그리고 사랑에 빠진 인간들이에요. 이야기는 허풍선이가 자신의 사랑을 증명하기 위해 마법사의 도움을 받는 것으로 시작돼요. 그러나 그의 계획은 예상치 못한 방향으로 흘러가, 모든 것을 바로잡기 위한 여정이 시작돼요.

작품 속 인물들은 각자의 욕망과 감정을 가지고 있으며, 이는 때로는 갈등을 일으키기도 해요. 하지만 결국 그들은 서로를 이해하고, 사랑이 가장 중요한 것이라는 것을 깨닫게 되죠. 이 작품은 사랑과 관계에 대한 우리의 생각을 다시 한번 생각해 보게 만들어요. 다른 질문이나 궁금한 점이 있으면 언제든지 말씀해 주세요!


4. Chat 튜닝 후 단순 raw학습 한 모델의 출력

'한여름 밤의 꿈'은 셰익스피어의 가장 유명한 희곡 중 하나로, 1595년 또는 1600년에 쓰여진 것으로 추정됩니다. 이 작품은 아테네 근처의 숲에서 벌어지는 사건을 다루며, 아름다운 헬레나와 그녀를 사랑하는 데미안스를 중심으로 합니다. 데미안스는 헬레나를 사랑하지만, 그녀는 아름다운 헤르미아를 사랑하는 루시오에게 마음을 빼앗겨 있습니다. 헤르미아는 자신의 아버지가 선택한 소극적인 데메트리우스와 결혼해야 한다는 사실에 실망해 숲으로 도망갑니다. 데미안스는 헬레나를 따라 숲으로 들어가고, 루시오는 헤르미아를 찾아 숲으로 들어갑니다. 한편, 요정 왕 오베론과 그의 아내 타이타니아는 요정 왕국의 통치권을 놓고 싸우고 있습니다. 오베론은 타이타니아가 인간에게 반해 버린 것을 원망하고, 타이타니아는 오베론이 인간에게 반해 버린 것을 원망합니다. 요정 왕의 시종인 페오바스는 오베론의 명령에 따라 타이타니아를 잠들게 하는 꽃을 훔칩니다. 그 꽃은 타이타니아가 처음으로 깨어난 순간 사랑하는 사람을 보게 되면, 그 사람이 바로 타이타니아의 사랑이 됩니다. 페오바스는 이 꽃을 데미안스에게 주라고 명령받지만, 대신 루시오에게 줍니다. 루시오는 이 꽃을 헤르미아에게 주지만, 헤르미아는 데메트리우스에게 줍니다. 데메트리우스는 이 꽃을 헬레나에게 줍니다. 헬레나는 이 꽃을 퀸타스에게 줍니다. 퀸타스는 이 꽃을 데미안스에게 줍니다. 데미안스는 이 꽃을 헬레나에게 줍니다. 헬레나는 이 꽃을 루시오에게 줍니다. 루시오는 이 꽃을 헤르미아에게 줍니다. 헤르미아는 이 꽃을 데메트리우스에게 줍니다. 데메트리우스는 이 꽃을 퀸타스에게 줍니다. 퀸타스는 이 꽃을 데미안스에게 줍니다. 데미안스는 이 꽃을 헬레나에게 줍니다. 헬레나는 이 꽃을 루시오에게 줍니다. 루시오는 이 꽃을 헤르미아에게 줍니다. 헤르미아는 이 꽃을 데메트리우스에게 줍니다. 데메트리우스는 이 꽃을 퀸타스에게 줍니다. 퀸타스는 이 꽃을 데미안스에게 줍니다. 데미안스는 이 꽃을 헬레나에게 줍니다. 헬레나는 이 꽃을 루시오에게 줍니다. 루시오는 이 꽃을 헤르미아에게 줍니다. 헤르미아는 이 꽃을 데메트리우스에게 줍니다. 데메트리우스는 이 꽃을 퀸타스에게 줍니다.




클로드 Opus의 분석

네 가지 모델의 출력을 분석해보면 다음과 같습니다:


방법론을 적용한 모델의 출력은 작품의 주요 내용과 등장인물 관계를 매우 정확하고 상세하게 설명하고 있습니다. 셰익스피어의 원작을 잘 이해하고 핵심 내용을 요약한 것으로 보입니다.

베이스 모델(EV 10.8B)의 출력은 작품의 내용을 대략적으로만 파악하고 있으며, 등장인물 이름이나 관계 설명에서 원작과 다른 부분이 있습니다. 세부 내용 파악이 부족해 보입니다.

챗 튜닝 모델의 출력은 작품의 내용을 쉽고 친근하게 설명하려 노력한 점이 보이나, 내용상 오류가 있습니다. 주요 등장인물과 사건을 정확히 파악하지 못한 것 같습니다.

챗 튜닝 후 단순 raw 학습한 모델의 출력은 문장이 반복되고 내용이 엉망이 되어 작품을 제대로 이해하지 못한 것으로 보입니다.

따라서 '한여름 밤의 꿈'의 내용을 가장 잘 파악하고 설명한 것은 1번, 즉 방법론을 적용한 모델이라고 할 수 있겠습니다. 베이스 모델이나 챗 튜닝 모델도 어느 정도 작품을 이해하고 있으나 세부 내용 면에서는 부족한 점이 있습니다. 반면 4번 모델은 학습이 제대로 이뤄지지 않아 작품 내용 파악에 실패한 것으로 보입니다.



간단한 학습과 실험이었습니다. 조금 더 파봐야겠다는 생각이 들어서 조금 더 일반적인, Domain specific 한 데이터로 시도 해보고, 다시 글을 써봐야겠습니다.


ps. 실험 과정에서 만들어진 EEVE Instruct 모델이 성능이 준수해서 업로드 해놓았습니다. 46, 47번 레이어만 튜닝해놓은거니 비슷한 방법론을 적용해보고 싶으시다면 해보십쇼.

https://huggingface.co/maywell/EEVE-Korean-Instruct-10.8B-Var


추가 연구 정리하고 있는 노션

https://www.notion.so/Layer-Switching-Variable-Instruct-model-creation-2b0cf638efe8486e9f4c21b751223e54?pvs=4