llama3는 모델의 토크나이저가 이미 한국어가 포함된 토크나이저였군요. 


llama2로 실험해서 돌아오겠습니다. 


안녕하세요. 


먼저 흥미로운 논문이 있었습니다. chat vector(https://arxiv.org/abs/2310.04799v2)라고

훈련한 모델의 매개변수를 더하면 그 훈련량 만큼 전달 할 수 있다는 논문입니다. 


이 게시판에서도 한 유저분이 이걸 바탕으로 흥미로운 실험을 하셨었죠. 

https://arca.live/b/alpaca/104827551


어쨌든 논문은 모델의 구조가 같음을 전제로


영어로 제작된 모델의 기본모델과 인스트럭션 모델의 parameter diff를 다른언어로 CP(Contunal Pre-train)된의 모델에 더하면 


간단히 인스트럭션모델을 만들수 있다라는 가정입니다. 

-------------------------------------------------------------


그렇다면 영어 인스트럭션 모델에


같은 구조의 모델의 plm과 cp모델의 매개변수 차이를 더하면 한국어 능력을 입힐 수 있지 않을까 생각했습니다. 

결과는 됩니다. 


성능이 막 뛰어나다 할 수 없지만 저 위의 chat vector만큼 정도는 됩니다. 대신 토크나이저는 cp모델의 토크나이저를 불러와서 적용해야 합니다. 

모델 주소는 아래와 같습니다.

https://huggingface.co/aeolian83/Llama-3-8B-Instruct-cp-transfer_1.0