안녕하세요.
LLM에 관심을 가지고 공부중인 학생입니다.
다름이 아니라 Mistral-7B-inst 모델을 파인튜닝 해보고 있는데,
학습 과정에서 갑자기 train loss가 발산하는 현상이 생깁니다.
이건 어떤 이유 때문이라고 유추 해볼수 있을까요 ?ㅠㅠ
그리고 추가적으로 이런 경우는 그래프를 잘 보고 발산 이전 step 까지만 학습하는 것도 효과가 있다고 할수 있을까요 ?
안녕하세요.
LLM에 관심을 가지고 공부중인 학생입니다.
다름이 아니라 Mistral-7B-inst 모델을 파인튜닝 해보고 있는데,
학습 과정에서 갑자기 train loss가 발산하는 현상이 생깁니다.
이건 어떤 이유 때문이라고 유추 해볼수 있을까요 ?ㅠㅠ
그리고 추가적으로 이런 경우는 그래프를 잘 보고 발산 이전 step 까지만 학습하는 것도 효과가 있다고 할수 있을까요 ?