Orca 2: Teaching Small Language ModelsHow to Reason

요약

현재 ChatGPT의 답변을 그대로 가져와 작은 모델에 사용하는 것이 오히려 소형 LM모델에 악영향을 줄수있다고 말함

소형 LM에게 다른 방법으로 데이터를 만드는 것이 좋다고 밝힘

이때 다양한 추론 기법(스텝바이스텝, 기억 후 생성, 기억-추론-생성, 직접 답변 등등)을 학습하였고 대략 100종류의 작업과 약 36,000개 이상의 고유 프롬포트를 통해 더 성능을 올릴수있다고 함

RLHF는 안 했다고 함


이때 중요한 점은 당연한 지시를 매우 상세하게 가르치는 게 핵심임


예를 들어

이제 슬슬 밤이 되니 창문 닫아

이런 말을 할려면

밤에 기온이 낮아진다는 정보

창문을 닫으면 체감온도가 증가한다는 정보


이런 상식적인 정보를 다 학습 데이터에 넣어야 한다는 점이 핵심이라고 생각함

환각 증상(숫자가 낮을수록 좋음)

응답 벤치마크(높을 수록 좋음)


여기에 아래 System 2 Attention까지 넣으면 완벽할듯?

다음글에서 설명해줄께