얼마전에 마이크로소프트에서 Orca-math 논문을 발표하면서 데이터셋도 같이 올렸는데, 준비된 데이터셋과 논문 내용이 맘에 들어서 한국어로 프로젝트를 진행했습니다. 결과가 아직까지 꽤 만족스러운 편이라 공유해보려고 합니다.
추가로 EEVE-Math 모델과 야놀자의 Instruct 모델을 dare-ties를 이용해 두 성능 다 챙기는 테스트도 진행했는데요. 이 결과도 만족스럽네요.
EEVE-Math-10.8B: https://huggingface.co/kuotient/EEVE-Math-10.8B
EEVE-Instruct-Math-10.8B: https://huggingface.co/kuotient/EEVE-Instruct-Math-10.8B
모델 카드(EEVE-Math만)
EEVE-Math-10.8B
EEVE-Math 프로젝트는
- Orca-Math-200k 번역
- gsm8k 번역, lm_eval 활용
- Mergekit을 이용한 dare-ties 사용
에 대한 내용을 포괄하고 있습니다.
> 이 모델은 orca-math-word-problems-193k-korean 데이터셋을 이용하여 학습되었습니다. 응답 중 일부는 LaTeX 형식을 이용하여 결과를 반환하지만, 완성된 형식이 아닐 수 있습니다. 현재 M1 stage까지 진행되었습니다.
모델 | gsm8k-ko(pass@1) |
Base | 0.4049 |
SFT(M1) | 0.508 |
SFT(M1) -> SFT | 0.539 |
SFT(M1) -> KTO(M2) | |
예산이 너무 많이 들어 못할듯... |
## Specifications
- SFT(M1) -> SFT 단계
## Base Model
yanolja/EEVE-Korean-10.8B-v1.0
## Dataset
orca-math-word-problems-193k-korean
## Evaluation
gsm8k-ko, kobest
| Model | gsm8k(pass@1) | boolq(acc) | copa(acc) | hellaswag(acc) | Overall |
|---|---|---|---|---|---|
| yanolja/EEVE-Korean-10.8B-v1.0 | 0.4049 | - | - | - | - | - |
| yanolja/EEVE-Korean-Instruct-10.8B-v1.0 | 0.4511 | **0.8668** | **0.7450** | 0.4940 | 0.6392 |
| **EEVE-Math-10.8B** | **0.5390** | 0.8027 | 0.7260 | 0.4760 | 0.6359 |
| **EEVE-Instruct-Math-10.8B** | 0.4845 | 0.8519 | 0.7410 | **0.4980** | **0.6439** |
모델 출력 결과물은 https://huggingface.co/datasets/kuotient/orca-math-korean-preference 여기서 확인할 수 있습니다. KTO를 위한 사전 데이터셋인데 같이 공유할테니 자유롭게 봐주세요