개념글 모음

얼마전에 마이크로소프트에서 Orca-math 논문을 발표하면서 데이터셋도 같이 올렸는데, 준비된 데이터셋과 논문 내용이 맘에 들어서 한국어로 프로젝트를 진행했습니다. 결과가 아직까지 꽤 만족스러운 편이라 공유해보려고 합니다. 

추가로 EEVE-Math 모델과 야놀자의 Instruct 모델을 dare-ties를 이용해 두 성능 다 챙기는 테스트도 진행했는데요. 이 결과도 만족스럽네요.

EEVE-Math-10.8B: https://huggingface.co/kuotient/EEVE-Math-10.8B

EEVE-Instruct-Math-10.8B: https://huggingface.co/kuotient/EEVE-Instruct-Math-10.8B

모델 카드(EEVE-Math만)


EEVE-Math-10.8B

EEVE-Math 프로젝트는

- Orca-Math-200k 번역

- gsm8k 번역, lm_eval 활용

- Mergekit을 이용한 dare-ties 사용

에 대한 내용을 포괄하고 있습니다.

> 이 모델은 orca-math-word-problems-193k-korean 데이터셋을 이용하여 학습되었습니다. 응답 중 일부는 LaTeX 형식을 이용하여 결과를 반환하지만, 완성된 형식이 아닐 수 있습니다. 현재 M1 stage까지 진행되었습니다.

모델gsm8k-ko(pass@1)
Base0.4049
SFT(M1)0.508
SFT(M1) -> SFT0.539
SFT(M1) -> KTO(M2)
예산이 너무 많이 들어 못할듯...

## Specifications

- SFT(M1) -> SFT 단계

## Base Model

yanolja/EEVE-Korean-10.8B-v1.0

## Dataset

orca-math-word-problems-193k-korean

## Evaluation

gsm8k-ko, kobest


| Model | gsm8k(pass@1) | boolq(acc) | copa(acc) | hellaswag(acc) | Overall |

|---|---|---|---|---|---|

| yanolja/EEVE-Korean-10.8B-v1.0 | 0.4049 | - | - | - | - | - |

| yanolja/EEVE-Korean-Instruct-10.8B-v1.0 | 0.4511 | **0.8668** | **0.7450** | 0.4940 | 0.6392 |

| **EEVE-Math-10.8B** | **0.5390** | 0.8027 | 0.7260 | 0.4760 | 0.6359 |

| **EEVE-Instruct-Math-10.8B** | 0.4845 | 0.8519 | 0.7410 | **0.4980** | **0.6439** |

모델 출력 결과물은 https://huggingface.co/datasets/kuotient/orca-math-korean-preference 여기서 확인할 수 있습니다. KTO를 위한 사전 데이터셋인데 같이 공유할테니 자유롭게 봐주세요