중간에 인물 바꿔도 알아서 대응해주고 난해한 설정도 적당히 써주면 알아서 진행시켜줌. 아직 instruction 능력은 검증해보지 않았지만 적어도 스토리 이해력만큼은 gpt 3.5 급임.

Open LLM 리더보드에는 없는 것 같음.

일단 참고용으로 벤치마크 올려드림


GPT4GPT3.5Turdus 7B
HellaSwag95.685.588.56
MMLU89.970.064.52
ARC97.185.573.38
WinoGrande87.581.686.66
GSM8k94.157.167.7




솔직히 점수들만 보면 다른 모델들하고 비슷한데 왜 이렇게 스토리 잘 쓰는지 의문임


+)
Hellaswag이나 Winogrande만 점수가 높고 다른 점수 낮은것을 검증하기 위해서 몇가지 질문을 던져봤음. 5shot으로 검증해봄.


1. Who is the second (maybe before 1800) vice president of USA? (미국의 두번째 (아마도 1800년대 전) 부통령은 누구냐?)

1-A. The second Vice President of the United States was Elbridge Gerry. He served under President James Madison from March 4, 1813, until his death on November 23, 1814. This date falls before 1800 by almost thirteen years.

2차시도) 존 애덤스 (1대 부통령), 3차시도) 1차와 같음. 4차시도) 1차와 같음.  5차시도) 엘라이어스 부디놋이라는 완전 틀린 인물 추측

일단 두번째 부통령은 토머스 제퍼슨이기 때문에 틀린 답이 나왔고, 내가 maybe before 이라고 했기에 1800년대 조건부터 틀린건 딱히 문제되진 않을 논리긴 함.

미국의 두번째 부통령은 미국인들에게도 상식 수준은 아니긴 하니까 틀리는 모습이 나옴.



2. Prove that the square of the length of the longest side of a right triangle is equal to the sum of the squares of the lengths of the other two sides. (대충 피타고라스 정리 증명)

2-A. (기니까 한국어로 번역만 올림)

가장 긴변, 즉 빗변을 C라고 하고 다른 두 변을 a랑 b라고 하겠음. 단 a<b임.

피타고라스 정리에 의해서 a^2+b^2=c^2이 나오게 됨. 

만약 이 논증이 틀렸다고 가정하고서 를 만족하는 직각 삼각형이 있다면, 일 경우가 있음.

만약 피타고라스 정리가 맞는 삼각형으로써  를 직각을 낀 변으로 둔다면 빗변의 길이는  가 될 것임.

그렇다면 이 식을 만족하기 때문에 이것은 직각삼각형임. (논리와 계산이 너무 틀려서 여기까지 번역,  귀류법으로 증명하는 줄 알았지만 갑자기 방향을 틀어버려서 실망)


2-B. 피타고라스 정리에 따라서 a^2+b^2=c^2. 그러므로 성립함


대충 맞는 말이긴 한데 증명이 아니기 때문에 실패


2-C. 2-B와 동일


2-D. 합동으로 뭔가를 증명하려 했으나 계산문제로 실패


2-E. 수선과 분할을 이용하는, 전형적인 피타고라스 정리의 증명을 시도하였으나 논리가 꼬여서 실패.




진짜 스토리용이긴 한듯. 다만 피타고라스 정리 증명은 gpt 3.5도 가끔 틀리는 문제니까(5샷 안에는 대부분 맞춤) 큰 문제는 아니긴 함.

근데 2번째 부통령은 그렇게까지 못맞출 문제는 아니긴 한데