LLM 리더보드 및 벤치마크 용어 / leaderboard,benchmark

[arc_challenge]
- AI2 추론 챌린지(ARC)에 도전해보세요! ARC 데이터 세트에는 7,787개의 실제 초등학교 수준의 객관식 과학 문제가 포함되어 있으며, 고급 문제 풀이 연구를 장려하기 위해 수집되었습니다. 데이터 세트는 챌린지 세트와 이지 세트로 나뉘며, 전자는 검색 기반 알고리즘과 단어 동시 발생 알고리즘으로 오답을 맞힌 문제들로만 구성되어 있습니다. 이 순위표는 이지 세트에 대한 것입니다.

[arc_easy]
- 위의 쉬운 버전

[boolq]
- BoolQ는 15942개의 예시가 포함된 예/아니요 질문에 대한 답변 데이터 세트입니다. 이러한 질문은 자연적으로 발생하는 것으로, 프롬프트가 표시되지 않고 제약이 없는 설정에서 생성됩니다. 각 예는 (질문, 구절, 답변)의 세 가지로 구성되며, 페이지 제목은 선택적 추가 컨텍스트로 제공됩니다.

[hellaswag]
- 인간에게는 쉽지만(~95%) SOTA 모델에게는 까다로운 상식 추론 테스트.

[openbookqa]
- OpenBookQA는 한 주제에 대한 인간의 이해를 평가하기 위해 오픈북 시험을 모델로 한 새로운 종류의 문제-답변 데이터 세트입니다. 이 데이터셋은 5,957개의 객관식 초등학교 수준의 과학 문제(훈련 4,957개, 개발 500개, 테스트 500개)로 구성되어 있으며, 1,326개의 핵심 과학 사실로 구성된 작은 '책'에 대한 이해와 이러한 사실을 새로운 상황에 적용하는 능력을 측정합니다. 훈련을 위해 데이터 세트에는 각 질문과 해당 질문이 조사하도록 설계된 핵심 과학 사실에 대한 매핑이 포함되어 있습니다. OpenBookQA 질문에 답하려면 책에 포함되지 않은 광범위한 상식이 추가로 필요합니다. 이 질문은 설계상 검색 기반 알고리즘과 단어 동시 발생 알고리즘 모두에 의해 오답으로 처리됩니다. 또한 데이터 세트에는 5,167개의 크라우드 소싱 상식 팩트 모음과 각 질문이 원래의 핵심 팩트, 인간 정확도 점수, 명확도 점수, 익명화된 크라우드 워커 ID와 연관된 확장 버전의 훈련/개발/테스트 문제가 포함되어 있습니다.

[piqa]
- PIQA는 상식적 추론을 위한 데이터 세트로, NLP에서 기존 모델의 물리적 지식을 조사하기 위해 만들어졌습니다.

[winogrande]
- WinoGrande는 44,000개의 문제로 구성된 대규모 데이터셋으로, 원래의 WSC 설계에서 영감을 받았지만 데이터셋의 규모와 난이도를 모두 개선하기 위해 조정되었습니다. 데이터 세트 구축의 핵심 단계는 (1) 신중하게 설계된 크라우드소싱 절차, (2) 사람이 감지할 수 있는 단어 연관성을 기계가 감지할 수 있는 임베딩 연관성으로 일반화하는 새로운 AfLite 알고리즘을 사용한 체계적 편향성 감소로 구성됩니다.

* acc(정확도), acc_norm(정규화된 정확도)

[용어]

1. AI2 Reasoning Challenge(25 shot)

- 초등학교 수준의 과학 문제 세트.

2. HellaSwag(10 shot)

- 인간에게는 쉽지만(~95%) SOTA 모델에게는 까다로운 상식 추론 테스트.

3. MMLU(5 shot)

- 텍스트 모델의 멀티태스크 정확도를 측정하는 테스트입니다. 이 테스트는 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등을 포함한 57개의 과제를 다룹니다.

4. TruthfulQA(0 shot)

- 온라인에서 흔히 볼 수 있는 허위 사실을 재현하는 모델의 성향을 측정하는 테스트입니다. 참고: 하네스의 TruthfulQA는 6개의 예제가 체계적으로 제공되므로 실제로는 최소 6개의 예제로 구성되어 있으며, 몇 개의 예제 수를 0으로 설정하여 실행해도 됩니다.

5. Winogrande(5 shot)

- 상식적인 추론을 위한 대규모의 적대적이고 어려운 Winograd 벤치마크입니다.

6. GSM8k(5 shot)

- 다단계 수학적 추론 문제를 푸는 모델의 능력을 측정하기 위한 다양한 초등학교 수학 단어 문제.

7. DROP(3 shot)

- 단락의 내용에 대한 이산 추론이 필요한 영어 독해력 벤치마크.

8. MATH

- 12,500개의 도전적인 경시대회 수학 문제로 구성된 새로운 데이터 세트입니다. MATH의 각 문제에는 완전한 단계별 솔루션이 포함되어 있어 모델을 학습시켜 정답 도출 및 설명을 생성하는 데 사용할 수 있습니다.

9. MT-Bench

- 여러 차례에 걸친 도전적인 질문 세트입니다. 우리는 GPT-4를 사용하여 모델 응답의 등급을 매깁니다.

10. AGIEval

- 대학 입학시험, 로스쿨 입학시험, 수학 경시대회, 변호사 자격시험 등 인간 중심의 표준화된 시험의 맥락에서 기초 모델을 평가하기 위해 특별히 고안된 새로운 벤치마크

11. BBH COT

- 23개의 까다로운 BIG-Bench 과제 모음에 초점을 맞춥니다. 이 과제들은 이전의 언어 모델 평가에서 평균적인 인간 평가자보다 우수한 성능을 보이지 못했던 과제들입니다. BBH(BIG-Bench) 과제에 생각의 사슬(CoT - Chain-of-Thought) 프롬프트를 적용한 성능 평가

12. Gaoko

- 인간 수준의 지능을 향해 얼마나 잘 발전하고 있는지 추적하는 것을 목표로 합니다. 실제 시나리오에서 실질적으로 유용한 다양한 작업과 도메인에 대한 포괄적인 평가를 제공할 뿐만 아니라 시간이 지남에 따라 AI 시스템을 인간과 직접 비교할 수 있도록 풍부한 인간 성능도 제공합니다. (듣기, 빈칸 채우기, 빈칸 추론, 읽기 다중 선택, 읽기 올바른 문장 선택, 쓰기 문법, 쓰기 에세이) 능력 고사.

13. HumanEval

- 언어 이해력, 알고리즘, 간단한 수학을 평가하는 164개의 독창적인 프로그래밍 문제로 구성되어 있으며, 일부는 간단한 소프트웨어 면접 질문

14. CRASS

- 데이터는 소위 PCT(전제-반대 사실 튜플)로 구성됩니다. 기본 전제와 반대되는 조건을 사용하여 가상의 상황을 대조합니다. 고정 목표 모드에서 모델의 임무는 어떤 답이 정답인지 결정하는 것입니다. 개방형 채점 모드에서 모델은 인간 주석가가 정답 또는 오답으로 판단하는 PCT에 답을 제공해야 합니다.

15. RACE

- Race는 28,000개 이상의 지문과 약 100,000개의 문항으로 구성된 대규모 독해력 데이터 세트입니다. 이 데이터 세트는 중학생과 고등학생을 대상으로 하는 중국 내 영어 시험에서 수집한 것입니다. 이 데이터 세트는 기계 독해력을 위한 훈련 및 테스트 세트로 사용될 수 있습니다.

16. GAIA (lv3 100% -> 달성 시 인간이 하는 모든 업무는 사실상 대체가 가능할 것)

- GAIA는 차세대 LLM(추가 도구, 효율적인 프롬프트, 검색 액세스 등으로 인해 기능이 강화된 LLM)을 평가하는 것을 목표로 하는 벤치마크입니다. Data GAIA는 명확한 답이 있는 450개 이상의 사소한 질문으로 구성되어 있으며, 이를 해결하기 위해 다양한 수준의 툴링과 자율성이 필요합니다. 따라서 3단계로 나뉘며,

레벨 1은 매우 우수한 LLM이 돌파할 수 있는 수준이고 (GPT-4 lv1 Score 30%, AutoGPT4 lv1 Score 13%)

레벨 3은 모델 역량이 크게 도약했음을 나타냅니다.(GPT-4 lv3 Score 0%, AutoGPT4 lv3 Score 3.85%)

각 레벨은 검증을 위한 완전 공개 개발 세트와 비공개 답변 및 메타데이터가 포함된 테스트 세트로 나뉩니다.

[KO 리더보드 용어]

1. 추론능력(ARC)

- 초등학교 수준의 과학질문지로만 구성, AI 질문에 대한 답변의 적정성 측정.

2. 상식능력(HellaSwag)

- 인간에게는 사소한 질문이지만, AI에게는 답변하기 어려운 질문지 구성, AI 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 여부 측정.

3. 언어이해력(MMLU)

- 57개의 다양한 분야(초등 수학, 역사, 컴퓨터 과학, 법학 등)에 대한 질문지로 구성, AI 방대한 분야의 질문에 대한 답변이 얼마나 정확한지를 측정

4. 환각방지능력(TruthfulQA)

- 인간이 잘못 인지 혹은 거짓으로 대답할 수 있는 질문지로 구성, AI 답변이 진실한지 측정.