Artificial Analysis에서 만든 벤치마크임
https://artificialanalysis.ai/evaluations/omniscience
AA-Omniscience는 지식만 테스트 하는게 아니라, 환각까지 고려해서 만들어진 벤치마크임
그런데 이 벤치마크에서 Gemini 3.1 Pro가 큰 격차로 1위를 했길래 정리해봄
(Gemini 3 Pro에 비해 환각이 줄었다는 것도 이 벤치마크에서 보여짐)
이 글은 굉장히 스압이니까 글 하단에서 자기가 궁금한 모델들 결과만 찾아보는걸 추천함
문제 예시
실제 사람이라면 전혀 모를만한, 집착에 가까운 문제들임
Q: 미국 회계기준(U.S. GAAP, ASC Topic 606) 하에서, 일련의 구별되는 재화나 용역이 동일한 이전 패턴을 갖기 위해 충족해야 하는 두 가지 기준을 명시적으로 나열한 참조는 무엇입니까?
A: ASC 606-10-25-15
Q: 어느 파이썬 버전부터 정규식의 시작 부분이 아닌 곳에서 인라인 플래그 그룹((?aiLmsux))을 사용하는 것이 오류(re.error: “global flags not at the start of the expression” 발생)로 처리되었습니까?
A: 3.11
Q: 인간의 경우, 역치 강도로 일차 감각 피질(체성 감각 또는 시각)을 직접 전기 자극할 때, 자극이 보고 가능한 의식적 감각을 생성하기 위해 필요한 최소 자극 트레인 지속 시간(밀리초, ms 단위)은 얼마입니까?
A: 500

진짜 이걸 대체 누가 외워? 라고 할만한 문제들임
그래서 사람들끼리 이게 의미가 있냐 없냐로 의견을 나누기도 했었음

https://x.com/YouJiacheng/status/2024584848699232652
(요약: 이 벤치마크 대체 왜 씀?)

(요약: 문제가 이 정도는 되어야 환각 측정 가능한거 아님?)
벤치마크 결과
총 3가지 결과가 있음
1. 정확도 결과 (지식)
2. 환각 결과 (환각)
3. 종합 결과 (지식+환각)
1. 정확도 결과
자신있게 오답을 말하든 말든 그냥 정답의 비중이 높으면 되는 방식임 (계산법: 맞춘문제 / 전체문제)
일반적인 지식 벤치마크와 동일한 방식이며 환각에 대해 고려하지 못한다는 문제가 있음
(예: 잘 모르겠지만 일단 자신있게 찍고보는 모델)
정확도 벤치 결과 요약
- 제미니3가 선두를 차지하며 Opus 4.6, 4.5, GPT-5.2, Grok 4도 상위권에 오름
- 크기가 작은 모델들은 대체로 매우 뒤떨어지는 정확도를 보여줬음 (haiku, gpt mini, grok fast, gemini flash lite등)
54% Gemini 3 Pro Preview (high)
53% Gemini 3.1 Pro Preview
52% Gemini 3 Flash
47% Gemini 3 Pro Preview (low)
46% Gemini 3 Flash (비추론)
44% Claude Opus 4.6 (max)
44% Claude Opus 4.6
43% Claude Opus 4.5
41% GPT-5.2 (xhigh)
40% Grok 4
39% Claude Opus 4.5 (비추론)
39% GPT-5 (high)
38% GPT-5.2 Codex (xhigh)
37% Gemini 2.5 Pro
37% GPT-5 (medium)
37% o3
37% GPT-5 Codex (high)
36% Claude 4.1 Opus
36% GPT-5 (low)
36% GPT-5.2 (medium)
35% GPT-5.1 (high)
33% o1
33% Kimi K2.5
32% Claude Sonnet 4.6
32% DeepSeek V3.2
31% Claude 4.5 Sonnet
30% Qwen3.5 397B A17B
29% Qwen3 Max Thinking
28% GPT-5.2
28% GPT-5.1
28% GLM-4.7
27% Claude 3.7 Sonnet
27% Claude 4.5 Sonnet (비추론)
27% Claude 3.7 Sonnet (비추론)
27% GPT-5 (minimal)
27% Grok 3
25% Gemini 2.5 Flash
25% Gemini 2.5 Flash (비추론)
25% GLM-5
25% MiniMax-M2.5
24% Claude Sonnet 4.6 (max)
24% Qwen3.5 397B A17B (비추론)
24% Mistral Large 3
24% Llama 4 Maverick
24% Grok 4.1 Fast
23% o4-mini (high)
23% GPT-5.1 Codex (high)
23% GPT-5 mini (high)
23% Qwen3 Max
23% GLM-4.7 (비추론)
22% Gemini 2.0 Flash
22% GPT-5.1 Codex mini (high)
22% Kimi K2.5 (비추론)
22% MiniMax-M2.1
22% Grok 4 Fast
22% GLM-5 (비추론)
22% Llama 3.1 405B
21% Claude 4 Sonnet
21% Claude 4 Sonnet (비추론)
21% GPT-5 mini (medium)
21% GPT-4o (Aug)
20% o3-mini (high)
20% gpt-oss-120B (high)
19% GPT-4.1 mini
19% GPT-4o (Nov)
19% Mistral Medium 3.1
18% GPT-5 nano (high)
18% gpt-oss-120B (low)
17% Gemini 2.5 Flash-Lite
17% GPT-5 mini (minimal)
16% Claude 4.5 Haiku
16% Claude 3 Haiku
16% GPT-5 nano (medium)
16% Grok 4 Fast (비추론)
16% Grok 4.1 Fast (비추론)
15% Gemini 2.5 Flash-Lite (비추론)
15% gpt-oss-20B (high)
15% GLM-4.7-Flash
14% gpt-oss-20B (low)
13% Claude 4.5 Haiku (비추론)
13% Claude 3.5 Haiku
13% GPT-4.1 nano
12% GLM-4.7-Flash (비추론)
11% GPT-5 nano (minimal)
2. 환각 결과
정답을 제시하지 못한 여러 경우 중에, 자신있게 오답을 말한 비율임 (계산법: 틀린 문제 / 틀린문제+부분정답+기권)
이 결과는 실제 정답 비율을 반영하지 않기에 이 지표 단독으로는 유의미한 의미를 가지지는 않음
(예: 문제 100개중에 95개를 "이건 저도 모르겠어요"라고 답하는 모델은 환각률도 낮지만 딱히 쓸모도 없음)
환각 결과 요약
- 클로드 Haiku 모델들은 최신 모델에 가까울수록 모르면 모른다고 답하려는 경향이 있음
- 제미니 3 프로는 이 까다로운 문제들에 대한 환각률이 88%인데 제미니 3.1 프로는 50%로 줄어들음
- o3은 o1보다 정확도가 4% 높지만 환각률은 18% 높음
25% Claude 4.5 Haiku (비추론)
26% Claude 4.5 Haiku
29% Claude 4 Sonnet
34% GLM-5
38% Claude Sonnet 4.6 (max)
38% GPT-4o (Nov)
39% Claude 3.7 Sonnet
41% Claude 4 Sonnet (비추론)
41% Claude 3.5 Haiku
43% GPT-5 mini (medium)
45% GLM-5 (비추론)
48% Claude 4.5 Sonnet
48% Claude 4.1 Opus
49% Kimi K2.5 (비추론)
50% Gemini 3.1 Pro Preview
51% Claude 4.5 Sonnet (비추론)
51% GPT-5.1 Codex mini (high)
51% GPT-5.1 (high)
51% Llama 3.1 405B
52% Claude 3.7 Sonnet (비추론)
52% GPT-5 nano (medium)
54% GPT-4o (Aug)
55% GPT-5 mini (high)
58% Claude Opus 4.5
59% GPT-5 nano (high)
59% GPT-5.2 (medium)
60% Claude Opus 4.6 (max)
60% GPT-5.2
61% Claude Sonnet 4.6
64% Grok 4
64% Kimi K2.5
67% MiniMax-M2.1
67% Grok 4 Fast
69% o1
71% GPT-5.2 Codex (xhigh)
72% Grok 4.1 Fast
73% GPT-5.1 Codex (high)
74% Claude Opus 4.5 (비추론)
74% Gemini 2.5 Flash
74% GPT-5 Codex (high)
76% Claude Opus 4.6
77% Gemini 2.5 Flash-Lite
77% GPT-5 (low)
78% GPT-5.2 (xhigh)
79% o4-mini (high)
80% Claude 3 Haiku
81% o3-mini (high)
81% GPT-5 (high)
81% Grok 4.1 Fast (비추론)
82% GPT-5 (medium)
82% GPT-4.1 nano
82% DeepSeek V3.2
82% Qwen3.5 397B A17B (비추론)
82% Mistral Medium 3.1
85% Gemini 2.0 Flash
85% Mistral Large 3
86% Grok 3
86% Grok 4 Fast (비추론)
86% gpt-oss-20B (low)
87% Gemini 3 Pro Preview (low)
87% Gemini 2.5 Flash-Lite (비추론)
87% o3
88% Gemini 3 Pro Preview (high)
88% GPT-5 mini (minimal)
88% GPT-5 nano (minimal)
88% GPT-5 (minimal)
88% Llama 4 Maverick
88% MiniMax-M2.5
88% Qwen3.5 397B A17B
89% Gemini 2.5 Pro
89% GPT-5.1
89% Qwen3 Max
89% GLM-4.7-Flash
90% GLM-4.7
90% gpt-oss-120B (high)
91% Gemini 3 Flash
91% Gemini 3 Flash (비추론)
91% gpt-oss-120B (low)
92% GPT-4.1 mini
92% GLM-4.7 (비추론)
93% Gemini 2.5 Flash (비추론)
93% gpt-oss-20B (high)
93% Qwen3 Max Thinking
94% GLM-4.7-Flash (비추론)
3. 종합 결과
정답은 점수를 추가하고, 모른다고 하면 점수에 변화가 없고, 오답을 내면 점수를 깎는 방식임
종합 결과 요약
- Gemini 3.1 Pro가 압도적인 격차를 만들며 1위를 달성함
- 경량 모델들은 대체로 지식+환각면에서 상당히 뒤떨어지는 편임
- 하지만 경량 모델(?) Gemini 3 Flash는 5위를 차지하며 Haiku 4.5도 나쁘지 않은 순위를 보여줬음
- o1이 o3보다 좋게 나옴
+30점 Gemini 3.1 Pro Preview
+13점 Gemini 3 Pro Preview (high)
+11점 Claude Opus 4.6 (max)
+10점 Claude Opus 4.5
+8점 Gemini 3 Flash
+5점 Claude 4.1 Opus
+2점 GPT-5.1 (high)
+1점 Claude Opus 4.6
+1점 Grok 4
-1점 GLM-5
-1점 Gemini 3 Flash (비추론)
-1점 Gemini 3 Pro Preview (low)
-2점 Claude 3.7 Sonnet
-2점 Claude 4 Sonnet
-2점 Claude 4.5 Sonnet
-3점 GPT-5.2 (medium)
-4점 Claude Sonnet 4.6 (max)
-4점 GPT-5.2 (xhigh)
-6점 Claude 4.5 Haiku
-6점 Claude Opus 4.5 (비추론)
-6점 GPT-5.2 Codex (xhigh)
-7점 GPT-5.1 Codex (high)
-8점 Claude 4.5 Haiku (비추론)
-9점 Claude Sonnet 4.6
-10점 Claude 4 Sonnet (비추론)
-11점 Kimi K2.5
-11점 Claude 4.5 Sonnet (비추론)
-11점 Claude 3.7 Sonnet (비추론)
-11점 GPT-5 (high)
-12점 GPT-4o (Nov)
-13점 o1
-13점 GPT-5 mini (medium)
-13점 GPT-5 (low)
-13점 GLM-5 (비추론)
-14점 GPT-5 (medium)
-15점 GPT-5.2
-16점 Kimi K2.5 (비추론)
-17점 o3
-18점 GPT-5.1 Codex mini (high)
-18점 Gemini 2.5 Pro
-18점 Llama 3.1 405B
-20점 GPT-5 mini (high)
-22점 GPT-4o (Aug)
-23점 Claude 3.5 Haiku
-23점 DeepSeek V3.2
-27점 GPT-5 nano (medium)
-30점 MiniMax-M2.1
-30점 GPT-5 nano (high)
-31점 Grok 4 Fast
-31점 Grok 4.1 Fast
-31점 Gemini 2.5 Flash
-32점 Qwen3.5 397B A17B
-35점 Grok 3
-36점 GLM-4.7
-37점 GPT-5.1
-37점 GPT-5 (minimal)
-37점 o4-mini (high)
-38점 Qwen3 Max Thinking
-39점 Qwen3.5 397B A17B (비추론)
-41점 MiniMax-M2.5
-41점 Mistral Large 3
-43점 Llama 4 Maverick
-44점 Gemini 2.5 Flash (비추론)
-44점 Gemini 2.0 Flash
-44점 o3-mini (high)
-45점 Qwen3 Max
-47점 Gemini 2.5 Flash-Lite
-48점 Mistral Medium 3.1
-48점 GLM-4.7 (비추론)
-51점 Claude 3 Haiku
-52점 gpt-oss-120B (high)
-52점 Grok 4.1 Fast (비추론)
-56점 GPT-5 mini (minimal)
-56점 GPT-4.1 mini
-56점 gpt-oss-120B (low)
-56점 Grok 4 Fast (비추론)
-59점 GPT-4.1 nano
-59점 Gemini 2.5 Flash-Lite (비추론)
-60점 GLM-4.7-Flash
-61점 gpt-oss-20B (low)
-65점 gpt-oss-20B (high)
-66점 GPT-5 nano (minimal)
-70점 GLM-4.7-Flash (비추론)
결론: 제미니는 버전이 오를때마다 지식 측면에서 점점 좋아지고 있으며 잼삼일은 더 좋아졌다