Artificial Analysis에서 만든 벤치마크임

https://artificialanalysis.ai/evaluations/omniscience

AA-Omniscience는 지식만 테스트 하는게 아니라, 환각까지 고려해서 만들어진 벤치마크임


그런데 이 벤치마크에서 Gemini 3.1 Pro가 큰 격차로 1위를 했길래 정리해봄

(Gemini 3 Pro에 비해 환각이 줄었다는 것도 이 벤치마크에서 보여짐)


이 글은 굉장히 스압이니까 글 하단에서 자기가 궁금한 모델들 결과만 찾아보는걸 추천함


문제 예시

실제 사람이라면 전혀 모를만한, 집착에 가까운 문제들임


Q: 미국 회계기준(U.S. GAAP, ASC Topic 606) 하에서, 일련의 구별되는 재화나 용역이 동일한 이전 패턴을 갖기 위해 충족해야 하는 두 가지 기준을 명시적으로 나열한 참조는 무엇입니까?

A: ASC 606-10-25-15


Q: 어느 파이썬 버전부터 정규식의 시작 부분이 아닌 곳에서 인라인 플래그 그룹((?aiLmsux))을 사용하는 것이 오류(re.error: “global flags not at the start of the expression” 발생)로 처리되었습니까?

A: 3.11


Q: 인간의 경우, 역치 강도로 일차 감각 피질(체성 감각 또는 시각)을 직접 전기 자극할 때, 자극이 보고 가능한 의식적 감각을 생성하기 위해 필요한 최소 자극 트레인 지속 시간(밀리초, ms 단위)은 얼마입니까?

A: 500



진짜 이걸 대체 누가 외워? 라고 할만한 문제들임


그래서 사람들끼리 이게 의미가 있냐 없냐로 의견을 나누기도 했었음


https://x.com/YouJiacheng/status/2024584848699232652

(요약: 이 벤치마크 대체 왜 씀?)


(요약: 문제가 이 정도는 되어야 환각 측정 가능한거 아님?)


벤치마크 결과

총 3가지 결과가 있음

1. 정확도 결과 (지식)

2. 환각 결과 (환각)

3. 종합 결과 (지식+환각)


1. 정확도 결과

자신있게 오답을 말하든 말든 그냥 정답의 비중이 높으면 되는 방식임 (계산법: 맞춘문제 / 전체문제)

일반적인 지식 벤치마크와 동일한 방식이며 환각에 대해 고려하지 못한다는 문제가 있음

(예: 잘 모르겠지만 일단 자신있게 찍고보는 모델) 


정확도 벤치 결과 요약

- 제미니3가 선두를 차지하며 Opus 4.6, 4.5, GPT-5.2, Grok 4도 상위권에 오름

- 크기가 작은 모델들은 대체로 매우 뒤떨어지는 정확도를 보여줬음 (haiku, gpt mini, grok fast, gemini flash lite등)


54% Gemini 3 Pro Preview (high)

53% Gemini 3.1 Pro Preview

52% Gemini 3 Flash


47% Gemini 3 Pro Preview (low)

46% Gemini 3 Flash (비추론)


44% Claude Opus 4.6 (max)

44% Claude Opus 4.6

43% Claude Opus 4.5

41% GPT-5.2 (xhigh)

40% Grok 4


39% Claude Opus 4.5 (비추론)

39% GPT-5 (high)

38% GPT-5.2 Codex (xhigh)

37% Gemini 2.5 Pro

37% GPT-5 (medium)

37% o3

37% GPT-5 Codex (high)

36% Claude 4.1 Opus

36% GPT-5 (low)

36% GPT-5.2 (medium)

35% GPT-5.1 (high)


33% o1

33% Kimi K2.5

32% Claude Sonnet 4.6

32% DeepSeek V3.2

31% Claude 4.5 Sonnet

30% Qwen3.5 397B A17B


29% Qwen3 Max Thinking

28% GPT-5.2

28% GPT-5.1

28% GLM-4.7

27% Claude 3.7 Sonnet

27% Claude 4.5 Sonnet (비추론)

27% Claude 3.7 Sonnet (비추론)

27% GPT-5 (minimal)

27% Grok 3

25% Gemini 2.5 Flash

25% Gemini 2.5 Flash (비추론)

25% GLM-5

25% MiniMax-M2.5


24% Claude Sonnet 4.6 (max)

24% Qwen3.5 397B A17B (비추론)

24% Mistral Large 3

24% Llama 4 Maverick

24% Grok 4.1 Fast

23% o4-mini (high)

23% GPT-5.1 Codex (high)

23% GPT-5 mini (high)

23% Qwen3 Max

23% GLM-4.7 (비추론)

22% Gemini 2.0 Flash

22% GPT-5.1 Codex mini (high)

22% Kimi K2.5 (비추론)

22% MiniMax-M2.1

22% Grok 4 Fast

22% GLM-5 (비추론)

22% Llama 3.1 405B

21% Claude 4 Sonnet

21% Claude 4 Sonnet (비추론)

21% GPT-5 mini (medium)

21% GPT-4o (Aug)

20% o3-mini (high)


20% gpt-oss-120B (high)

19% GPT-4.1 mini

19% GPT-4o (Nov)

19% Mistral Medium 3.1

18% GPT-5 nano (high)

18% gpt-oss-120B (low)

17% Gemini 2.5 Flash-Lite

17% GPT-5 mini (minimal)

16% Claude 4.5 Haiku

16% Claude 3 Haiku

16% GPT-5 nano (medium)

16% Grok 4 Fast (비추론)

16% Grok 4.1 Fast (비추론)

15% Gemini 2.5 Flash-Lite (비추론)

15% gpt-oss-20B (high)

15% GLM-4.7-Flash


14% gpt-oss-20B (low)

13% Claude 4.5 Haiku (비추론)

13% Claude 3.5 Haiku

13% GPT-4.1 nano

12% GLM-4.7-Flash (비추론)

11% GPT-5 nano (minimal)


2. 환각 결과

정답을 제시하지 못한 여러 경우 중에, 자신있게 오답을 말한 비율임 (계산법: 틀린 문제 / 틀린문제+부분정답+기권)

이 결과는 실제 정답 비율을 반영하지 않기에 이 지표 단독으로는 유의미한 의미를 가지지는 않음

(예: 문제 100개중에 95개를 "이건 저도 모르겠어요"라고 답하는 모델은 환각률도 낮지만 딱히 쓸모도 없음)


환각 결과 요약

- 클로드 Haiku 모델들은 최신 모델에 가까울수록 모르면 모른다고 답하려는 경향이 있음

- 제미니 3 프로는 이 까다로운 문제들에 대한 환각률이 88%인데 제미니 3.1 프로는 50%로 줄어들음

- o3은 o1보다 정확도가 4% 높지만 환각률은 18% 높음


25%  Claude 4.5 Haiku (비추론)

26%  Claude 4.5 Haiku

29%  Claude 4 Sonnet


34%  GLM-5

38%  Claude Sonnet 4.6 (max)

38%  GPT-4o (Nov)

39%  Claude 3.7 Sonnet


41%  Claude 4 Sonnet (비추론)

41%  Claude 3.5 Haiku

43%  GPT-5 mini (medium)

45%  GLM-5 (비추론)

48%  Claude 4.5 Sonnet

48%  Claude 4.1 Opus

49%  Kimi K2.5 (비추론)


50%  Gemini 3.1 Pro Preview

51%  Claude 4.5 Sonnet (비추론)

51%  GPT-5.1 Codex mini (high)

51%  GPT-5.1 (high)

51%  Llama 3.1 405B

52%  Claude 3.7 Sonnet (비추론)

52%  GPT-5 nano (medium)

54%  GPT-4o (Aug)

55%  GPT-5 mini (high)

58%  Claude Opus 4.5

59%  GPT-5 nano (high)

59%  GPT-5.2 (medium)


60%  Claude Opus 4.6 (max)

60%  GPT-5.2

61%  Claude Sonnet 4.6

64%  Grok 4

64%  Kimi K2.5

67%  MiniMax-M2.1

67%  Grok 4 Fast

69%  o1


71%  GPT-5.2 Codex (xhigh)

72%  Grok 4.1 Fast

73%  GPT-5.1 Codex (high)

74%  Claude Opus 4.5 (비추론)

74%  Gemini 2.5 Flash

74%  GPT-5 Codex (high)

76%  Claude Opus 4.6

77%  Gemini 2.5 Flash-Lite

77%  GPT-5 (low)

78%  GPT-5.2 (xhigh)

79%  o4-mini (high)

80%  Claude 3 Haiku


81%  o3-mini (high)

81%  GPT-5 (high)

81%  Grok 4.1 Fast (비추론)

82%  GPT-5 (medium)

82%  GPT-4.1 nano

82%  DeepSeek V3.2

82%  Qwen3.5 397B A17B (비추론)

82%  Mistral Medium 3.1

85%  Gemini 2.0 Flash

85%  Mistral Large 3

86%  Grok 3

86%  Grok 4 Fast (비추론)

86%  gpt-oss-20B (low)

87%  Gemini 3 Pro Preview (low)

87%  Gemini 2.5 Flash-Lite (비추론)

87%  o3

88%  Gemini 3 Pro Preview (high)

88%  GPT-5 mini (minimal)

88%  GPT-5 nano (minimal)

88%  GPT-5 (minimal)

88%  Llama 4 Maverick

88%  MiniMax-M2.5

88%  Qwen3.5 397B A17B

89%  Gemini 2.5 Pro

89%  GPT-5.1

89%  Qwen3 Max

89%  GLM-4.7-Flash


90%  GLM-4.7

90%  gpt-oss-120B (high)

91%  Gemini 3 Flash

91%  Gemini 3 Flash (비추론)

91%  gpt-oss-120B (low)

92%  GPT-4.1 mini

92%  GLM-4.7 (비추론)

93%  Gemini 2.5 Flash (비추론)

93%  gpt-oss-20B (high)

93%  Qwen3 Max Thinking

94%  GLM-4.7-Flash (비추론)



3. 종합 결과

정답은 점수를 추가하고, 모른다고 하면 점수에 변화가 없고, 오답을 내면 점수를 깎는 방식임


종합 결과 요약

- Gemini 3.1 Pro가 압도적인 격차를 만들며 1위를 달성함

- 경량 모델들은 대체로 지식+환각면에서 상당히 뒤떨어지는 편임

- 하지만 경량 모델(?) Gemini 3 Flash는 5위를 차지하며 Haiku 4.5도 나쁘지 않은 순위를 보여줬음

- o1이 o3보다 좋게 나옴



+30점 Gemini 3.1 Pro Preview



+13점 Gemini 3 Pro Preview (high)

+11점 Claude Opus 4.6 (max)

+10점 Claude Opus 4.5


+8점  Gemini 3 Flash

+5점  Claude 4.1 Opus

+2점  GPT-5.1 (high)

+1점  Claude Opus 4.6

+1점  Grok 4


-1점  GLM-5

-1점  Gemini 3 Flash (비추론)

-1점  Gemini 3 Pro Preview (low)

-2점  Claude 3.7 Sonnet

-2점  Claude 4 Sonnet

-2점  Claude 4.5 Sonnet

-3점  GPT-5.2 (medium)

-4점  Claude Sonnet 4.6 (max)

-4점  GPT-5.2 (xhigh)

-6점  Claude 4.5 Haiku

-6점  Claude Opus 4.5 (비추론)

-6점  GPT-5.2 Codex (xhigh)

-7점  GPT-5.1 Codex (high)

-8점  Claude 4.5 Haiku (비추론)

-9점  Claude Sonnet 4.6

-10점 Claude 4 Sonnet (비추론)


-11점 Kimi K2.5

-11점 Claude 4.5 Sonnet (비추론)

-11점 Claude 3.7 Sonnet (비추론)

-11점 GPT-5 (high)

-12점 GPT-4o (Nov)

-13점 o1

-13점 GPT-5 mini (medium)

-13점 GPT-5 (low)

-13점 GLM-5 (비추론)

-14점 GPT-5 (medium)

-15점 GPT-5.2

-16점 Kimi K2.5 (비추론)

-17점 o3

-18점 GPT-5.1 Codex mini (high)

-18점 Gemini 2.5 Pro

-18점 Llama 3.1 405B

-20점 GPT-5 mini (high)


-22점 GPT-4o (Aug)

-23점 Claude 3.5 Haiku

-23점 DeepSeek V3.2

-27점 GPT-5 nano (medium)

-30점 MiniMax-M2.1

-30점 GPT-5 nano (high)


-31점 Grok 4 Fast

-31점 Grok 4.1 Fast

-31점 Gemini 2.5 Flash

-32점 Qwen3.5 397B A17B

-35점 Grok 3

-36점 GLM-4.7

-37점 GPT-5.1

-37점 GPT-5 (minimal)

-37점 o4-mini (high)

-38점 Qwen3 Max Thinking

-39점 Qwen3.5 397B A17B (비추론)


-41점 MiniMax-M2.5

-41점 Mistral Large 3

-43점 Llama 4 Maverick

-44점 Gemini 2.5 Flash (비추론)

-44점 Gemini 2.0 Flash

-44점 o3-mini (high)

-45점 Qwen3 Max

-47점 Gemini 2.5 Flash-Lite

-48점 Mistral Medium 3.1

-48점 GLM-4.7 (비추론)


-51점 Claude 3 Haiku

-52점 gpt-oss-120B (high)

-52점 Grok 4.1 Fast (비추론)

-56점 GPT-5 mini (minimal)

-56점 GPT-4.1 mini

-56점 gpt-oss-120B (low)

-56점 Grok 4 Fast (비추론)

-59점 GPT-4.1 nano

-59점 Gemini 2.5 Flash-Lite (비추론)

-60점 GLM-4.7-Flash


-61점 gpt-oss-20B (low)

-65점 gpt-oss-20B (high)

-66점 GPT-5 nano (minimal)

-70점 GLM-4.7-Flash (비추론)




결론: 제미니는 버전이 오를때마다 지식 측면에서 점점 좋아지고 있으며 잼삼일은 더 좋아졌다