잼삼일이 1등한 지식환각 벤치마크의 모델 84개 결과 (AA-Omniscience)

AI 채팅 채널

채널위키 알림 알림 중 알림 취소

구독자 28521명 알림수신 595명 @몽상봉인

Gemini 3.1, 3.5 / Claude 4.8, 4.7, 4.6 / GPT-5.5, 5.4, 5.1/ 딥시크 API를 쓰는 서브컬처 채널

뉴스 잼삼일이 1등한 지식환각 벤치마크의 모델 84개 결과 (AA-Omniscience)

몽상봉인

추천 33 비추천 0 댓글 23 조회수 2033 작성일 2026-02-20 07:56:04 수정일 2026-02-20 11:16:37

https://arca.live/b/characterai/162887206

Artificial Analysis에서 만든 벤치마크임

https://artificialanalysis.ai/evaluations/omniscience

AA-Omniscience는 지식만 테스트 하는게 아니라, 환각까지 고려해서 만들어진 벤치마크임

그런데 이 벤치마크에서 Gemini 3.1 Pro가 큰 격차로 1위를 했길래 정리해봄

(Gemini 3 Pro에 비해 환각이 줄었다는 것도 이 벤치마크에서 보여짐)

이 글은 굉장히 스압이니까 글 하단에서 자기가 궁금한 모델들 결과만 찾아보는걸 추천함

문제 예시

실제 사람이라면 전혀 모를만한, 집착에 가까운 문제들임

Q: 미국 회계기준(U.S. GAAP, ASC Topic 606) 하에서, 일련의 구별되는 재화나 용역이 동일한 이전 패턴을 갖기 위해 충족해야 하는 두 가지 기준을 명시적으로 나열한 참조는 무엇입니까?

A: ASC 606-10-25-15

Q: 어느 파이썬 버전부터 정규식의 시작 부분이 아닌 곳에서 인라인 플래그 그룹((?aiLmsux))을 사용하는 것이 오류(re.error: “global flags not at the start of the expression” 발생)로 처리되었습니까?

A: 3.11

Q: 인간의 경우, 역치 강도로 일차 감각 피질(체성 감각 또는 시각)을 직접 전기 자극할 때, 자극이 보고 가능한 의식적 감각을 생성하기 위해 필요한 최소 자극 트레인 지속 시간(밀리초, ms 단위)은 얼마입니까?

A: 500

진짜 이걸 대체 누가 외워? 라고 할만한 문제들임

그래서 사람들끼리 이게 의미가 있냐 없냐로 의견을 나누기도 했었음

https://x.com/YouJiacheng/status/2024584848699232652

(요약: 이 벤치마크 대체 왜 씀?)

(요약: 문제가 이 정도는 되어야 환각 측정 가능한거 아님?)

벤치마크 결과

총 3가지 결과가 있음

1. 정확도 결과 (지식)

2. 환각 결과 (환각)

3. 종합 결과 (지식+환각)

1. 정확도 결과

자신있게 오답을 말하든 말든 그냥 정답의 비중이 높으면 되는 방식임 (계산법: 맞춘문제 / 전체문제)

일반적인 지식 벤치마크와 동일한 방식이며 환각에 대해 고려하지 못한다는 문제가 있음

(예: 잘 모르겠지만 일단 자신있게 찍고보는 모델)

정확도 벤치 결과 요약

- 제미니3가 선두를 차지하며 Opus 4.6, 4.5, GPT-5.2, Grok 4도 상위권에 오름

- 크기가 작은 모델들은 대체로 매우 뒤떨어지는 정확도를 보여줬음 (haiku, gpt mini, grok fast, gemini flash lite등)

54% Gemini 3 Pro Preview (high)

53% Gemini 3.1 Pro Preview

52% Gemini 3 Flash

47% Gemini 3 Pro Preview (low)

46% Gemini 3 Flash (비추론)

44% Claude Opus 4.6 (max)

44% Claude Opus 4.6

43% Claude Opus 4.5

41% GPT-5.2 (xhigh)

40% Grok 4

39% Claude Opus 4.5 (비추론)

39% GPT-5 (high)

38% GPT-5.2 Codex (xhigh)

37% Gemini 2.5 Pro

37% GPT-5 (medium)

37% o3

37% GPT-5 Codex (high)

36% Claude 4.1 Opus

36% GPT-5 (low)

36% GPT-5.2 (medium)

35% GPT-5.1 (high)

33% o1

33% Kimi K2.5

32% Claude Sonnet 4.6

32% DeepSeek V3.2

31% Claude 4.5 Sonnet

30% Qwen3.5 397B A17B

29% Qwen3 Max Thinking

28% GPT-5.2

28% GPT-5.1

28% GLM-4.7

27% Claude 3.7 Sonnet

27% Claude 4.5 Sonnet (비추론)

27% Claude 3.7 Sonnet (비추론)

27% GPT-5 (minimal)

27% Grok 3

25% Gemini 2.5 Flash

25% Gemini 2.5 Flash (비추론)

25% GLM-5

25% MiniMax-M2.5

24% Claude Sonnet 4.6 (max)

24% Qwen3.5 397B A17B (비추론)

24% Mistral Large 3

24% Llama 4 Maverick

24% Grok 4.1 Fast

23% o4-mini (high)

23% GPT-5.1 Codex (high)

23% GPT-5 mini (high)

23% Qwen3 Max

23% GLM-4.7 (비추론)

22% Gemini 2.0 Flash

22% GPT-5.1 Codex mini (high)

22% Kimi K2.5 (비추론)

22% MiniMax-M2.1

22% Grok 4 Fast

22% GLM-5 (비추론)

22% Llama 3.1 405B

21% Claude 4 Sonnet

21% Claude 4 Sonnet (비추론)

21% GPT-5 mini (medium)

21% GPT-4o (Aug)

20% o3-mini (high)

20% gpt-oss-120B (high)

19% GPT-4.1 mini

19% GPT-4o (Nov)

19% Mistral Medium 3.1

18% GPT-5 nano (high)

18% gpt-oss-120B (low)

17% Gemini 2.5 Flash-Lite

17% GPT-5 mini (minimal)

16% Claude 4.5 Haiku

16% Claude 3 Haiku

16% GPT-5 nano (medium)

16% Grok 4 Fast (비추론)

16% Grok 4.1 Fast (비추론)

15% Gemini 2.5 Flash-Lite (비추론)

15% gpt-oss-20B (high)

15% GLM-4.7-Flash

14% gpt-oss-20B (low)

13% Claude 4.5 Haiku (비추론)

13% Claude 3.5 Haiku

13% GPT-4.1 nano

12% GLM-4.7-Flash (비추론)

11% GPT-5 nano (minimal)

2. 환각 결과

정답을 제시하지 못한 여러 경우 중에, 자신있게 오답을 말한 비율임 (계산법: 틀린 문제 / 틀린문제+부분정답+기권)

이 결과는 실제 정답 비율을 반영하지 않기에 이 지표 단독으로는 유의미한 의미를 가지지는 않음

(예: 문제 100개중에 95개를 "이건 저도 모르겠어요"라고 답하는 모델은 환각률도 낮지만 딱히 쓸모도 없음)

환각 결과 요약

- 클로드 Haiku 모델들은 최신 모델에 가까울수록 모르면 모른다고 답하려는 경향이 있음

- 제미니 3 프로는 이 까다로운 문제들에 대한 환각률이 88%인데 제미니 3.1 프로는 50%로 줄어들음

- o3은 o1보다 정확도가 4% 높지만 환각률은 18% 높음

25% Claude 4.5 Haiku (비추론)

26% Claude 4.5 Haiku

29% Claude 4 Sonnet

34% GLM-5

38% Claude Sonnet 4.6 (max)

38% GPT-4o (Nov)

39% Claude 3.7 Sonnet

41% Claude 4 Sonnet (비추론)

41% Claude 3.5 Haiku

43% GPT-5 mini (medium)

45% GLM-5 (비추론)

48% Claude 4.5 Sonnet

48% Claude 4.1 Opus

49% Kimi K2.5 (비추론)

50% Gemini 3.1 Pro Preview

51% Claude 4.5 Sonnet (비추론)

51% GPT-5.1 Codex mini (high)

51% GPT-5.1 (high)

51% Llama 3.1 405B

52% Claude 3.7 Sonnet (비추론)

52% GPT-5 nano (medium)

54% GPT-4o (Aug)

55% GPT-5 mini (high)

58% Claude Opus 4.5

59% GPT-5 nano (high)

59% GPT-5.2 (medium)

60% Claude Opus 4.6 (max)

60% GPT-5.2

61% Claude Sonnet 4.6

64% Grok 4

64% Kimi K2.5

67% MiniMax-M2.1

67% Grok 4 Fast

69% o1

71% GPT-5.2 Codex (xhigh)

72% Grok 4.1 Fast

73% GPT-5.1 Codex (high)

74% Claude Opus 4.5 (비추론)

74% Gemini 2.5 Flash

74% GPT-5 Codex (high)

76% Claude Opus 4.6

77% Gemini 2.5 Flash-Lite

77% GPT-5 (low)

78% GPT-5.2 (xhigh)

79% o4-mini (high)

80% Claude 3 Haiku

81% o3-mini (high)

81% GPT-5 (high)

81% Grok 4.1 Fast (비추론)

82% GPT-5 (medium)

82% GPT-4.1 nano

82% DeepSeek V3.2

82% Qwen3.5 397B A17B (비추론)

82% Mistral Medium 3.1

85% Gemini 2.0 Flash

85% Mistral Large 3

86% Grok 3

86% Grok 4 Fast (비추론)

86% gpt-oss-20B (low)

87% Gemini 3 Pro Preview (low)

87% Gemini 2.5 Flash-Lite (비추론)

87% o3

88% Gemini 3 Pro Preview (high)

88% GPT-5 mini (minimal)

88% GPT-5 nano (minimal)

88% GPT-5 (minimal)

88% Llama 4 Maverick

88% MiniMax-M2.5

88% Qwen3.5 397B A17B

89% Gemini 2.5 Pro

89% GPT-5.1

89% Qwen3 Max

89% GLM-4.7-Flash

90% GLM-4.7

90% gpt-oss-120B (high)

91% Gemini 3 Flash

91% Gemini 3 Flash (비추론)

91% gpt-oss-120B (low)

92% GPT-4.1 mini

92% GLM-4.7 (비추론)

93% Gemini 2.5 Flash (비추론)

93% gpt-oss-20B (high)

93% Qwen3 Max Thinking

94% GLM-4.7-Flash (비추론)

3. 종합 결과

정답은 점수를 추가하고, 모른다고 하면 점수에 변화가 없고, 오답을 내면 점수를 깎는 방식임

종합 결과 요약

- Gemini 3.1 Pro가 압도적인 격차를 만들며 1위를 달성함

- 경량 모델들은 대체로 지식+환각면에서 상당히 뒤떨어지는 편임

- 하지만 경량 모델(?) Gemini 3 Flash는 5위를 차지하며 Haiku 4.5도 나쁘지 않은 순위를 보여줬음

- o1이 o3보다 좋게 나옴

+30점 Gemini 3.1 Pro Preview

+13점 Gemini 3 Pro Preview (high)

+11점 Claude Opus 4.6 (max)

+10점 Claude Opus 4.5

+8점 Gemini 3 Flash

+5점 Claude 4.1 Opus

+2점 GPT-5.1 (high)

+1점 Claude Opus 4.6

+1점 Grok 4

-1점 GLM-5

-1점 Gemini 3 Flash (비추론)

-1점 Gemini 3 Pro Preview (low)

-2점 Claude 3.7 Sonnet

-2점 Claude 4 Sonnet

-2점 Claude 4.5 Sonnet

-3점 GPT-5.2 (medium)

-4점 Claude Sonnet 4.6 (max)

-4점 GPT-5.2 (xhigh)

-6점 Claude 4.5 Haiku

-6점 Claude Opus 4.5 (비추론)

-6점 GPT-5.2 Codex (xhigh)

-7점 GPT-5.1 Codex (high)

-8점 Claude 4.5 Haiku (비추론)

-9점 Claude Sonnet 4.6

-10점 Claude 4 Sonnet (비추론)

-11점 Kimi K2.5

-11점 Claude 4.5 Sonnet (비추론)

-11점 Claude 3.7 Sonnet (비추론)

-11점 GPT-5 (high)

-12점 GPT-4o (Nov)

-13점 o1

-13점 GPT-5 mini (medium)

-13점 GPT-5 (low)

-13점 GLM-5 (비추론)

-14점 GPT-5 (medium)

-15점 GPT-5.2

-16점 Kimi K2.5 (비추론)

-17점 o3

-18점 GPT-5.1 Codex mini (high)

-18점 Gemini 2.5 Pro

-18점 Llama 3.1 405B

-20점 GPT-5 mini (high)

-22점 GPT-4o (Aug)

-23점 Claude 3.5 Haiku

-23점 DeepSeek V3.2

-27점 GPT-5 nano (medium)

-30점 MiniMax-M2.1

-30점 GPT-5 nano (high)

-31점 Grok 4 Fast

-31점 Grok 4.1 Fast

-31점 Gemini 2.5 Flash

-32점 Qwen3.5 397B A17B

-35점 Grok 3

-36점 GLM-4.7

-37점 GPT-5.1

-37점 GPT-5 (minimal)

-37점 o4-mini (high)

-38점 Qwen3 Max Thinking

-39점 Qwen3.5 397B A17B (비추론)

-41점 MiniMax-M2.5

-41점 Mistral Large 3

-43점 Llama 4 Maverick

-44점 Gemini 2.5 Flash (비추론)

-44점 Gemini 2.0 Flash

-44점 o3-mini (high)

-45점 Qwen3 Max

-47점 Gemini 2.5 Flash-Lite

-48점 Mistral Medium 3.1

-48점 GLM-4.7 (비추론)

-51점 Claude 3 Haiku

-52점 gpt-oss-120B (high)

-52점 Grok 4.1 Fast (비추론)

-56점 GPT-5 mini (minimal)

-56점 GPT-4.1 mini

-56점 gpt-oss-120B (low)

-56점 Grok 4 Fast (비추론)

-59점 GPT-4.1 nano

-59점 Gemini 2.5 Flash-Lite (비추론)

-60점 GLM-4.7-Flash

-61점 gpt-oss-20B (low)

-65점 gpt-oss-20B (high)

-66점 GPT-5 nano (minimal)

-70점 GLM-4.7-Flash (비추론)

결론: 제미니는 버전이 오를때마다 지식 측면에서 점점 좋아지고 있으며 잼삼일은 더 좋아졌다

댓글 [23]

쭈글

2026-02-20 07:59:03

리셰이드

2026-02-20 07:59:22

K_Raccoon

2026-02-20 08:00:18

볼살좋아

2026-02-20 08:00:49

*수정됨

아 대학교다닐때 틀리면 점수깎는 식으로 채점하는 교수님 개싫었는데 이게 다 이런 큰 뜻이었구나

펼쳐보기▼

걸캎3나올때까지숨참음흡

2026-02-20 08:01:24

아 교수님께선 진작에 인간 환각을 검증하고 계셨구나

펼쳐보기▼

불타는장작

2026-02-20 10:47:23

? 안쓰면 0점 틀리면 마이너스??

펼쳐보기▼

볼살좋아

2026-02-20 10:47:43

ㅇㅇ 이런식으로 채점하는 시험 아주 가끔 있음

펼쳐보기▼

gz9hs6qbzyye

2026-02-20 12:07:11

영국쪽에서 이런식으로 채점 많이함 
1등 점수 7점, 평균점수 마이너스 이런 경우도 가끔 있음

펼쳐보기▼

ㅇㅇ

2026-02-20 08:01:18

대체 뭘 어떻게 개선했는데 이런 격차가

펼쳐보기▼

주숭

2026-02-20 08:02:25

섹섹이섹

2026-02-20 08:03:21

예시 문제들을 보니 효용성에 대한 의문이 나올법 하긴 하네 ㅋㅋ

펼쳐보기▼

후훗후

2026-02-20 08:05:53

*수정됨

그래서 애매하면 모른다고 말하는 경향이 꽤 중요한데, 잼삼일은 원래 지식량이 많은 상황에서 환각 거부 성능도 올라가니 점수가 엄청 높아진듯

펼쳐보기▼

섹섹이섹

2026-02-20 08:10:15

*수정됨

예전이면 몰라도 추론의 시대에 들어오고 나서 부터 잘못 알고있는 것과 환각은 다르게 봐야한다고 생각하는 입장이라.. 가령 답이 파이썬 3.11 버전인데 3.10 버전이라고 말한건 환각이 아니라고 보는 입장임

펼쳐보기▼

PtheSUN

2026-02-20 08:18:15

*수정됨

이 결과 보고 사오푸스와 사소넷을 쓰기로 결심했다

펼쳐보기▼

이하비스

2026-02-20 08:32:55

채점방식 볼때마다 욕박았던 점수깎이를 벤치마크로 쓰네

펼쳐보기▼

u207

2026-02-20 08:33:21

미합중국__

2026-02-20 08:44:43

Lyuzaky

2026-02-20 13:58:20

30점인게 ㄹㅇ 돌았네
환각률이 50% 였으니까
100문제기준
50문제 맞추고 25문제 환각 25문제 모름이면 25점일텐데 그거보다 높은 30점?
잘못된 도움을 받을 확률이 25%보다 낮다는거 아닌가
환각 확률이 50%라길래 절반은 틀리는구나 라고 생각했더니 계산법이 다르네

펼쳐보기▼

몽상봉인

2026-02-20 13:59:57

ㅇㅇ 저기서 환각률 계산법이 "정답을 말하지 않음"의 모든 경우의 수 중에서 "아예 모르는데 아는척 함"의 비중임

펼쳐보기▼

Daydric

2026-02-20 14:25:17

안경이필요해

2026-02-20 14:31:01

이게 환각률이 그냥 중요한 경우가, 전문지식 물어볼때 굉장히 중요함. ~~한 내용의 판례 검색해줘 같은거 물어보면 모르면 모른다거나, 못찾겠으면 못찾겠다하길 기대하고 사용하는데, 판례를 지좋대로 만들면 진짜 개곤란함

펼쳐보기▼

안경이필요해

2026-02-20 14:33:59

판례내용은 기억나는데, 판례번호만 기억 안나서 레퍼런스로 적어야될 때 판례번호를 물어보는데, 그 때 내용 물어보면서 이 판례 찾아줄래? 하면 차라리 모르면 모른다고 하는게 훨씬 중요하지, 행정법원 사건인데 가나다 붙어있는 식으로 이상한거 불러버리면 그냥 개쳐열받음. 모른다고 답변받았으면 그냥 내가 찾으면 그만이었는데 크로스체크 시키면서 시간낭비까지 시키니까

펼쳐보기▼

ㅇㅇ