https://the-decoder.com/anthropics-claude-3-lags-behind-gpt-4-turbo/
https://www.lesswrong.com/posts/JbE7KynwshwkXPJAJ/anthropic-release-claude-3-claims-greater-than-gpt-4#Is_Anthropic_pushing_the_frontier_of_AI_development_

Anthropic의 Claude 3가 OpenAI의 GPT-4를 이겼습니다. 그렇죠? 이 회사에서 발표한 벤치마크에서는 가장 큰 모델인 Opus가 GPT-4를 이겼지만 자세히 살펴보면 복잡하다는 것을 알 수 있습니다: Anthropic은 최신 모델을 GPT-4 터보와 같은 최신 버전이 아닌 GPT-4의 첫 번째 버전에 대해 테스트했습니다. 그 이유는 다음과 같습니다: OpenAI는 지금까지 API를 통해서만 액세스할 수 있는 이전 GPT-4 모델에 대한 벤치마크만 공개했습니다. 그러나 일부 벤치마크에는 OpenAI에서 직접 제공하지 않는 GPT-4 Turbo 결과가 있습니다. AI 연구원 로렌스 찬이 이를 정리했습니다. 이 수치를 보면 명확하게 알 수 있습니다. Claude 3와 GPT-4 Turbo를 비교한 모든 벤치마크에서 OpenAI 모델이 몇 퍼센트 포인트 차이일지라도 여전히 Anthropic의 최고 모델을 능가합니다. 그러나 두 모델이 너무 비슷하기 때문에 어떤 모델이 더 나은지는 당면한 작업에 따라 크게 달라지며 대부분 취향의 문제입니다.