https://the-decoder.com/anthropics-claude-3-llm-challenges-gpt-4-with-improved-intelligence-and-visual-capabilities/
https://www.anthropic.com/news/claude-3-family
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

Anthropic은 세 가지 버전으로 제공되는 최신 대형 언어 모델인 Claude 3를 출시합니다. 가장 강력한 버전인 'Opus'는 최소한 GPT-4와 동등한 수준으로 알려져 있습니다.


OpenAI에서 분사한 AI 스타트업 Anthropic은 다양한 인지 작업 영역에서 표준을 설정하도록 설계된 새로운 AI 시스템 시리즈인 Claude 3 모델 제품군을 출시했습니다.


이 제품군은 세 가지 모델로 구성되어 있습니다: Claude 3 하이쿠, Claude 3 소네트, Claude 3 오푸스로 구성되며, 사용자는 특정 애플리케이션에 맞는 지능, 속도, 비용을 선택할 수 있습니다. Opus는 Claude 2.1만큼 빠르지만 훨씬 더 '지능적'이라고 할 수 있으며, Haiku는 거의 실시간으로 응답할 수 있습니다. Sonnet은 Claude 2보다 두 배 빠르지만 "더 높은 수준의 지능"을 제공합니다.


모든 Claude 3 모델은 향상된 분석 및 예측 기능, 미묘한 콘텐츠 생성, 코드 생성, 스페인어, 일본어, 프랑스어와 같은 비영어권 언어의 대화 기능을 제공한다고 Anthropic은 설명합니다. 또한 사진, 차트, 그래프, 엔지니어링 도면 등 다양한 시각적 형식을 처리할 수 있습니다.


Opus와 Sonnet은 현재 claude.ai와 Claude API를 통해 사용할 수 있으며, 하이쿠는 곧 출시될 예정입니다. Opus는 유료 Claude 고객만 사용할 수 있으며, Sonnet은 무료입니다.


각 경쟁사 모델보다 뛰어난 성능을 발휘하는 클로드 3 모델


발표에 따르면 클로드 3 모델은 학부 수준의 전문 지식(MMLU), 대학원 수준의 추론(GPQA), 기초 수학(GSM8K)과 같은 일반적인 AI 벤치마크에서 경쟁사 모델보다 뛰어난 성능을 보였습니다. 앤트로픽은 Opus가 "인간에 가까운 수준의 이해력과 복잡한 작업에 대한 유창함"을 보여줄 수 있다고 주장합니다.


Anthropic에 따르면 Claude 3 모델은 복잡한 명령을 따르고 JSON과 같은 형식의 구조화된 출력을 생성할 수 있어 자연어 분류 및 감정 분석에 적합하다고 합니다.


Anthropic이 벤치마크에서 GPT-4를 따라잡고 일부 벤치마크에서 이긴 것은 성공적일 수 있지만, 두 가지를 염두에 두어야 합니다: 첫째, 벤치마크는 단지 벤치마크일 뿐입니다. 실제 환경에서 모델이 얼마나 잘 작동하는지는 아직 지켜봐야 합니다. 둘째, GPT-4가 출시된 지 약 1년이 지났지만 수십억 달러를 투자했음에도 불구하고 아직까지 큰 진전을 이룬 회사는 없습니다.

눈을 가진 클로드 3


새로운 Claude 모델은 사진, 다이어그램, 기술 도면 등 다양한 이미지 형식을 처리할 수 있는 시각적 기능을 갖추고 있습니다. 앤트로픽은 이 기능이 지식 기반이 다양한 형식으로 인코딩되어 있는 기업 고객에게 특히 유용할 것이라고 말합니다.


또한, 앤트로픽은 클로드 3 모델을 통해 불필요한 오답을 줄이고 프롬프트에 대한 이해도를 향상시키는 데 상당한 진전을 이루었다고 주장합니다. 이 모델은 클로드 2.1에 비해 개방형 문제에 대한 정확도를 두 배로 높이고 오답의 수를 줄였다고 합니다.


최대 100만 개의 토큰이 포함된 컨텍스트 창


구글 제미니 1.5와 마찬가지로, Anthropic은 클로드의 컨텍스트 창을 크게 확장했습니다. 컨텍스트 창은 AI 모델이 한 번에 처리할 수 있는 정보의 양을 나타냅니다. Claude 3에서는 최대 100만 개의 토큰을 입력할 수 있지만, 초기에는 20만 개의 토큰으로만 출시됩니다. 이에 비해 기존 GPT-4의 토큰은 8K, 최신 버전은 128K에 불과합니다.


모델의 정확한 정보 추출 능력을 측정하는 니들 인 어 헤이스택(NIAH) 평가에 따르면 Claude 3 Opus는 긴 문서에서 개별 정보를 99% 이상의 정확도로 거의 완벽에 가깝게 추출하는 것으로 나타났습니다.


Google은 또한 Gemini 1.5의 컨텍스트 창 성능을 강조하기 위해 NIAH 테스트를 벤치마크로 사용했습니다. 하지만 이러한 형태의 LLM 검색은 모델이 문맥을 이해하고 큰 텍스트를 의미 있게 요약하거나 분석할 수 있는지에 대해서는 거의 알려주지 않습니다. 애플리케이션에 따라 큰 텍스트 데이터를 검색하는 더 효과적인 방법(예: "Ctrl + F")이 있습니다.


이러한 거대한 컨텍스트 창이 단순한 비용 절감 이상의 효과를 가져올지는 아직 미지수입니다. 위험은 시스템에 더 많은 콘텐츠를 제공할수록 사용자가 놓친 것을 알아차릴 가능성이 줄어든다는 것입니다.


100만 토큰의 입력 및 출력 비용은 가장 지능적인 모델인 오푸스의 경우 15달러와 75달러, 소네트의 경우 3달러와 15달러, 빠르고 컴팩트한 하키우의 경우 0.25달러와 1.25달러입니다. 128K 토큰을 사용하는 OpenAI의 최신 GPT-4 터보 모델은 입력 토큰 100만 개에 10달러, 출력 토큰 100만 개에 30달러입니다. 앤트로픽의 가격 전략은 자신감이 있어 보입니다.


앤트로픽에 따르면 클로드 3의 '모델 인텔리전스' 개발은 아직 완료되지 않았으며, 앞으로 몇 달 안에 정기 업데이트를 출시할 계획이라고 합니다. 또한 대기업 고객에게 코딩 지원과 같은 독점적인 서비스와 기능을 제공할 계획입니다.


클로드 3를 발표하면서 Anthropic은 사용된 학습 데이터에 대해서는 언급하지 않았습니다. 라이벌인 OpenAI는 학습 데이터와 관련하여 여러 법적 분쟁에 휘말려 있으며, 그 중 하나는 OpenAI가 신문의 저작권이 있는 데이터를 허가 없이 학습했다고 주장하는 뉴욕타임스와의 소송입니다.


클로드 3의 기술 보고서에 따르면 Anthropic은 2023년 8월을 마감일로 하여 일반적인 인터넷 데이터 외에 합성 데이터("내부적으로 생성된")를 사용했다고 합니다.


"클로드 3 모델은 2023년 8월 현재 인터넷에서 공개적으로 사용 가능한 정보와 제3자의 비공개 데이터, 데이터 라벨링 서비스 및 유료 계약업체가 제공하는 데이터, 내부적으로 생성한 데이터의 독점적인 조합으로 학습됩니다."