https://the-decoder.com/xai-introduces-grok-1-5-vision-multimodal-ai-model-and-a-physical-world-benchmark/
https://x.ai/blog/grok-1.5v

xAI, 물리적 세계에 대한 이해도가 향상된 Grok-1.5 Vision 멀티모달 AI 모델의 프리뷰를 공개합니다.


엘론 머스크의 AI 스타트업 xAI는 경쟁사보다 물리적 세계에 대한 이해도가 더 높은 자사의 첫 번째 멀티모달 AI 모델인 Grok-1.5 Vision의 프리뷰를 공개했습니다.


Grok-1.5V는 표준 텍스트 기능 외에도 문서, 다이어그램, 그래픽, 스크린샷, 사진 등 다양한 시각적 정보를 처리할 수 있습니다. 이 모델은 곧 초기 테스터와 현재 Grok 사용자에게 제공될 예정입니다.


xAI는 Grok-1.5V가 다학제적 추론부터 문서, 과학 도표, 그래픽, 스크린샷, 사진 이해에 이르기까지 여러 분야에서 오늘날 최고의 멀티모달 모델과 경쟁력이 있다고 주장합니다.


이 회사는 다양한 벤치마크에서 Grok의 성능을 OpenAI의 GPT-4, Anthropic의 Claude, Gemini Pro와 같은 경쟁 모델과 비교한 표를 발표했습니다. Grok은 대부분의 영역에서 동등하거나 더 나은 결과를 얻었습니다.


xAI는 실제 세계에 대한 공간적 이해도를 테스트하는 새로 도입된 RealWorldQA 벤치마크로 측정한 Grok의 물리적 세계 이해 능력을 강조합니다. Grok은 제로 샷 프롬프트(프롬프트에 예제 솔루션이 제공되지 않음)를 사용하는 경쟁사보다 뛰어난 성능을 보였습니다.



이 예는 추측 게임의 로직을 설명하는 순서도에서 Grok이 작동하는 Python 코드를 생성하는 방법을 보여줍니다. 이는 도표를 이해하고 이를 실행 가능한 코드로 변환하는 모델의 능력을 보여줍니다. 또 다른 예는 Grok-1.5V가 밈을 설명하는 것을 보여줍니다.



RealWorldQA: 물리적 세계를 위한 시각적 벤치마크


xAI는 실제 세계에 유용한 AI 비서를 개발하려면 물리적 세계에 대한 이해가 필수적이라고 주장합니다. 이를 위해 멀티모달 모델의 공간적 기능을 평가하는 RealWorldQA 벤치마크를 개발했습니다. 대부분의 예제는 인간에게는 간단하지만 AI 모델에게는 어려운 경우가 많습니다.


초기 RealWorldQA 데이터 세트는 700개 이상의 이미지로 구성되며, 각 이미지에는 질문과 쉽게 확인할 수 있는 답변이 포함되어 있습니다. 이미지는 차량 및 기타 소스에서 가져온 것으로 익명으로 처리되어 있습니다. xAI는 이 데이터 세트를 커뮤니티에 CC BY-ND 4.0 라이선스에 따라 다운로드할 수 있도록 제공하고 있습니다.


xAI는 멀티모달 이해 및 생성 기능의 발전이 우주를 이해할 수 있는 유용한 인공 일반 지능(AGI)을 향한 중요한 단계라고 보고 있습니다(xAI의 자칭 사명).


회사는 앞으로 몇 달 안에 이미지, 오디오, 비디오 등 다양한 모달리티에 대해 두 영역 모두에서 상당한 개선을 이룰 것으로 기대하고 있습니다. 5월에 xAI는 머스크가 GPT-4보다 성능이 뛰어날 것이라고 말한 Grok-2를 출시할 계획인 것으로 알려졌습니다.