"내가 차키를 어디에 뒀더라?" - VLM의 월드 모델을 위한 벤치마크, OpenEQA

주요 내용:

- "배지를 어디에 두었나요?"와 같은 질문을 통해 실제 공간에 대한 AI 에이전트의 이해도를 측정하는 OpenEQA(개방형 어휘 구현 질문 답변) 벤치마크를 공개합니다.

- 최첨단 비전+언어 모델(VLM)을 벤치마킹한 결과 인간 수준의 성능과 최고의 모델 간에 상당한 격차가 있음을 발견했습니다. 실제로 공간적 이해가 필요한 질문의 경우, 오늘날의 VLM은 시각적 콘텐츠에 대한 액세스가 언어 전용 모델에 비해 크게 개선되지 않는 등 거의 '맹인'에 가깝습니다.

- OpenEQA의 출시가 인공 지능의 필수 구성 요소인 AI 에이전트가 보이는 세상을 이해하고 소통할 수 있도록 돕는 공개 연구에 동기를 부여하고 촉진하는 데 도움이 되기를 바랍니다.

가정용 로봇이나 스타일리시한 스마트 안경의 두뇌 역할을 하는 구체화된 AI 에이전트를 상상해 보세요. 이러한 에이전트는 시각과 같은 감각 양식을 활용하여 주변 환경을 이해하고 명확한 일상 언어로 의사소통을 할 수 있어야 사람들을 효과적으로 지원할 수 있습니다. 이는 언어를 통해 쿼리할 수 있는 외부 세계에 대한 에이전트의 내부 표현인 '월드 모델'을 구축하는 것과 유사합니다. 이는 장기적인 비전이자 어려운 연구 과제이며, 메타는 이를 적극적으로 탐구하고 있습니다.

오늘은 개방형 어휘 질문으로 AI 에이전트의 환경 이해도를 측정하는 새로운 벤치마크인 개방형 어휘 구현 질문 답변(OpenEQA - Open-Vocabulary Embodied Question Answering) 프레임워크를 소개합니다. 이는 사람에게 질문을 하고 답변을 평가하여 개념에 대한 사람의 이해도를 평가하는 방식과 유사합니다. OpenEQA에는 (1) 구현된 AI 에이전트가 과거 경험에 대한 기억을 바탕으로 질문에 답하는 에피소드 메모리 EQA와 (2) 에이전트가 환경 내에서 필요한 정보를 수집하고 질문에 답하기 위해 조치를 취해야 하는 능동적 EQA의 두 가지 작업이 포함되어 있습니다.

EQA는 직접적으로 응용할 수도 있으며, 기본 버전만 사용해도 일상생활을 간소화할 수 있습니다. 예를 들어 퇴근 준비를 하는데 사무실 배지를 찾을 수 없다고 가정해 봅시다. 스마트 글래스에 내가 배지를 어디에 두고 왔는지 물어보면 에이전트가 에피소드 메모리를 활용하여 배지가 식탁 위에 있다고 응답할 수 있습니다. 또는 집으로 돌아오는 길에 배가 고팠다면 홈 로봇에게 과일이 남아 있는지 물어볼 수도 있습니다. 홈 로봇은 주변 환경을 적극적으로 탐색하여 과일 바구니에 잘 익은 바나나가 있다고 대답할 수 있습니다. 이 게시물 상단의 동영상을 통해 EQA가 실제로 작동하는 모습을 확인하세요.

충분히 간단해 보이시죠? AI 언어모델들은 법학전문대학원 졸업 시험, 수능이나 변호사 시험 합격과 같이 많은 사람들이 어렵다고 생각하는 업무에서 탁월한 능력을 발휘해 왔습니다. 하지만 현실은 오늘날의 가장 진보된 모델조차도 모라벡의 역설의 또 다른 표현인 EQA에 있어서는 인간의 성과를 따라잡기 어렵다는 것입니다. 그렇기 때문에 연구자들이 자신의 모델을 테스트하고 인간과 비교하여 어떻게 비교되는지 확인할 수 있도록 OpenEQA 벤치마크도 공개합니다.

왜 EQA인가? '단어 모델 (Word Model)'에서 '월드 모델 (World Model)'로의 전환

우리는 세계에 대한 기본적인 언어적 이해를 포착한 것으로 보이는 대규모 언어 모델(LLM) 분야에서 흥미로운 발전을 목격했습니다. LLM은 역사적 지식을 바탕으로 모든 종류의 질문에 답할 수 있지만, 현재 주변 세계에서 무슨 일이 일어나고 있는지는 전혀 알지 못합니다. LLM에게 세상을 '보는' 능력을 강화하여 사용자의 스마트 글래스나 가정용 로봇에 탑재하면 새로운 응용 분야를 개척하고 사람들의 삶에 가치를 더할 수 있습니다.

지텐드라 말릭의 말처럼, 이 문제는 세계 모델을 구축하는 것과 단어 모델을 구축하는 것의 차이점을 보여주기 때문에 매우 흥미로운 문제입니다. 즉, 단순히 문자열의 다음 토큰을 예측하는 것이 아니라 EQA에 뛰어난 구현된 AI 에이전트는 물리적 세계에 대한 이해에 기반을 두고 있음을 보여줄 수 있습니다. 이러한 세계 모델은 인공 일반 지능(AGI)이라는 비전을 향한 중요한 단계입니다.

이를 위해 EQA는 AI 에이전트가 주변 세계에서 일어나는 일을 실제로 이해하고 있는지 조사하는 도구입니다. 결국, 인간이 어떤 개념을 얼마나 잘 이해하고 있는지 파악하고 싶을 때 우리는 질문을 던지고 그 대답을 바탕으로 평가를 내립니다. 구현된 AI 에이전트도 똑같이 할 수 있습니다.

OpenEQA: 구현형 AI를 위한 새로운 벤치마크

OpenEQA는 EQA를 위한 최초의 개방형 어휘 벤치마크로, 연구자들이 멀티모달 학습 및 장면 이해의 향후 진전을 추적하는 데 도움이 될 것으로 믿습니다. 이 벤치마크는 실제 사용 사례를 대표하는 1,600개 이상의 템플릿이 없는 질문과 답변 쌍으로 구성된 인간 주석가의 질문과 답변, 180개 이상의 동영상과 실제 환경 스캔에 대한 포인터를 제공합니다. 질문과 답변 쌍은 여러 사람에 의해 검증되어 질문의 답변 가능 여부와 제공된 답변이 정확한지 확인했습니다.

또한 OpenEQA에는 개방형 어휘 답변을 채점하는 자동 평가 지표인 LLM-Match가 탑재되어 있습니다. 실제로 블라인드 사용자 연구를 통해 LLM-Match는 사람과 사람 사이의 상관관계가 두 사람 사이의 상관관계만큼이나 높다는 사실을 발견했습니다.

OpenEQA를 사용하여 여러 최첨단 비전+언어 기반 모델(VLM)을 벤치마킹한 결과, 가장 성능이 뛰어난 모델(48.5%의 GPT-4V)과 인간의 성능(85.9%) 사이에 상당한 격차가 있음을 발견했습니다. 특히 공간적 이해가 필요한 질문의 경우, 가장 우수한 VLM조차도 텍스트 전용 모델보다 성능이 거의 '장님'에 가까워 시각 정보를 활용하는 모델이 시각적 정보를 크게 활용하지 못하고 텍스트에 담긴 세계에 대한 선행 지식에 의존하여 시각적 질문에 답하고 있다는 것을 알 수 있었습니다. 예를 들어 "거실 소파에 앉아 TV를 보고 있습니다. 바로 뒤에 어떤 방이 있나요?"라는 질문에 대해 모델은 공간에 대한 이해를 제공해야 하는 시각적 에피소드 기억의 이점을 크게 활용하지 못한 채 무작위로 다른 방을 추측합니다. 이는 이러한 모델로 구동되는 구체화된 AI 에이전트가 프라임 타임에 사용할 준비가 되기 전에 인식과 추론 측면에서 추가적인 개선이 필요하다는 것을 시사합니다.

OpenEQA는 까다로운 개방형 어휘 질문과 자연어로 답변하는 기능을 결합합니다. 그 결과 환경에 대한 강력한 이해를 보여주는 간단한 벤치마크가 만들어지며, 현재의 기본 모델에 상당한 도전을 제기합니다. 이번 연구를 계기로 AI가 세상을 이해하고 소통할 수 있도록 돕는 추가적인 연구가 진행되기를 바랍니다.

FAIR에서는 OpenEQA에서 우수한 성능을 발휘할 수 있는 세계 모델을 구축하기 위해 노력하고 있으며, 이러한 노력에 다른 분들의 동참을 환영합니다.

https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

https://open-eqa.github.io/