https://twitter.com/AIatMeta/status/1770844932346920976



https://www.projectaria.com/scenescript/





AR과 AI의 잠재력을 실현하려면 디바이스가 현재 위치와 주변 사물과 같은 물리적 환경을 이해하는 것이 중요합니다. 오늘날 Quest 3 또는 Apple Vision Pro가 실내 공간의 지도를 생성하여 3D 콘텐츠를 고정하고 정렬하는 방법을 예로 들 수 있습니다.



그러나 장면 이해를 위한 이러한 시스템은 일반적으로 여러 중간 단계의 특징 추출 및 전처리 단계에 의존하며, 실제 거주 환경이 설계될 수 있는 수많은 가능성들로 인해 현실에서 직접 적용될 시 사소하지만 예측 불가능한 디테일을 구성하는데 있어서 종종 실패합니다.



그렇기에 자동 회귀 구조 언어 모델과 엔드투엔드 학습을 사용하여 장면 형상을 표현하고 추론하는 새로운 방법인 "𝑺𝒄𝒆𝒏𝒆𝑺𝒄𝒓𝒊𝒑𝒕"를 소개합니다. 







여러 단계의 전처리와 '하드코딩된 규칙'이 필요한 대신 SceneScript는 스마트 글래스 기기에서 센서 데이터를 가져와 수동으로 설계해야 하는 '기능 추가' 없이도 공간 레이아웃을 해석하는 '건축 CAD와 유사한 언어'를 알아서 출력합니다.







이 언어는 공간 레이아웃을 설명할 뿐만 아니라 SceneScript는 기본 모델 아키텍처를 수정하지 않고도 오브젝트의 위치를 예측하고 해당 오브젝트를 구성하는 부분으로 분해할 수 있습니다!







그 결과 메모리 요구량을 몇 바이트로 줄여주는 컴팩트한 씬 표현, 확장 가능한 벡터 그래픽처럼 선명한 지오메트리의 완성도, 사람과 컴퓨터 모두 쉽게 읽고 편집할 수 있는 해석 가능한 씬 표현이 가능해집니다.



여기서 정말 멋진 부분은 물리적 공간에 대해 추론할 수 있도록 언어 모델에 직접 해석된 공간 데이터를 제공할 수도 있다는 것입니다. LLAMA와 같은 채팅 기반 어시스턴트와 공간 해석 결과물을 공유함으로써 "이 방을 칠하려면 페인트가 몇 통이나 필요할까?"와 같은 질문을 던질 수 있습니다.







모델을 훈련하기 위해 저희 팀은 10만 개의 실내 장면으로 구성된 합성 데이터 세트를 사용했으며, 각 장면은 절차적으로 완전히 고유하도록 생성되었습니다. 이 데이터 세트는 작년에 "𝑨𝒓𝒊𝒂 𝑺𝒚𝒏𝒕𝒉𝒆𝒕𝒊𝒄 𝑬𝒏𝒗𝒊𝒓𝒐𝒏𝒎𝒆𝒏𝒕𝒔"라는 이름으로 오픈소스화했습니다.



블로그 포스트

https://ai.meta.com/blog/scenescript-3d-scene-reconstruction-reality-labs-research/


아카이브 논문

https://huggingface.co/papers/2403.13064







단순 지오메트리가 아니라 각각의 요소가 무엇인지 '해석 가능한' 형태로 방의 세부 구조를 파악하는 모양


일부 요소들은 퀘스트3의 패스쓰루 카메라를 이용해 시연되긴 했지만, 주로 프로젝트 아리아 쪽의 AR 안경을 위한 연구인 것 같은