출처:

https://ai.meta.com/blog/scenescript-3d-scene-reconstruction-reality-labs-research/






요약


  • 오늘은 환경을 재구성하고 물리적 공간의 레이아웃을 표현하는 새로운 방법인 SceneScript를 소개합니다.
  • SceneScript는 학술용으로 제공되는 Aria 합성 환경 데이터 세트를 사용하여 시뮬레이션을 통해 훈련되었습니다.

필요할 때 실시간 정보에 원활하게 액세스하고 일상생활을 능동적으로 도와주는 디스플레이와 컨텍스트화된 AI가 결합된 스타일리시하고 가벼운 안경 한 쌍을 상상해 보세요. 이러한 증강 현실(AR) 안경이 현실화되려면 시스템이 물리적 환경의 레이아웃과 세계가 3D로 어떻게 형성되는지 이해할 수 있어야 합니다. 이러한 이해를 바탕으로 AR 글래스는 디지털 오버레이를 실제 공간과 매끄럽게 혼합하거나 낯선 장소를 탐색할 수 있도록 단계별 길 안내를 제공하는 등 사용자와 사용자의 개별 상황에 맞게 콘텐츠를 맞춤화할 수 있습니다.


하지만 이러한 3D 장면 표현을 구축하는 것은 복잡한 작업입니다. 메타 퀘스트 3와 같은 현재의 MR 헤드셋은 카메라나 3D 센서의 원시 시각 데이터를 기반으로 물리적 공간의 가상 표현을 생성합니다. 이 원시 데이터는 벽, 천장, 문과 같은 환경의 뚜렷한 특징을 설명하는 일련의 모양으로 변환됩니다. 일반적으로 이러한 시스템은 미리 정의된 규칙에 따라 원시 데이터를 도형으로 변환합니다. 그러나 이러한 휴리스틱 접근 방식은 특히 독특하거나 불규칙한 형상을 가진 공간에서 종종 오류를 일으킬 수 있습니다.


SceneScript 소개


오늘 리얼리티 랩스 리서치는 언어를 사용하여 씬 레이아웃을 생성하고 씬을 표현하는 새로운 방법인 SceneScript를 발표합니다.



하드코딩된 규칙을 사용하여 원시 시각 데이터를 방의 건축 요소의 근사치로 변환하는 대신, SceneScript는 엔드투엔드 머신러닝을 사용하여 방의 형상을 직접 추론하도록 학습합니다.


그 결과 메모리 요구량을 단 몇 바이트로 줄여주는 컴팩트한 물리적 장면을 표현하고, 확장 가능한 벡터 그래픽과 유사한 선명한 지오메트리를 완성하며, 중요한 것은 해석 가능하므로 이러한 표현을 쉽게 읽고 편집할 수 있다는 점입니다.


SceneScript는 어떻게 학습되나요?


라마와 같은 대규모 언어 모델(LLM)은 다음 토큰 예측이라는 기술을 사용하여 작동하며, AI 모델은 문장의 다음 단어를 그 앞에 오는 단어를 기반으로 예측합니다. 예를 들어 "고양이는... 위에 앉았다"라는 단어를 입력하면 모델은 다음 단어가 "매트" 또는 "바닥"일 가능성이 높다고 예측합니다.



SceneScript는 LLM에서 사용하는 다음 토큰 예측과 동일한 개념을 활용합니다. 그러나 SceneScript 모델은 일반적인 언어 토큰을 예측하는 대신 '벽' 또는 '문'과 같은 다음 아키텍처 토큰을 예측합니다.


네트워크에 대량의 학습 데이터를 제공함으로써 SceneScript 모델은 시각 데이터를 장면의 기본 표현으로 인코딩하는 방법을 학습한 다음 방의 레이아웃을 설명하는 언어로 디코딩할 수 있습니다. 이를 통해 SceneScript는 시각 데이터에서 복잡한 환경을 해석 및 재구성하고 분석하는 장면의 구조를 효과적으로 설명하는 텍스트 설명을 생성할 수 있습니다.


그러나 이 팀은 네트워크를 훈련시키고 물리적 공간이 일반적으로 어떻게 배치되는지 가르치기 위해 상당한 양의 데이터가 필요했으며, 프라이버시를 보호해야 했습니다.


이는 독특한 도전 과제였습니다.


시뮬레이션에서 SceneScript 훈련하기


LLM은 일반적으로 웹의 다양한 공개 텍스트 소스에서 제공되는 방대한 양의 학습 데이터에 의존하지만, 엔드투엔드 모델을 학습하는 데 필요한 규모의 물리적 공간에는 아직 그러한 정보 저장소가 존재하지 않습니다. 따라서 Reality Labs 연구팀은 다른 솔루션을 찾아야 했습니다.


SceneScript 팀은 실제 환경의 데이터에 의존하는 대신 실내 환경의 합성 데이터 세트인 Aria 합성 환경을 만들었습니다. 이 데이터 세트는 완전히 고유한 100,000개의 실내 환경으로 구성되어 있으며, 각 환경은 SceneScript 언어를 사용하여 설명되고 각 장면을 걷는 시뮬레이션 비디오와 짝을 이룹니다.


각 장면을 통해 렌더링된 비디오는 AI 및 ML 연구 가속화를 위한 Reality Labs Research의 안경인 Project Aria와 동일한 센서 특성을 사용하여 시뮬레이션됩니다. 이 접근 방식을 사용하면 개인 정보를 보호하는 조건에서 SceneScript 모델을 시뮬레이션에서 완전히 학습시킬 수 있습니다. 그런 다음 프로젝트 아리아 글래스의 실제 세계 영상을 사용하여 모델을 검증하여 실제 환경에 일반화할 수 있는 모델의 능력을 확인할 수 있습니다.




작년에 우리는 학계 연구자들이 Aria 합성 환경 데이터 세트를 사용할 수 있도록 공개했으며, 이를 통해 이 흥미로운 연구 분야에서 대중의 연구가 가속화될 수 있기를 기대합니다.



오브젝트, 상태 및 복잡한 지오메트리를 설명하기 위한 SceneScript 확장


SceneScript의 또 다른 강점은 확장성입니다.


Aria 합성 환경 데이터 세트의 문을 설명하는 씬 언어에 몇 가지 파라미터를 추가하기만 하면 실제 환경에서 문이 열리거나 닫히는 정도를 정확하게 예측하도록 네트워크를 훈련할 수 있습니다.


또한 건축 언어에 새로운 기능을 추가하면 오브젝트의 위치를 정확하게 예측하고 더 나아가 해당 오브젝트를 구성 요소로 분해할 수 있습니다.


예를 들어 소파는 SceneScript 언어 내에서 쿠션, 다리, 팔을 포함한 일련의 기하학적 모양으로 표현될 수 있습니다. 이러한 수준의 디테일은 결국 디자이너가 다양한 물리적 환경에 진정으로 맞춤화된 AR 콘텐츠를 제작하는 데 사용될 수 있습니다.




AR을 가속화하고, LLM을 발전시키며, AI 및 ML 연구의 최첨단 기술을 발전시킵니다.


SceneScript는 2022년 카네기멜론 대학교에서 시연했던 것처럼 시각 장애인을 위한 단계별 내비게이션을 제공하는 데 필요한 지도를 생성하는 등 MR 헤드셋과 미래 AR 안경 모두에 대한 주요 사용 사례를 실현할 수 있습니다.


또한 SceneScript는 LLM이 물리적 공간을 추론하는 데 필요한 어휘를 제공합니다. 이는 궁극적으로 복잡한 공간 쿼리에 답하는 데 필요한 물리적 세계 맥락을 제공함으로써 차세대 디지털 비서의 잠재력을 열어줄 수 있습니다. 예를 들어, 물리적 공간에 대해 추론할 수 있게 되면 "이 책상이 내 침실에 맞을까?" 또는 "이 방에 페인트를 칠하려면 몇 개의 화분이 필요할까?"와 같은 질문을 채팅 어시스턴트에게 던질 수 있습니다. 줄자를 찾아 치수를 적고 냅킨 뒷면에 적힌 수식으로 답을 추정하기 위해 최선을 다하는 대신 SceneScript에 액세스할 수 있는 채팅 어시스턴트가 단 몇 초 만에 답을 찾아낼 수 있습니다.


유니티는 SceneScript가 실제 세계와 디지털 세계를 연결하는 진정한 AR 글래스로 가는 중요한 이정표가 될 것이라고 믿습니다. 리얼리티 랩스 리서치에서 이 잠재력을 더 깊이 파고들면서 이 선구적인 접근 방식이 AI와 ML 연구의 미래를 어떻게 만들어갈지 기대가 큽니다.


여기에서 SceneScript에 대해 자세히 알아보세요.

https://www.projectaria.com/scenescript/