https://arxiv.org/pdf/2301.08247.pdf

https://mixed-news.com/en/new-meta-ai-turns-a-single-2d-image-into-a-3d-model/


이미지: 메타


Meta의 연구원들은 단일 이미지에서 3D 모델을 재구성할 수 있는 방법인 MCC를 제시합니다. VR/AR 및 로봇 공학 분야에서 사용되기를 기대하는 것으로 보입니다.




Transformers와 같은 아키텍처와 방대한 양의 교육 데이터에 의존하는 AI 모델들은 최근 인상적인 언어 모델들을 만들어냈습니다.

OpenAI의 GPT-3 또는 가장 최근에는 ChatGPT와 같은 모델이 이에 속합니다.


자연어 처리의 혁신은 중요한 통찰력을 가져왔습니다. 확장은 종종 이전 접근 방식을 뒤처진 기반 모델을 가능하게 합니다.


전제 조건은 다양한 방식을 처리할 수 있는 변환기와 같은 도메인 독립적인 아키텍처와 레이블이 지정되지 않은 대규모 데이터 코퍼스를 사용한 자체 감독 교육입니다.


이러한 아키텍처는 대규모 범주 독립적 학습과 결합하여 이미지 합성 또는 이미지 인식과 같은 언어 처리 이외의 분야에 적용되었습니다.


메타의 MCC는 3D 재구성에 확장성을 제공합니다.


이제 Metas FAIR Lab은 단일 RGB-D 이미지에서 3D 개체를 재구성할 수 있는 변환기 기반 인코더-디코더 모델인 MCC(Multiview Compressive Coding)를 시연합니다.


연구원들은 MCC가 로봇 공학 또는 AR/VR에 사용되는것에 있어서 3D 재구성을 할 수 있는 일반 AI 모델을 향한 중요한 단계로 보고 있습니다.




NeRF와 같은 다른 접근 방식에는 여러 장의 이미지가 필요하거나 3D CAD 모델 또는 다른 얻기 어렵고 확장 불가능한 데이터로 모델을 교육하는 반면 Meta는 RGB-D 이미지에서 3D 포인트를 재구성하는 데 의존합니다.


깊이 정보가 포함된 이러한 이미지는 이제 깊이 센서가 있는 iPhone과 RGB 이미지에서 깊이 정보를 추출하는 간단한 AI 네트워크의 확산으로 인해 쉽게 사용할 수 있습니다. Meta에 따르면 이 접근 방식은 쉽게 확장 가능하며 향후 대규모 데이터 세트를 쉽게 생성할 수 있습니다.




예를 들어 Meta의 MCC는 iPhone 이미지에서 3D 포인트 클라우드를 재구성합니다. | 이미지: 메타



이 접근 방식의 장점을 입증하기 위해 연구자들은 다양한 각도에서 개체 또는 전체 장면을 보여주는 다양한 데이터 세트의 깊이 정보가 있는 이미지 및 비디오로 MCC를 교육하고 있습니다.


학습하는 동안 모델은 학습 신호로 사용되는 각 장면 또는 개체의 일부 사용 가능한 보기를 박탈합니다. 이 접근 방식은 데이터의 일부가 가려지는 경우가 많은 언어 또는 이미지 모델의 훈련과 유사합니다.


Meta의 3D 재구성은 강력한 일반화 가능성을 보여줍니다.


Meta의 AI 모델은 테스트에서 작동하고 다른 접근 방식을 능가하는 것으로 나타났습니다. 팀은 또한 MCC가 이전에 본 적이 없는 개체 범주 또는 전체 장면을 처리할 수 있다고 말합니다.





또한 MCC 는 예상되는 확장성 특성을 보여줍니다. 더 많은 훈련 데이터와 더 다양한 객체 범주를 통해 성능을 크게 향상시킬 수 있습니다.  iPhone 영상, ImageNet 및 DALL-E 2 이미지도 적절한 깊이 정보를 사용하면 3D 포인트 클라우드로 재구성할 수 있습니다.


객체와 장면 모두에 대해 작동하는 범용 3D 재구성 모델인 MCC를 제시합니다. 우리는 보정 없는 날것의 캡처 및 AI가 상상한 물체의 이미지를 포함하여 까다로운 환경에 대한 일반화를 보여줍니다.


우리의 결과는 범주에 구애받지 않는 대규모 교육과 결합된 간단한 포인트 기반 방법이 효과적이라는 것을 보여줍니다. 이것이 3D 이해를 위한 일반적인 비전 시스템을 구축하는 단계가 되기를 바랍니다.


재구성의 품질은 여전히 인간의 이해와는 거리가 멉니다. 그러나 상대적으로 쉽게 MCC를 확장할 수 있으므로 접근 방식이 빠르게 개선될 수 있습니다.


예를 들어 3D 개체의 텍스트 기반 합성을 가능하게 하는 다중 모드 변형은 시간 문제일 수 있습니다. OpenAI는 Point-E와 유사한 접근 방식을 추구하고 있습니다.


3D 모델을 포함한 다양한 예제는 MCC 프로젝트 페이지에서 사용할 수 있습니다. 코드는 Github에서 사용할 수 있습니다.


출처: Arxiv