https://www.reddit.com/r/AR_MR_XR/comments/10ml1iu/meta_presents_mav3d_text_to_3d_video/

https://make-a-video3d.github.io/




MAV3D (Make- A - Video 3D) 를 소개 합니다. MAV3D는 텍스트 설명에서 3차원 동적 장면을 생성하는 방법입니다. 우리의 접근 방식은 T2V(Text-to-Video) 확산 기반 모델을 쿼리하여 장면 모양, 밀도 및 모션 일관성에 최적화된 4D 동적 NeRF(Neural Radiance Field)를 사용합니다. 제공된 텍스트에서 생성된 동적 비디오 출력은 모든 카메라 위치와 각도에서 볼 수 있으며 모든 3D 환경에 합성할 수 있습니다. MAV3D는 3D 또는 4D 데이터가 필요하지 않으며 T2V 모델은 텍스트-이미지 쌍 및 레이블이 지정되지 않은 비디오에서만 학습됩니다. 우리는 우리가 아는 한에, 포괄적인 양적 및 정성적 실험을 사용하여 접근 방식의 효과를 입증하고 이전에 설정한 내부 기준선보다 개선되었음을 보여줍니다.


https://make-a-video3d.github.io/


자세한 이미지, 영상, 시연은 웹페이지 참조