https://dreamfusion3d.github.io/

https://twitter.com/poolio


텍스트-이미지 합성의 최근 혁신은 수십억 개의 이미지-텍스트 쌍을 통해 훈련된 확산 모델에 의해 주도되었습니다.


이 접근 방식을 3D 합성에 적용하려면 레이블이 지정된 3D 자산의 대규모 데이터 세트와 3D 데이터 노이즈 제거를 위한 효율적인 아키텍처가 필요합니다. 그리고 그 둘 모두 현재 존재하지 않습니다.


이 작업에서 우리는 사전 훈련된 2D 텍스트-이미지 확산 모델을 사용하여 텍스트-3D 합성을 수행함으로써 이러한 제한을 우회합니다. 파라메트릭 이미지 생성기의 최적화를 위해 2D 확산 모델을 사전에 사용할 수 있도록 하는 확률 밀도 증류 기반 손실을 소개합니다.


DeepDream과 같은 절차에서 이 손실을 사용하여 무작위 각도에서 2D 렌더링이 낮은 손실을 달성하도록 경사하강법을 통해 무작위로 초기화된 3D 모델(Neural Radiance Field 또는 NeRF)을 최적화합니다.


주어진 텍스트의 결과 3D 모델은 모든 각도에서 볼 수 있고 임의의 조명으로 다시 조명하거나 3D 환경으로 합성할 수 있습니다.

우리의 접근 방식은 3D 훈련 데이터가 필요하지 않고 이미지 확산 모델에 대한 수정이 필요하지 않으므로 사전 훈련된 이미지 확산 모델의 효율성을 이전과 같이 보여줍니다.



메쉬로 내보내기도 가능