MDM: 인간 모션 디퓨전 모델 (Human Motion Diffusion Model)

https://guytevet.github.io/mdm-page/

이 논문에서 우리는 인간 모션 영역에 대해 신중하게 조정된 분류기 없는 확산 기반 생성 모델인 모션 확산 모델(MDM)을 소개합니다.

MDM은 트랜스포머 기반이며 모션 생성 문헌의 통찰력을 결합한다.

주목할 만한 설계 선택은 각 확산 단계에서 잡음이 아닌 샘플의 예측이다.

이것은 발의 접촉 손실과 같은 움직임의 위치와 속도에 확립된 기하학적 손실의 사용을 용이하게 한다.

우리가 증명했듯이, MDM은 다양한 모드 조절과 다양한 생성 작업을 가능하게 하는 일반적인 접근법이다.

우리는 우리의 모델이 가벼운 리소스로 훈련되었지만 텍스트 대 모션 및 액션 대 모션의 선도적인 벤치마크에서 최첨단 결과를 달성한다는 것을 보여준다.

텍스트 투 모션

Text-to-motion은 입력 텍스트 프롬프트가 주어지면 모션을 생성하는 작업입니다. 출력 동작은 텍스트 설명과 데이터 분포의 유효한 샘플을 모두 구현하는 것으로 예상됩니다. (즉, 일반적인 인간 능력 및 물리학 규칙 준수) 또한 각 텍스트 프롬프트에 대해 단일 결과가 아니라 일치하는 동작의 분포도 기대합니다.

"사람이 앞으로 걸어가서, 땅에 있는 것을 줍기위해 몸을 숙인다."

"사람이 자기 자신의 오른쪽으로 갔다가 뒤로 갔다 앞으로 갔다 한다."

"사람이 마샬 아츠의 방식으로 펀치를 한다."

액션 투 모션

동작 대 동작은 스칼라로 표시되는 입력 동작 클래스가 주어지면 동작을 생성하는 작업입니다. 출력 동작은 입력 동작을 충실히 애니메이션화해야 하며 동시에 자연스럽고 모델이 훈련된 데이터 세트의 분포를 반영해야 합니다.

(클래스) 달리기

(클래스) 워밍업

모션 편집

우리는 또한 완성과 편집을 보여줍니다. 확산 이미지 인페인팅을 적용하여 모션 접두사와 접미사를 설정하고 모델을 사용하여 간격을 채웁니다. 텍스트 조건에서 그렇게 하면 MDM이 원래 입력의 의미를 여전히 유지하는 특정 동작으로 간격을 채우도록 안내합니다. 시간적으로가 아닌 관절 공간에서 인페인팅을 수행하여 다른 부분을 변경하지 않고 특정 신체 부위의 의미론적 편집도 시연합니다.

상체 편집

좌: 입력

우: 합성

모션 합성 및 입력 둘 다 사용

파란색 = 입력

금색 = 합성 결과물