[허깅페이스] | [아카이브] | [깃헙]


InstantID라는 기술인데, 쉽게 말하면 IP-Adapter + ControlNet 을 합쳐서 사람 얼굴 이미지를 프롬프트로 쓰는 기술이네요.


결과물들이 꽤나 좋아보이긴 한데, 하필이면 논문에서 기술을 실증한 분야가 실제 사람 얼굴 쪽이라... 챈 규정 때문에 예시 이미지는 못 긁어왔습니다. (깃헙 페이지에서 예시 이미지들을 확인하실수 있습니다.)


조금 더 자세하게 써 보자면...


1. [이미지 어댑터] IP-Adapter는 기존의 CLIP 이미지 인코더를 썼는데, 그 대신 원하는 도메인(해당 논문에서는 사람 얼굴)에 특화된 기존 인코더를 가져다 써서 품질을 높였다고 합니다.


2. [IdentityNet] 저자들에 따르면, 토큰 레벨만으로는 텍스트 토큰과 이미지 토큰 간에 반영도를 둘러싼 경쟁이 일어나기도 하고, 토큰을 반영하는 매커니즘 자체도 세밀하게 학습되어있지 않아서 한계가 있다고 주장합니다. 그래서 컨트롤넷을 빌려오되 필요한 부분에서 해당 도메인 쪽 (논문에서는 사람 얼굴) 생성에 적합하도록 수정을 가한 (구체적으로, OpenPose를 얼굴에 맞게 간략화하고 텍스트 임베딩 부분을 제거한) 'IdentityNet'이라는 녀석을 만들어서 학습시켰다고 하네요.



기술의 아이디어 자체는 얼굴 말고도 다른 쪽으로도 충분히 활용할만해 보이는데 말이죠...

얼굴 말고 오덕쪽 도메인 지식을 활용한 물건도 학습시킬 수 있으려나 ㅋㅋ