내가 한 달 간 관심을 가지고 살펴본 발전/활용 방향


1. AI한테 원하는 그림을 설명해 주면(프롬프트) 그림 딱 '한 장' 생성 가능

 => 실사, 애니 그림 사전 학습(Pre Training), 병합


2. 흠... 특정 캐릭터나 스타일을 가진 그림을 뽑고 싶은데?

 => 하이퍼네트워크, 드림부스 등 파인 튜닝(Fine Tuning)


3. 흠... 이제 캐릭터는 잘 나오는데, 구도나 포즈를 내가 컨트롤 하고 싶어!

 => 컨트롤넷으로 고정해보자


4. 흠... 이거 '여러 장' 뽑아서 움직이게(애니메이션) 못 하나?

 => 여기서부터 문제

 => 한 장 뽑았을 때는 문제가 없었는데,

 => (동영상 프레임을 i2i로) 여러 장을 뽑아 이것을 연속으로 이어 붙이면,

 => 캐릭터/스타일/의상/헤어 등이 통일 안 되는 문제가 있음

 => 멀티컨트롤넷으로 최대한 고정해 보려 하지만? 아직까지 많이 튐


다른 사람이 작업한 결과를 보자

A. ControlNet + Multi-frame Video rendering for StableDiffusion



B. 3D Model + StableDiffusion + ControlNet(3D 모델을 사용하고 AI 그림 스타일 적용한 듯)


5. 흠... 특정 캐릭터로 애니메이션을 만들려면 굳이 이렇게까지 해야 하나?

그 캐릭터를 3D로 만들면 한 방에 해결되는 거 아님?

=> 구도나 포즈 : 3D 모델이라 뼈대로 쉽게 변경 가능하고 카메라도 자유롭게 이동 가능

=> 캐릭터 통일성 : 제일 고정하기 어려운 헤어 스타일도 고정(애니메이션) 가능

=> 애니메이션 : 모션캡춰/애니메이션클립 없어도 동영상에서 포즈/핸즈/페이스 트래킹으로 가능


6. 그게 쉽냐?

물론 취미 수준에서 기존 2D 캐릭터의 3D 모델을 구하기도 어렵고 만들기도 어려운 현실을 이해합니다

지금 AI 그림 기술 수준에서 애니메이션 퀄리티는 조금 떨어져도 어느 정도 쉽게 제작 가능하단 점에 의의를 둘 수 있고요(전문가가 아니더라도)



결론)

그런데 AI 그림 기술이 사용자가 원하는 그림을 뽑아주겠답시고

기존 '텍스트 프롬프트'의 한계(묘사가 모호함)를 넘어서

컨트롤넷의 '이미지 프롬프트'(구체적인 묘사)를 접목하는 쪽으로 발전하는 걸 보면

최종적으로 3D 쪽으로 수렴하지 않을까 생각합니다


예) 인물화의 경우 텍스트 프롬프트 + 이미지 프롬프트를 넣어주면 3D 인물 모델을 만들어 주고

사용자가 이 3D 모델로 다양한 포즈/구도로 이미지/영상을 연출할 수 있게 기술이 발전