드림 부스는 적은 수의 이미지로 스타일 및 캐릭터를 학습 시킬 수 있는 방법임.


정규화 이미지와 학습율에 대해서 간단히 설명하고 가자면,


정규화 이미지 : 모델의 특성을 잃지 않도록 유지시켜주는 기준점.

학습율 : 모델에 '학습'을 얼마나 강하게 시킬 것인가? 를 결정하는 요인.


1. 캐릭터 학습 및 화풍 학습에 있어서 정규화 이미지는 필요함.

그래야만 드림부스 학습 과정에서 발생하는 과적합을 방지할 수 있기 때문임.

과대학습 끝에 모델 자체가 망가지거나, 특정 구도, 특정 화풍밖에 뽑아내지 못하는 걸 방지하기 위해서임.


캐릭터 학습 및 화풍 학습에 있어서 정규화 이미지가 '모델의 특성'을 유지 시켜 주는 역할을 하기 때문임.

그리고 좀 더 세밀하게 모델에 학습을 시켜주는 역할을 해줌.


그래서 정규화 이미지란 건 '모델의 특성을 얼마나 길게 유지하면서, 더욱 얼마나 세밀하게 학습을 시킬 수 있는가?'를 위해서 사용하는 거임.

또한 캐릭터 학습 시에는 정규화 이미지는 모델의 특성을 유지하면서 '학습 시키는 캐릭터'가 일반적인 프롬프트까지 번지지 않도록 확실하게 기준을 잡아줌.

또한 이건 화풍 학습 때도 있어서 '학습 이미지'가 모델을 망쳐버리지 않도록 붙잡아주는 역할을 함.


2. 높은 학습율은 모델에 미치는 영향이 강하다.

당연하게도 낮은 학습율은 모델에 끼치는 영향이 낮다.


일단 예시 이미지를 뽑아왔는데....


best quality, high resolution, highres, hyper detailed, high detail, intricate details, photo of a yoshino girl, bishoujo, loli, small breasts, embroidered frilled dress, Cowboy shot, snowy field, ice field, Beautiful eyes, beautiful detailed glow, detailed ice, beautiful detailed water, Luminous particle, cinematic light, light particles


모두 동일 프롬프트, 동일 시드, 동일 샘플러로 출력함.



1. 학습에 사용된 모델 (WD 1.3)

원본 모델이니 설명할 필요는 없을 것.



2. 2000스탭 20장 5e-6 학습 모델

어느 정도 원본 모델의 특성을 유지하면서 요시노를 학습한 게 보일 것임.



3. 5000스탭 50장 5e-6 학습 모델

그런데 여기서는 모델의 특성이 유지되지 못하고, 그림이 무너지더라도 캐릭터를 몹시 강하게 출력시킴.

복장 또한 강하게 고정되어 있음.



4. 5000스탭 50장 3.5e-6 학습 모델

여기서도 여전히 원본 모델의 특성을 잘 찾아볼 수 없지만, 그래도 이전 모델과 같은 그림의 붕괴가 일어나지 않은 것을 볼 수 있음.



5. 5000스탭 50장 3e-6 학습 모델

원본 모델의 특성이 일부 살아있으며, 이전의 모델에 비해서 그림의 디테일과 의상 디테일이 올라간 것을 확인할 수 있을 것임.



6. 드림부스 모델 (WD) + 드림부스 모델 (애니띵) + 애니띵 모델 머지 모델

이 머지 모델에 대한 설명은 나중에 이야기하도록 하겠음.




드림부스 학습은 선택지가 두가지 있음.


1. 모델의 특성을 최대한 유지하면서 학습시킬 것이냐.

2. 모델의 특성을 어느 정도 상실하고 학습시킬 것이냐.


그리고 나는 모델의 특성을 유지하면서 학습시키는 데에 중점을 두고 있음.

이렇게 늘어놓고 보면 차이점이 보일 거임.


높은 학습율, 그리고 많은 스탭에 비례하여 모델의 특성이 지워진다.


그리고 이건 정규화 이미지가 없으면 더욱 빠르게 찾아오고.

혹은 너무 과하게 학습해서, 모델이 망가지지 않더라도 학습 이미지와 유사한 것만 내뱉는 경우도 있음.


이 예시 이미지는 '캐릭터 학습'을 위해서 여러 화풍을 뒤섞어서 화풍이 '여러 화풍의 그 중간점'으로 수렴하고 있음.

그리고 이건 내가 학습시킨 'photo of a yoshino girl '라는 프롬프트에 존재하는 화풍을 따라가고 있는 거고.


1. 그러면 내가 학습시킨 프롬프트를 지우면 원본 모델의 특성을 얼마나 재현할 수 있을까?

2. 그리고 아예 딴 캐릭터를 그리라고 했을 때 원본 모델의 특성을 얼마나 재현할 수 있을까?



1. 학습에 사용된 모델 (WD 1.3)



2. 2000스탭 20장 5e-6 학습 모델

학습 프롬프트를 입력하지 않았는데도, 강하게 학습이 되서 여전히 요시노를 그리고 있다.

그래도 스탭이 낮아서 요시노와는 닮지 않은 캐릭터를 한 장 그려줬다.

그리고 또한 원본 모델의 특성을 여전히 유지하고 있다.



3. 5000스탭 50장 5e-6 학습 모델

완전히 모델이 요시노, 그리고 이전 예시 이미지의 화풍을 어느 정도 따라가고 있다는 게 보일 것.

너무 강하게 요시노와 이리저리 뒤섞인 화풍을 학습해버렸다.



4. 5000스탭 50장 3.5e-6 학습 모델

여전히 요시노를 그리고 있다.

캐릭터를 강하게 학습했으나, WD 원본 모델의 특성을 따라가고 있는 게 보일 것.



3. 5000스탭 50장 3e-6 학습 모델

4장 중 2장 꼴이 요시노를 닮지 않은 캐릭터를 출력했다.



6. 드림부스 모델 (WD) + 드림부스 모델 (애니띵) + 애니띵 모델 머지 모델




이제 여기부터는 (학습 프롬프트 유무 + 머리 색 및 눈 색 변경)에 따른 예시 이미지임.


1. 학습 프롬프트 O + 머리 색 눈 색 변경



1. 학습에 사용된 모델 (WD 1.3)



2. 2000스탭 20장 5e-6 학습 모델

적발적안의 요시노를 충실히 재현하고 있음.

그리고 원본 모델의 특성도 유지중. 또한 다양한 복장을 출력한다.



3. 5000스탭 50장 5e-6 학습 모델

원본 모델의 특징을 유지하지 못하고, 그림이 무너지는 것이 보인다.

그리고 요시노가 강하게 학습되어 청발청안이 혼재되어 나타난다.

또한 복장 또한 고정되어 나타난다.



4. 5000스탭 50장 3.5e-6 학습 모델

원본 모델의 특성을 어느 정도 유지 중이나, 요시노가 강하게 학습되어 일부 이미지에서 청안이 드러난다.

그래도 5e-6로 학습된 모델보다는 낫다.



5. 5000스탭 50장 3e-6 학습 모델

3.5e 모델과 동일.



6. 드림부스 모델 (WD) + 드림부스 모델 (애니띵) + 애니띵 모델 머지 모델

요시노를 강하게 학습한 모델이 되어버렸는지, 청발을 출력시킨다.




2. 학습 프롬프트 X + 머리 색 눈 색 변경



1. 학습에 사용된 모델 (WD 1.3)



2. 2000스탭 20장 5e-6 학습 모델

학습 프롬프트를 사용하지 않았는데도, 요시노의 외형을 강하게 출력한다.

그러나 원본 모델의 특성이 망가지지 않았으며, 요시노의 특징적인 복장 및 요시농은 거의 출력하지 않고 있다.



3. 5000스탭 50장 5e-6 학습 모델

요시노의 외형, 복장을 출력시키는 중이다.

학습 프롬프트를 사용하지 않아서 그림은 안정되어 있으나, 여전히 요시노를 출력하고 있다.

이전 예시 이미지에서는 과하게 학습되어서 학습 프롬프트를 사용하고, 요시노의 특징을 강조하는 프롬프트이 역설적으로 화풍을 무너트린 것. 



4. 5000스탭 50장 3.5e-6 학습 모델

마찬가지로 학습 프롬프트가 없음에도 여전히 요시노와 닮은 캐릭터를 출력중.

그러나 락습율이 낮아질 수록 요시노 같으면서도 아닌 캐릭터를 더욱 강하게 출력한다.



5. 5000스탭 50장 3e-6 학습 모델

3.5e 모델과 동일.



6. 드림부스 모델 (WD) + 드림부스 모델 (애니띵) + 애니띵 모델 머지 모델



이상의 예시 이미지로 여러 가지 사실을 알 수 있다.


1. 정규화 이미지는 모델의 특성을 유지하는 데에 큰 도움을 준다.

2. 높은 학습율은 학습 프롬프트를 빼도 모델의 특성을 손상시킨다.

3. 높은 학습율과 많은 스탭은 모델 손상도에 비례한다.

(지금 이 글을 작성하면서 깨달은 거지만, 높은 학습율보다 많은 스탭이 더욱 모델의 특성에 영향을 끼치는 게 아닐까 추정함.

이 부분에 대해서는 나중에 실험해봐야 할 듯.)

4. 출력되는 캐릭터 및 '화풍'은 학습 프롬프트이 없어도 영향을 받는다.

즉 학습 프롬프트를 빼도 특정 화풍으로 기울어졌다면 모델을 과도하게 학습시켰을 것이라 판단하는 게 맞을 것.



번외) 머지 모델에 대하여.


예시 이미지에서 머지 모델이 보였을텐데, 이 머지 모델을 굳이 보여준 이유는...

모델의 손상을 어느 정도 복구하거나, 손상을 대체할 수 있는 방법이 바로 '모델 병합'이기 때문임.


드림부스 모델을 타 모델과 병합하면 망가진 화풍이 완화되거나, 퀼리티 향상이 일어나는데...

예시 이미지에서는 드림부스 모델 + 드림부스 모델과 머지했기에 학습 시킨 캐릭터의 외형이 고정된 것처럼 보이나, 퀼리티나 의상의 다양함은 폭넓어진 것을 확인할 수 있을 것임.


다만 화풍을 학습시켰을 시에는, 모델 머지가 제대로 먹힐지는 알 수 없다.