(짤X/안전) 드림부스 돌렸더니 개혐짤 아오오니가 나왔음;;; 도움!!

(혐짤 없음 안심해)

어제 JoePenna 드림부스로 실사 SD1.5 기반으로 처음 학습 돌려봤는데 결과물이 진짜 ㅋㅋ 너무 충격적이었음

학습 데이터는 Training image 16장, Regularization image 2800장이었고, 설정은 아예 안 건드림

본인 3090 머신 윈도우 로컬 환경에서 돌렸고 5000 step 학습시키는데 3시간 좀 안되게 걸린 거 같았음

새벽에 학습된 모델 webui로 가져와서 돌려보는데 그떄 진짜 심장마비로 가는 줄 알았다

내가 웬만한 공포게임 다해봤다지만 이런 건 처음이었음... 대충 타겟 얼굴을 배우려고는 했는데 뭔가 잘못된 건지 얼굴이 우락부락한 아오오니 급 혐짤만 뱉어내는데 사람이 너무 무서우니까 얼음처럼 얼어서 못 움직이겠더라 ㅋㅋ

이게 overfitting 탓인가 싶어서 500 step 간격으로 저장된 체크포인트들 2000 ~ 4500까지 다 확인해봤는데 똑같았고

프롬 작성도 여러 번 다시 해보고... 샘플러, CFG, 노이즈 스케일 다 바꿔봤는데도 똑같았음

특이점으로는 얼굴만 이상하게 나오고, 전체적인 anatomy나 배경은 정상적으로 나왔음. 지금 다시 확인해보고 오는데도 무섭네..

Regularization image도 직접 뽑아낸 거로 써서 그쪽 문제는 아닐 거 같고...

일단 생각나는 대로 학습 실패 이유를 추측해보자면

1. Training image 개수: 얼굴 위주로만 16개를 준 게 문제인가..?

2. Regularization image 개수: (Training image 개수) * 200개 정도로 주라 해서 2800개를 줬는데, 이게 너무 투머치였나

3. 너무 적은 step 수: 학습을 좀 더 오래 돌렸어야 하나

4. 토큰: 토큰을 full name (예: HongKilDong)으로 해서 이상한 건가? 구글에서 낸 드림부스 논문 원본에서는 토큰으로 'SKS'를 썼다 하는데 그것처럼 토큰을 짧게 했어야 하나

5. Batchsize: yaml 파일 까봤는데 batchSize가 1로 설정되어 있었음. 이걸 조금 더 높인 다음 학습했어야 했나...? 근데 그러기엔 batchSize가 1일때도 VRAM을 거의 23기가나 잡아먹었음.

드림부스 처음 돌려보는 거니까 결과물 별로일 거 예상하고 있었는데 이정도일줄은 몰랐지...

암튼 내 드림부스 첫경험 글이었고 혹시 조언해줄 수 있는 사람 있으면 고견 좀 부탁할게

드림부스 학습시 이미지는 다양한 배경, 표정, 구도로 준비하시는게 좋습니다. 토큰은 기존에 학습된 대상과 겹치지 않는다면 문제 없습니다. reg 이미지는 학습 이미지 x 100 정도가 무난합니다.

얼굴 위주 16장이긴 하지만 only 얼빡샷은 아니었어요. 모든 training image들은 정면 응시 얼굴을 포함하되 배경/표정/상반신 포함 유무(전신샷은 없었음)가 다르게 준비됐었는데도 이렇게 됐네요...

혹시나 해서 후기 추가함 ------------------------------ JoePenna로는 뭔짓을 해도 제대로 된 학습이 안돼서 https://arca.live/b/hypernetworks/62606054 여기 있는 원클릭 드림부스 (Reulgarization image 필요 없음!)로 돌려봤더니 아주아주 잘나옴 저거 말고도 다른 드림부스 있던데 시도해볼 예정