드림부스의 이론 및 주저리 - AI그림 학습 채널

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8786명 알림수신 125명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 드림부스의 이론 및 주저리

즐거운_초록_벌

추천 20 비추천 0 댓글 10 조회수 3967 작성일 2022-11-11 19:03:40 수정일 2022-11-12 02:57:12

https://arca.live/b/hypernetworks/62775756

일단 글 더 싸재끼기 전에, 드림부스 써본 적도 없고 코드도 안봐서 다른 정보글만큼 확실하진 않음

이 글은 드림부스 논문이랑 관련 정보 몇개 찾아보고 그걸 토대로 쓰는거임

일단, 드림부스는 Stable Diffusion 모델을 Fine-tuning하는 기법이다. Fine-tuning이란 이미 학습이 완료된 모델과 그 가중치를 그대로 가져와서, 새로운 학습 데이터를 훈련시켜 그 데이터에 대해 결과가 잘 나오도록 바꿔주는 과정이다.

근데 방대한 자료로 학습해왔던 모델에다가 사진 몇 장 던져주고 '이제 너는 이것들의 정답만 맞추면 된다'라고 하면 어마어마한 속도로 과적합해버린다... 그러면서 방대한 자료로부터 학습해왔던걸 점차 까먹기 시작한다.

'A dog'라고 쳤을때의 결과. 맨위: 기존 모델, 중간: 과적합 모델, 아래: 드림부스

드림부스는 어떻게 과적합을 방지할까? 정규화 이미지를 통해서다. 훈련시키고 싶은 대상의 조금 더 큰 범주인 class의 정규화 이미지들을 통해서, 모델은 훈련 이미지의 특성과 함께 class의 다양성을 같이 학습하려고 한다.

사진의 윗부분인 훈련 이미지와 생성 이미지 간의 MSE loss를 구하는 방식은 Textual Inversion과 하이퍼네트워크랑 똑같다! 단지 차이가 있다면 드림부스같은 fine-tuning에서는 U-NET의 gradient를 전부 계산하도록 해서 모든 layer의 weight가 바뀌도록 조절하는 것이다. 이러니까 8기가 VRAM으로는 택도 없다는거다. 아 3070 신품 괜히샀음...

드림부스의 가장 큰 특징은 사진의 아랫부분에 있는데, 훈련 전에 먼저 클래스에 대한 정규화 사진을 뽑은 후에, 그걸 훈련할때 프롬프트에 클래스 이름을 넣어 생성한 이미지 간 비교하여 MSE loss를 추가로 구한다는 것이다. 그리고 그걸 그냥 더해서 새로운 loss function으로 써먹는다.

예를 들어 훈련시키고 싶은 캐릭터의 이름이 'mia'이고 클래스 이름이 'girl'이라면,

모델에서 'A mia girl'이라는 프롬프트로 생성한 이미지와 훈련 이미지를 비교함과 동시에

모델에서 'A girl'이라는 프롬프트로 생성한 이미지와 정규화 이미지를 비교하는 것이다.

만약에 모델이 'mia'에 대해서 너무 많이 배웠다면, 아래의 정규화 이미지와 비교할 때의 loss값이 커질 것이기 때문에, 모델이 '아! mia만 너무 많이 배웠구나! 다른 정규화 이미지도 좀 봐야겠다' 같은 방식으로 과적합을 방지할 수 있게 된다.

논문의 설명대로라면 정규화 이미지는 훈련시키고자 하는 모델에서 생성되어야 한다.

왜 이런지 설명하자면... 모델이 훈련을 진행하면 진행할수록 프롬프트에 'mia' 없이 그냥 'A girl' 만 들어가 있어도 생성하는 이미지가 훈련 이미지와 비슷해지게 된다. 그렇기에 훈련 전에 만들었던 정규화 이미지들과 비교하면서 '너 이런것도 만들줄 알았으면서!! 기억해내!!' 하면서 과적합할뻔한 모델을 바로잡게 되는 것이다.

논문에서는 epoch마다 정규화 이미지 200장 정도를 생성해서 사용하는데, 그만큼 많고 다양해야 드림부스 모델도 어느정도 다양해지는 듯하다.

근데 씹덕 그림만 뽑아낼거라면 정규화 이미지도 어쨌든 다양하게 씹덕스러운거로 뽑아야지, masterpiece best quality로 채워넣으면 맨날 보던것만 보게 될거다.

---

그리고 논문보다가 알게 된건데, 드림부스에서는 기본적으로는 텍스트 모델은 훈련하지 않아서, 훈련할 대상을 불러내기 위해 사용하는 프롬프트 단어는 문자열 1~3개 정도의 랜덤한 문구 (논문에서는 'sks')를 사용했다고 함. 근데 왜 문자열 4개 이상은 안되는지는 안써놨는데, 왠지 알것 같음. CLIP은 문자열 4개부터 강제로 토큰 2개로 쪼개기 때문이다. 즉 지금까지 잘 돌아가는 드림부스 모델들은 1토큰으로 원하는걸 다 뽑아냈다는 것이다.

토큰 얘기 나온김에 추가하자면 이 훈련할 대상을 불러오는 문자열에 이미 다른 의미가 있다면 (예를 들면 'red'를 쓴다던가...) 훈련이 완전히 망가지기 때문에, 랜덤한 문자열을 쓰는 것이다. 숫자 넣어도 안됨.

드림부스 라이스 샤워랑 그림체 한번에 학습할려다 망했다 - AI그림 학습 채널 (arca.live)

이친구는 rice_shower로 학습할려고 했다가 rice와 shower라는 토큰 안에 말딸 데이터가 들어가버렸다...

---

Training Stable Diffusion with Dreambooth – Weights & Biases (wandb.ai)

이 링크에 드림부스로 실험한 내용들이 있는데, 재밌는 내용들이 몇가지 있다.

먼저 5e-6으로 돌리면 과적합나서 2e-6으로 해야 겨우 쓸만해진다는 부분이나 (...)

Text Encoder(텍스트 모델)에 대해서도 학습을 진행했더니 퀄리티가 훨씬 높아졌다는 것이다. 근데 당연하지 그건... 지금까지 sks라는 의미없는 임베딩에 대해서 어떻게든 훈련 이미지랑 대응시키고 있었는데, 텍스트 모델도 학습시키게 되면 임베딩 안에까지 자연스럽게 정보가 들어가게 되기 때문이다. 그리고 텍스트 모델까지 100% 학습시킬려고 하면 12기가 16기가로는 택도 없고 무조건 24기가 써야함.

이건 텍스트 모델 고정

이건 텍스트 모델 훈련된거. 퀄리티 차이가 정말 장난 아니다.

제일 재밌는건, 여기서 sks에 대해서 Textual Inversion을 통해 임베딩을 따로 학습한 뒤에, 그걸 드림부스에 넣어서 추가로 학습했더니 결과가 딱 중간만큼 나왔다는 것이다.

그랬더니 조커가 증발하긴 했는데, 어쨌든 얼굴은 텍스트 모델 고정한 드림부스보다 더 잘 살렸다. 텍스트 모델 전체를 훈련시키지 않고도 이런 성능이 나온다는 것이다.
코랩에 이걸 구현할려면 따로 추가코드를 만들어야 할거고, WEB UI 확장에 이식하는건 그렇게 어렵진 않을듯 (아니면 이미 되어있나?)

그러니 임베딩+하이퍼, 임베딩+드림부스 이런게 생각보다는 쓸모있을듯 (하이퍼+드림부스는 하면 안됨)

시크한_핑크_돌고래

2022-11-11 19:16:33

이런정보들 한글로 보기힘든데 너무좋아 개추

펼쳐보기▼

당당한_은색_쭈꾸미

2022-11-11 23:14:55

*수정됨

클래스 이미지랑 인스턴스 프롬프트 이해 못하는 사람 많은데 좋다 굳굳

펼쳐보기▼

겸손한_갈색_코끼리

2022-11-11 23:54:20

개추 이건 티스토리정도 되는 곳에서나 볼법한 내용인데 유용하다ㅋㅋ

펼쳐보기▼

시시한_하얀_돼지

2022-11-12 01:04:04

쓸쓸한_밤색_소

2022-11-12 01:35:04

단호한_금색_오징어

2022-11-12 03:19:24

sks는 쓰면 안되는게 sd모델이 sks총으로 인식하더라 ㅋㅋ

펼쳐보기▼

즐거운_초록_벌

2022-11-12 03:20:46

아 그래서 레딧에서 쓰지 말라고 했던거구나ㅋㅋㅋㅋㅋㅋ

펼쳐보기▼

난처한_빨간_익룡

2022-11-12 04:22:34

요즘은 iom 임

펼쳐보기▼

둔한_빨간_오징어

2022-11-12 04:41:23

닛네임네닛

2023-07-04 12:57:02

제일 재밌는건, 여기서 sks에 대해서 Textual Inversion을 통해 임베딩을 따로 학습한 뒤에, 그걸 드림부스에 넣어서 추가로 학습했더니 결과가 딱 중간만큼 나왔다는 것이다.
--> 이게무슨말이야

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 정보 그림 드림부스 임베딩 하이퍼

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28037857

공지 파딱 마음대로 작성한 AI그림 학습 채널 규정 - [24-01-24]

포리X 2023.10.29 1959

공지 [리퀘스트] 탭이 추가되었습니다.

선한_하얀_사자 2023.02.10 3368

공지 신문고

Anon 2023.02.21 3162

공지 각종 학습파일 적용법

거만한_보라_달팽이 2023.01.24 39244

공지 그림 학습법 모음

거친_핑크_외계인 2022.10.30 72220

숨겨진 공지 펼치기(1개)

2122 정보 뉴비가 쓰는 데이터셋 50장 미만으로 로라 만드는 법 [6]

ㅇㅇ 2024.04.12 1900 35

2121 진짜 인공지능의 기본도 모르는 그림쟁이들 지긋지긋하다 [25]

분노한_남색_개복치 2022.10.23 1993 28

2120 장사꾼들은 좀 꺼져라 [4]

Anon 2023.03.22 2948 22

2119 정보 [실사로라1|모든 과정] 실사로라 만드는 과정 전부 - xRica 님의 실사로라 캠페인 참여 [26]

엑시옴 2023.05.28 14030 21

2118 그림체학습 씨발 정답을 드디어찾았다.. [6]

쌀쌀한_파란_멧돼지 2023.02.13 5143 21

2117 요 몇주간 서로 정보공유하고 가이드 써서 일러주고 [6]

굳센_분홍_기린 2022.10.31 564 21

2116 정보 로라 학습 간편설치기 [14]

예리한_파란_올빼미 2023.01.31 6208 20

2115 각종 학습파일 적용법 [21]

거만한_보라_달팽이 2023.01.24 39244 20

2114 하이퍼 하이퍼네트워크 가이드 (일반편은 일단완성 -) [26]

얌전한_초록_악어 2022.12.04 4582 20

2113 정보 이미지 사이의 유사도를 어떻게 구하는 것일까? [14]

훌륭한_청록_낙타 2022.11.19 1266 20

2112 정보 드림부스의 이론 및 주저리 [10]

즐거운_초록_벌 2022.11.11 3968 20

2111 정보 ShivamSharo / TheLastBen 코랩 드림부스 초간단사용법 [35]

센치한_노란_까마귀 2022.11.10 15430 20

2110 hypernetworks, embeddings 적용법 [17]

주딱 2022.10.19 17606 20

2109 정보 학습 해상도 차이 및 태그 정제 유무 비교 [20]

머팔로 2023.04.01 5337 19

2108 정보 그대로 따라하는 webui 드림부스 가이드 [27]

훈훈한_노란_익룡 2022.11.24 8949 19

2107 정보 또또또 신기술 떴다 ㅋㅋㅋ [14]

의젓한_갈색_멧돼지 2022.11.09 1956 19

2106 영구차단은 좀 너무하네 ㅋㅋㅋㅋ [27]

의젓한_까만_돌고래 2022.10.22 1086 19

2105 학습챈 망령들 특 : [8]

호탕한_노란_나비 2023.02.08 1795 17

2104 11/30 학습파일 공유 메가 업데이트 [6]

시크한_빨간_문어 2022.11.30 1034 17

2103 원효대사 해골물 메타였던적 있냐 [6]

호탕한_밤색_코끼리 2022.11.21 849 17

2102 뭐야 그림체 학습 뉴스탔다 ㅋㅋㅋㅋ [22]

슬픈_초록_치타 2022.11.03 3052 17

2101 정보 런포드에서 드림부스 구동법 정리 [20]

엉뚱한_노란_여우 2022.10.27 20164 17

2100 정보 civitai에 올라온 로라 학습법 [11]

ai 2023.04.19 13664 16

2099 일본에 그림체 학습용 서비스 보니까 진짜 개웃기네ㅋㅋㅋㅋㅋ [7]

굳센_하얀_캥거루 2022.10.23 1108 16

2098 1022 artist별 hypernet 모음 업데이트 [6]

ㅇㅇ 2022.10.22 811 16

2097 학습챈 업데이트했습니다 [4]

시크한_금색_멧돼지 2023.01.24 793 15

2096 정보 날림으로 소개하는 날림 하이퍼 학습 방법 [24]

겸손한_초록_거위 2023.01.17 8388 15

2095 ???: 학습은 안했다 [10]

호탕한_남색_뱀 2022.11.14 790 15

전체글 개념글