Textual Inversion (임베딩 훈련) 의 원리 및 탐구내용

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8808명 알림수신 126명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 Textual Inversion (임베딩 훈련) 의 원리 및 탐구내용

나쁜_주황_병아리

추천 12 비추천 0 댓글 7 조회수 3305 작성일 2022-11-08 16:07:42

https://arca.live/b/hypernetworks/62511421

Textual Inversion 관련 논문은 이번 8월에 나온 따끈따끈한 모델이다

이 그림을 참고하면서, 현재 WEBUI에 구현된 Textual Inversion 방식대로 설명하겠다

0. 프롬프트 템플릿 파일 경로가 있는데, 기본으로 입력되어 있는 '\textual_inversion_templates\style_filewords.txt'을 열면

a painting of [filewords], art by [name]

a rendering of [filewords], art by [name]

같은게 적혀있는걸 알 수 있다.

이것은 프롬프트 템플릿으로, 여기 적혀 있는 줄 중 랜덤으로 하나가 선택되어 프롬프트로 사용된다. 여기서 [filewords]에는 훈련 이미지의 태그가 들어가게 되고, [name]에는 훈련시키고자 하는 임베딩 문자열이 들어가게 된다. 그래서 Textual Inversion에서는 [name]이 가장 중요하다! (반대로 하이퍼네트워크는 [name]이 필요없다)

1. 훈련을 시작하자! 위의 프롬프트 템플릿을 통해 예를 들어 'A photo of S*'가 입력하면 CLIP tokenizer에 의해 [508, 701, 73, 338, 265] 토큰 묶음으로 변경한다

여기서 S*는 우리가 훈련시키고 싶은 임베딩의 이름인데, 딱히 훈련 없이도 이미 'S*'라는 문자열은 [338, 265]라는 토큰과 대응되어 있다.

2. 이 토큰 묶음의 맨 왼쪽에 시작토큰(42604)을 넣고, 토큰 묶음의 길이가 77이 될때까지 문자열 끝토큰(42605)를 채워넣는다.

[42604, 508, 701, 73, 338, 265, 42605, 42605, ..., 42605]

3. 이 묶음을 CLIP 트랜스포머 모델을 통해서 77x768 크기의 고정된 임베딩으로 변환한다

대충 이부분

이 임베딩 안에 바로 프롬프트를 이미지로 만들어주기 위한 정보가 들어가 있다

그리고 위 그림처럼 임베딩의 각 행은 하나의 토큰에 대응되어, 그 토큰에 대한 정보가 들어있는 것이다.

Textual Inversion은 기존 S*의 정보를 대체하는 새로운 '부분 임베딩'(위의 그림의 ? 부분)을 새로 삽입해서, 그 부분만 학습시키고자 하는 것이다

여기서 토큰별 벡터 수는 이 '부분 임베딩'의 크기를 설정하는 것이고 (따라서 75보다 클 수 없음)

초기화 텍스트는 이 '부분 임베딩'에 처음으로 채워넣을 텍스트의 임베딩 데이터를 채워넣음. 즉 시작점임

처음 초기화 텍스트가 *로 되어있어서 이렇게 넣으면 이름이랑 똑같아지는 건가? 라고 생각할 수 있는데 그딴건 없고 진짜 '*'문자열에 대응하는 [265] 토큰의 임베딩 정보 그냥 집어넣는거임. 훈련할 임베딩의 정보를 노이즈로 채워넣고 시작하는거. 근데 어짜피 훈련 진행하다보면 결과적으로는 어느 범위 안에 수렴하게 되어있어서 초기화 텍스트에 뭘 집어넣던간에 훈련에 있어서 유의미한 차이가 없음. 욕심 그득하게 채워넣어봤자 토큰별 벡터 수의 범위 안에 내용이 짤림.

4. 이 77x768 임베딩을 diffusion 모델에 넣어서 '원래 하던대로' noise로부터 step을 밟아나가면서 그림(우리가 아는 512x512가 아니라 64x64 latent space이지만)을 그리고, 그걸 훈련 이미지를 노이즈화한 것과 비교해서 loss를 측정함. 이것이 모델 훈련으로 치면 forward 과정.

5. 이 부분이 가장 중요함. forward 과정이 있으면 backward 과정도 있어야겠지? backward라는 것은 위에서 뽑은 loss 값을 통해 loss 값이 작아지게 하는 임베딩 수치를 역산하는 과정임.

역산 과정을 통해 임베딩 수치가 전부 변해야 하는데... 근데 우리는 'S*'만 훈련하고 싶지, 다른 토큰들의 수치는 건드리고 싶지 않잖아? 그래서 WEBUI에서는 우리가 훈련시키고 싶은 S* 부분 임베딩만 optimizer에 넣어서 얘만 값이 변하도록 만들었음. 다른 토큰들에 대한 임베딩 정보도 역산을 통해서 변했겠지만, 그 변화를 무시하고 S*만 계속 변화시키도록 훈련시키는거임.

논문 예시는 'A photo of S*'를 썼는데 CLIP 모델(과 훈련된 모델)은 어느정도 문장 해석 능력이 있기 때문에 저 문구에서 제일 중요한게 S*라는걸 이미 알고 있음. 프롬프트를 저렇게 쓰면 S*에 해당하는 부분 임베딩이 그림에 가장 큰 영향을 미치겠지? S* 하나만 가지고 훈련하는 것과 비슷해서 훈련이 잘 됨.

근데 예를 들어서 내 훈련 데이터셋 중에 이런 그림이 있고 'light red background, hatsune miku, aqua hair, long hair, open mouth, teeth, simple background, twintails, bare shoulders, vest, crazy smile, collarbone, 1girl, solo, portrait, looking at viewer'라고 태그를 썼다고 가정하자.

그러면 프롬프트는 'light red background, hatsune miku, aqua hair, long hair, open mouth, teeth, simple background, twintails, bare shoulders, vest, crazy smile, collarbone, 1girl, solo, portrait, looking at viewer, art by S*'이 될 것이다.

모델: 아하하... 역산해봤는데 그렇게 aqua hair 같지도 않고 hatsune miku 같지도 않아서 임베딩 벡터를 요리조리 바꿔봤어요. 어때요?

나: 조까, S*이나 신경쓰고 나머지 변화는 싹 다 버려.

모델: 힝ㅠ

이러니까 임베딩 훈련의 loss 값이 제대로 수렴할 수가 없음. 다른 태그의 정보를 그대로 유지하면서 그림이 훈련 이미지에 근접하게 한다? 천원으로 단팥빵 두개 사고 잔돈 남겨오라고 시키는거랑 같다. 과적합? 어림도 없다 암!

그리고 또 다른 문제가 있는데, 이렇게 임베딩과 함께 태그를 잔뜩 넣어서 훈련을 진행시키면, 그 태그의 성질을 가지고 있지 않은 정보만 임베딩에 들어가게 된다.

이건 확실히 예시를 통해 보여줄 수 있는데, 프롬프트 템플릿에 1girl, solo, portrait, looking at viewer, art by [name]을 넣고 훈련했더니

프롬프트에 [name]만 넣으니까 이딴게 나온다.

1girl, solo, portrait, looking at viewer가 아닌 정보가 임베딩에 학습되었음을 알 수 있다....

요약

1. 태그를 존나 많이 박으면 오히려 임베딩만의 학습효과가 떨어진다

2. 태그를 넣을거면 훈련이미지에서 내 관심 대상과 벗어나는 것들에 대해서만 적기

예를 들어 누끼따서 전부 흰색 배경이 있다면 태그에 white background, simple background를 적어놓아야 임베딩에 흰색 배경이 덜 들어감

그리고 토큰벡터수 크게 잡지마라. 1~3 벡터면 다 표현 가능하다 (캐릭터면 좀 더 많아야 할지도)

이것도 증명할 수 있음

위: 2벡터, 프롬프트 템플릿: [name]
중간: 4벡터, 프롬프트 템플릿: [filewords], art by [name], 태그 직접 고침

아래: 임베딩 없이

대충 위가 우리가 원하는 퀄리티라는건 알겠지?

댓글 [7]

순박한_금색_양

2022-11-08 16:17:11

좋은글 감사.
씹덕 그림 학습 한정이라면, 이게 하이퍼, 드림부스도 똑같이 적용되는 얘기라고 생각하는데. 어찌 생각하누.

펼쳐보기▼

나쁜_주황_병아리

2022-11-08 16:19:24

드림부스는 잘 모르고 하이퍼라면 오히려 태그 많은게 나을거같은데
태그를 통해서 생성된 이미지가 훈련 이미지랑 비슷해야 스타일 이동이 잘 되지 않나...

펼쳐보기▼

순박한_금색_양

2022-11-08 16:21:32

ㅇㅋ 나도 함 실험해봐야겠다.

펼쳐보기▼

나쁜_주황_병아리

2022-11-08 16:40:12

그러면 좀 잘 나오긴 한데 위의 비교짤처럼 조금 지저분함

펼쳐보기▼

나쁜_주황_병아리

2022-11-08 16:48:56

looking at viewer가 정보가 많은 태그라서 넣어서 학습하면 임베딩 얼굴형이 조금 깨질수 있음
그래도 한번 해봐 태그 넣은거랑 뺀거랑 비교해보면 알겠지

펼쳐보기▼

시시한_노란_늑대

2022-11-08 17:25:46

압도적 감사!

펼쳐보기▼

거만한_하얀_양

2022-11-08 18:25:13

양질의 정보 굿

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 정보 그림 드림부스 임베딩 하이퍼

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29197512

공지 파딱 마음대로 작성한 AI그림 학습 채널 규정 - [24-01-24]

포리X 2023.10.29 2172

공지 [리퀘스트] 탭이 추가되었습니다.

선한_하얀_사자 2023.02.10 3462

공지 신문고

Anon 2023.02.21 3245

공지 각종 학습파일 적용법

거만한_보라_달팽이 2023.01.24 39848

공지 그림 학습법 모음

거친_핑크_외계인 2022.10.30 73178

숨겨진 공지 펼치기(1개)

흑백 단순그림체 하이퍼 질문드려요 [1]

쾌활한_파란_기린 2022.11.10 455 1

정보 vram 24기가만 가능한 초 간단 드림부스 [16]

즐거운_청록_외계인 2022.11.10 1716 7

아 학습 모르겠다. [5]

쾌활한_하얀_사슴 2022.11.09 406 0

vram 질문 [10]

상냥한_보라_펭귄 2022.11.09 387 0

완전히 씹덕그림체 원하면 애니띵이 맞는거같다

느긋한_핑크_외계인 2022.11.09 245 3

애니띵에 nai로 만든 드림부스 체크포인트머지하면 어캐됨 [1]

화가난_밤색_소 2022.11.09 250 0

애니띵 학습시 주의 사항 [5]

불행한_은색_올빼미 2022.11.09 434 1

누가 로컬 드림부스 가이드 좀 써줬으면 좋겠다.... [2]

씩씩한_남색_비둘기 2022.11.09 431 0

갑자기 바껴버린 설정 찾습니다 [5]

걸걸한_주황_상어 2022.11.09 304 1

아무리봐도 중국발 Anything이 더 좋은것같은데 [3]

흉악한_밤색_돌고래 2022.11.09 347 0

뭐지 언제부터 공지 하이퍼넷 예시 이미지가 재현이 안되네 [1]

즐거운_초록_원숭이 2022.11.09 85 0

webui 하이퍼네트워크 궁금한게 있습니다. [2]

분노한_노란_나비 2022.11.09 223 0

드림부스 눈 안 뭉개지게 학습시키는 팁 없음? [3]

느긋한_핑크_잠자리 2022.11.09 281 0

드림부스 masterpiece 붙이니까 더 이상해지네

수수한_까만_코끼리 2022.11.09 137 0

이번에 드림부스 입문하는데 2개만 질문좀 해봄

답답한_초록_표범 2022.11.09 106 0

애니띵으로 수카모 10만번돌린거 써봤는데 [1]

답답한_빨간_사슴 2022.11.09 253 2

드림부스 돌릴때 pruned 모델이랑 fullema 버전이랑 학습결과에 차이있음? [3]

불행한_갈색_치타 2022.11.09 224 1

정보 또또또 신기술 떴다 ㅋㅋㅋ [14]

의젓한_갈색_멧돼지 2022.11.09 1971 19

짱깨산 anything 3.0 모델 괜찮아보이는데 이걸로 드림부스 돌려볼까 [3]

대범한_노란_말 2022.11.09 290 1

질문) 학습할 때 낙서 그림도 괜찮나요? [6]

얌전한_핑크_나비 2022.11.09 160 1

이번에 중국 애니띵과 하이퍼 조합이잘맞는다

쌀쌀한_노란_벌 2022.11.09 173 1

하이퍼 고수 있어? [31]

야무진_초록_소 2022.11.09 512 0

어떤 스타일이 나음? [9]

씩씩한_주황_박쥐 2022.11.09 193 3

쉬밤 드림부스 에포크 높을수록 좋음? [2]

단호한_파란_너구리 2022.11.09 284 1

코랩에 ckpt 어케 적용함?? [3]

상냥한_초록_개구리 2022.11.08 604 0

파인튜닝 하면 모델이 전부 ckpt로 나옴?

야무진_보라_부엉이 2022.11.08 147 0

webui 확장기능에 드림부스 쓸만함?

거친_갈색_벌 2022.11.08 185 0

학습 중간단계였는데 진짜 재밌음

상냥한_밤색_표범 2022.11.08 251 1

정보 Textual Inversion (임베딩 훈련) 의 원리 및 탐구내용 [7]

나쁜_주황_병아리 2022.11.08 3306 12

질문) 하이퍼vs드림부스 [8]

섬세한_빨간_나비 2022.11.08 276 1

정보 드림부스 선호 색감 또는 채도 기준, 추천 최대 학습수 및 계수 추천 [11]

훈훈한_초록_너구리 2022.11.08 1460 6

드림부스 3000vs5000 [2]

답답한_핑크_고래 2022.11.08 408 1

정보 또 신기술 나옴 ㅋㅋㅋ 자동 누끼따기 익스텐션 [6]

당당한_갈색_코끼리 2022.11.08 2044 14

드림부스 학습할때 같은 캐릭터 100장 이상 넣으니까 오히려 뭉개지는 느낌이네

정중한_노란_앵무새 2022.11.08 150 0

지금 webui 확장기능으로 나오는거 좀 이상하네...

당당한_밤색_닭 2022.11.08 335 1

그림 드림부스 henreader 돌려봤음 [4]

둔한_갈색_참새 2022.11.08 846 8

글카사려는데 3090은 다 24짜리임? [2]

분노한_파란_북극곰 2022.11.08 339 0

내 마음 안 알아주는 망할 컴퓨터 같으니 [5]

쾌활한_하얀_고래 2022.11.08 215 3

그림 밑에 친절하게 하이퍼네트워크 융합 알려준대로 했는데 잘 된건가? [1]

못된_핑크_양 2022.11.08 321 1

webui 확장 어케 쓰는거지

순박한_남색_올빼미 2022.11.07 312 0

정보 하이퍼네트워크 순차/병렬 적용로 그림체 섞기(예시파일있음) [3]

쿨한_주황_코끼리 2022.11.07 1144 4

하이퍼네트워크 optimizer 상태 저장 이거 맞냐??? [2]

시크한_남색_돌고래 2022.11.07 177 1

웹유 학습방법 [2]

건방진_초록_익룡 2022.11.07 357 1

전체글 개념글