하이퍼네트워크 원리 및 Textual Inversion과의 비교

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8808명 알림수신 126명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 하이퍼네트워크 원리 및 Textual Inversion과의 비교

굼뜬_분홍_사슴

추천 8 비추천 0 댓글 22 조회수 2486 작성일 2022-11-10 16:01:28 수정일 2022-11-11 10:27:23

https://arca.live/b/hypernetworks/62685474

이 그림을 봐도 뭔소리인지 모르겠다면 아래 링크가 조금은 친절하게 설명해줌

stable diffusion 모델 원리 학술적 대충 설명 - AI그림 채널 (arca.live)

사실 나도 어제까진 막연하게 하이퍼네트워크 그거 그냥 출력이미지를 input, 학습이미지를 output으로 놓은 단순 CNN 모델 아닌가? 라고 생각했는데

찾아봤더니 Textual Inversion이랑 사실 거의 비슷한 원리더라

Textual Inversion (임베딩 훈련) 의 원리 및 탐구내용 - AI그림 학습 채널 (arca.live)

위의 훈련 원리에서 설명 안한 부분이 있는데, 프롬프트의 정보를 지닌 임베딩이 어떤 방식으로 모델에 들어가서 영향을 주는지에 대한 설명을 안했다.

노이즈를 이미지로 역산하여 바꿔주는 마법의 모델으로는 U-NET이 사용되는데, 이 모델 안에는 '어텐션 레이어'가 존재한다. Q, K, V는 각각 Query, Key, Value를 뜻하는데, 사실 논문을 봐도 어텐션 자체가 ㅈ나 복잡한 내용이라 원리를 풀어 쓰기가 어렵다. 대충 임베딩의 정보로부터 그림을 어떻게 그려야 하는지 파악하는 부분이 여기라고 보면 된다. 프롬프트에 red eyes라고 치면 얼굴의 이쪽 부분에 눈이 있으니까 여기에 빨간색을 얹어야겠지? 해주는게 어텐션 레이어라고 보면 되겠다. (옷을 다 입고 있어도 nipples라고 치면 유두가 튀어나오는것도 이런 이유 때문이다)

Textual Inversion은 역산 과정에서 U-NET과 원하는 임베딩을 제외한 나머지 임베딩 레이어를 잠궈서 오로지 원하는 임베딩 값만 바뀌도록 한다.

그렇다면 하이퍼네트워크는 어떨까?

하이퍼네트워크는 임베딩 값을 input, 어텐션 레이어의 K, V를 output으로 하는 새로운 모델이다.

어텐션 레이어 중간에 들어감으로써 작은 네트워크의 weight로 큰 네트워크의 weight 조절을 이끌어내는 'hyper' network이다.

그래서 역산할때도 하이퍼네트워크를 제외한 나머지 부분들을 다 잠궈서 하이퍼만 학습되도록 하는 것이다.

따라서 이론상으로는 하이퍼가 Textual inversion(임베딩 훈련)보다 더 뛰어나긴 하다.

임베딩 훈련은 어텐션 레이어를 고칠 수가 없어서 아무리 임베딩이 뛰어나도 어텐션 쪽이 병신이면 아무것도 못하지만, 하이퍼는 어텐션 레이어를 고쳐서 주어진 임베딩 값으로부터 더 훌륭한 이미지(훈련 이미지)를 얻어내는 법을 학습할 수 있기 때문이다.

하지만 이것이 시사하는 바 또한 많다.

예를 들면 항상 임베딩의 단점으로 지적되는게 '모델이 배운적이 없는 것은 나타나게 할 수 없다'라는건데, 이건 하이퍼에도 똑같이 해당된다. 못믿겠다면 F222 모델에 하이퍼 돌리고 제대로 나오는지 보면 된다. 당연히 안나오지, 그건 UNET의 어텐션 레이어 이외의 다른 요소들 때문이니까... 그러니까 하이퍼를 통해서 새로운 스타일을 발굴해냈다면 그건 사실 모델이 표현할 수 있었던 범위에 있던 이미지인 것이다. 단지 CLIP 텍스트 모델이 훈련이 덜 되어있어서 찾지를 못했을 뿐.

그리고 하이퍼네트워크는 임베딩 훈련과 반대로 프롬프트 임베딩 정보를 수정할 수 없기 때문에, 태그에 이상한게 들어가거나 태그 자체가 학습이 덜 된 태그라면 그게 하이퍼네트워크의 성능을 떨어트릴 수 있다. 하이퍼는 내가 실험을 잘 안해봐서 태그가 많을수록 좋은지, 적을수록 좋은지는 확실하게 얘기는 못하겠지만 일단 이상한 태그가 들어가면 안된다. DeepDanbooru를 쓰면 가끔 SD가 모르는 캐릭터 태그들이 입력되는데, 캐릭터 태그는 왠만하면 거르고 머리모양, 머리색, 눈색, 옷 정도로만 표현하도록 하자.

마지막으로 하이퍼는 방식 자체가 과적합에 매우 취약하다. 어떠한 임베딩이 들어오든 훈련 이미지에 맞게 조절해야 하니까, 과하게 학습된다면 임베딩보다 그냥 그림 자체를 통째로 외워버리고 만다. 그래서 NovelAI는 페널티를 많이 줬다고 블로그에 썼고, 우리는 Dropout을 쓸 수 있게 되었다. Dropout 꼭 써라. 나중에 Dropout 수치를 바꿀 수 있다면 0.5, 0.7 같은 큰 수치를 넣는것도 나쁘지 않을거라고 봄.

1벡터 임베딩도 성공했으니 하이퍼도 돌려볼까...

댓글 [22]

겸손한_빨간_여우

2022-11-10 16:18:39

그럼 하이퍼로 캐릭터 학습시킬때 딥부루 돌린다음에 캐릭터 이름태그 새로 만들어서 넣으면 안됨?
다른 태그들로 유도만 해야하나

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 16:23:41

하츠네 미쿠, 하쿠레이 레이무 급으로 엄청 잘나오는 애들 아니면 오히려 학습에 방해된다는거

펼쳐보기▼

겸손한_빨간_여우

2022-11-10 16:24:49

*수정됨

마이너한 캐릭은 안되는구나.. 빼고 다시 해봐야겠다 2일동안 계속 실패해서 좀 좌절이였는데 빼고하면 나을려나

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 16:38:11

만약에 이름이 다른 캐릭터나 컨셉과 겹쳤다면 실패의 이유가 될수있긴한데
그것말고도 하이퍼는 실패하기 쉬워서...

펼쳐보기▼

선한_보라_오징어

2022-11-10 16:50:58

난 캐릭터 이름이나 게임 같은 건 다 빼고 하긴 함

펼쳐보기▼

굼뜬_핑크_개구리

2022-11-10 16:26:29

존나 봐도모르겟다 ㅋㅋ

펼쳐보기▼

굼뜬_핑크_개구리

2022-11-10 16:28:53

결론적으로는 필요없는태그를 쳐내지않으면 효율이 개씹 죶박으니 간략화 잘해서 잘 돌려야 잘배운다 오래돌리면 과적합 쉽게나니까 조심해라 그리고 드림부스 쓸수있음 그걸써라 그건가?

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 16:40:33

ㅇㅇ 드림부스는 정규화 이미지 덕분에 여러모로 훈련 망하는걸 잘 막아줌. 근데 드림부스는 그림체보단 캐릭터 훈련에 최적인듯

펼쳐보기▼

못된_갈색_상어

2022-11-10 16:46:13

드롭아웃 수치 조절 지금은 수동으로못하나 0.5까지는올리고싶은데

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 16:47:05

PR 올라왔던거 같은데

펼쳐보기▼

엉뚱한_밤색_쭈꾸미

2022-11-10 17:00:42

머야 내가 알던 U-Net은 걍 효율적인 CNN 모델이었는데 여기에 Attention이 들어가 있네
이 설명대로라면 hidden state인 key랑 value만 조절하는 건데, 그럼 인코더가 쌓여 있는 형태에서 hypernetwork를 upstreaming task 끝에 놓는 거임? BERT 트레이닝 하듯?

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 17:07:45

Unet 인코더에 어텐션 레이어가 여러개 들어가있고 각각 하이퍼가 끼워지는 방식임

펼쳐보기▼

엉뚱한_밤색_쭈꾸미

2022-11-10 17:25:38

*수정됨

U-Net 논문 Attention gate 설명 읽어봤는데, 그럼 hypernetwork가 그 U-Net에서 skip connection을 할 때 activation vector 값을 건드려서 concat되는 relevant한 값을 바꿀 수 있다는 건가?내가 잘 이해를 한 건가 몰겠음ㅋㅋ

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-10 22:53:42

엉뚱한_밤색_쭈꾸미

2022-11-11 04:56:19

엉뚱한_밤색_쭈꾸미

2022-11-11 05:02:48

글고 질문 하나만 더... 드림부스나 anything처럼 모델(ckpt)이 바뀐다는 건 결국 𝛕(𝜽) 인코더 단에서 변화가 있다고 보는게 맞을까? 
그렇다는 건 U-Net의 Cross Attention은 인코더 단과는 독립적이니 hypernetwork는 모델에 상관없이 일관적인 출력을 뽑을 수 있는 거고?

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-11 06:49:32

드림부스 같은 fine-tuning 방법은 위의 방식에서 u-net 전체에 대한 gradient를 역전파해서 맞추는거니까 𝛕도 바뀌겠지?
그리고 Cross Attention은 인코더 안에 포함되있는거니까 완전히 독립적이라고 보긴 어려울듯

펼쳐보기▼

엉뚱한_밤색_쭈꾸미

2022-11-11 07:20:06

못된_갈색_상어

2022-11-10 17:14:28

나도 원리 궁금해서 찾아볼려했는데 걍 진짜 뭐라하는지 모르겠는데 이건 좀이해간다 고맙다... 그래도 모르겠다 ㅋㅋ

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-11 06:49:42

기쁜_분홍_하마

2022-11-11 09:18:53

*수정됨

글 정말 잘 봤어 근데 qkv에서 v는 value인 것 같아

펼쳐보기▼

굼뜬_분홍_사슴

2022-11-11 10:27:10

ㅋㅋㅋ 졸려서 잘못썼다

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 정보 그림 드림부스 임베딩 하이퍼

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 29113996

공지 파딱 마음대로 작성한 AI그림 학습 채널 규정 - [24-01-24]

포리X 2023.10.29 2161

공지 [리퀘스트] 탭이 추가되었습니다.

선한_하얀_사자 2023.02.10 3459

공지 신문고

Anon 2023.02.21 3241

공지 각종 학습파일 적용법

거만한_보라_달팽이 2023.01.24 39821

공지 그림 학습법 모음

거친_핑크_외계인 2022.10.30 73131

숨겨진 공지 펼치기(1개)

정보 드림부스의 이론 및 주저리 [10]

즐거운_초록_벌 2022.11.11 4016 20

WD 1.4 절망편으로 나오면 웃기겠네 [3]

정중한_은색_돌고래 2022.11.11 302 3

며칠째 찾고있는 하이퍼가 있는데 물어봐도 되나 [8]

느긋한_까만_비둘기 2022.11.11 2111 0

그림 임베딩+인페인팅 [5]

당당한_남색_북극곰 2022.11.11 378 1

정보 버클리 공대의 디퓨전 학습/파인튠 최적화 프로젝트 [10]

흉악한_노란_앵무새 2022.11.11 1117 13

드림부스 학습 시킨거 왜 견본사진 이랑 비슷하게 나오는지 이제 알았넴... [1]

불행한_청록_양 2022.11.11 172 1

드림부스 코랩 subprocess 오류 해결법 아는 사람 있나 [8]

소심한_청록_까마귀 2022.11.11 176 1

정보 드림부스 repeat 횟수에 대해서

기쁜_파란_오징어 2022.11.11 447 2

좀 찐하고 난리치는 애로 학습하니깐. . . [9]

훈훈한_남색_곰 2022.11.11 263 2

드림부스 여러캐릭은 학습 못시킴? [7]

시크한_밤색_원숭이 2022.11.11 229 0

그림 드림부스 개쩌네 해상도 올리니까 디테일이 좋아지는듯 한데? [2]

야무진_청록_고래 2022.11.11 386 1

확살히 그림체 독특하면 하이퍼 잘되는기분임 [2]

즐거운_갈색_잠자리 2022.11.11 263 0

정보 얘들아 tf32 연산 지원되는 글카는 이 설정 무조건 해라 9장 4초컷남 [5]

순박한_노란_병아리 2022.11.11 461 1

내 이름은 뭘까 [3]

쿨한_남색_닭 2022.11.11 133 0

나만 이미지 생성에 걸리는 시간보다 webui로딩 시간이 더 기냐?

못된_보라_말 2022.11.11 364 0

우효~ 샘플 조지는 중~ [6]

시시한_핑크_코알라 2022.11.11 172 0

만든 하이퍼 싹다 나열해봤음 [5]

훌륭한_초록_말 2022.11.11 303 1

근데 생각해보니까 ㄹㅇ 개꼽네 [3]

못된_노란_토끼 2022.11.11 179 0

계속 실패하지만 괜찮다 중요한건 꺽이지않는 마음 [1]

쌀쌀한_갈색_호랑이 2022.11.11 130 0

아무도 안하는 임베딩 실험중

걸걸한_남색_올빼미 2022.11.11 156 0

webui에 생긴 드림부스 옵션 알려줄 사람 혹시 있어? [14]

분노한_초록_코끼리 2022.11.10 317 -3

그림 중국 일러레 드림부스 학습 [3]

쓸쓸한_주황_갈매기 2022.11.10 650 2

혹시 이 에러 알겠는 챈럼 있음? [8]

상냥한_남색_캥거루 2022.11.10 931 1

정보 하이퍼네트워크 원리 및 Textual Inversion과의 비교 [22]

굼뜬_분홍_사슴 2022.11.10 2487 8

그림 드림부스 학습 끝 [1]

까칠한_갈색_나비 2022.11.10 498 1

정보 ShivamSharo / TheLastBen 코랩 드림부스 초간단사용법 [35]

센치한_노란_까마귀 2022.11.10 15586 20

web-ui쓰다보면 PT파일 저장폴더가 어디임? [2]

소심한_빨간_오징어 2022.11.10 1418 0

뉴비 임베딩 처음으로 학습 성공 시킴 [3]

섬세한_청록_쭈꾸미 2022.11.10 359 4

밑에 저 GUI 드림부스 돌려본 사람 있음? [2]

쌀쌀한_남색_쥐 2022.11.10 123 0

뭔가 하이퍼넷 학습 시키고 분류 하는 작업이 더 존나 빡센거같은데 [3]

한심한_갈색_비둘기 2022.11.10 196 2

그림 수아보고싶다해서 뽑는 예시태그 [11]

야무진_주황_기린 2022.11.10 673 1

햇갈려서 그런데 학습전 VRAM 옵션항목설정 [3]

대범한_하얀_병아리 2022.11.10 165 0

데이터셋 이미지에 얼굴말고 몸부분 넣어도 됨? [5]

엉뚱한_파란_닭 2022.11.10 376 1

프롬으로 눈뒤집기 힘든데 [1]

쿨한_갈색_오리 2022.11.10 194 0

하이퍼 정제부분만 추가 가이드... [11]

솔직한_노란_외계인 2022.11.10 603 6

전체글 개념글