Text Encoder 학습도 고려해볼만 한 것 같음 - AI그림 학습 채널

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8787명 알림수신 125명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 Text Encoder 학습도 고려해볼만 한 것 같음

추천 5 비추천 0 댓글 8 조회수 1150 작성일 2024-01-06 09:02:13

https://arca.live/b/hypernetworks/95980662

요즘 SD1.5 베이스 모델에 파인튜닝하면서 여러가지 테스트해보고 있는데

Text Encoder 학습도 고려해볼만한 옵션인 것 같아서 올려봄.

보통 Text Encoder는 학습할 때 훈련하지 않는 게 일반적이지?

Stable Diffusion 1.5는 CLIP의 Text Encoder를 그대로 가져와서 사용하는데,

Text Encoder는 따로 학습시키지 않고 CLIP이 만들어내는 결과에 Unet이 맞춰지는 방식으로 주로 학습함.

NAI1(animefull)도 따로 Text Encoder는 학습하지 않은 것 같음.

그런데 직접 학습시키면서 실험해보니까

태그 형식의 프롬프트 입력을 가정한다면, Text Encoder 학습도 꽤 괜찮은 옵션 같음.

특히 베이스 모델을 만드는 대규모 파인튜닝에 있어서는 모델 성능 향상에 도움을 꽤 줄 수 있을 것 같음.

아래는 실험해본 결과물들임.

SD1.5 BASE에 Danbooru에 올라온 그림 5천장으로 40epoch까지 파인튜닝하면서 생성한 결과들임.

태그는 Danbooru의 태그(_제외)를 사용해서 학습시켰음.

자연어나 비교적 일반적인 태그들에서 실험한 결과는 Text Encoder를 학습시키나 학습시키지 않나 결과가 비교적 고만고만하지만

(위의 1girl, blonde hair, purple eyes, hands on chest),

캐릭터 이름처럼 비교적 특수한 태그─CLIP학습시 데이터셋에 미량만 있었을 태그들─ (ex.hatsune miku)나

Danbooru에 비교적 많이 등장하는 태그(ex.cat ears)들로 생성한 그림들에서는

그 차이가 매우 뚜렷하게 나타남.

hatsune miku쪽에서는 Text Encoder를 학습한 쪽의 퀄리티가 훨씬 낫고,

cat ears쪽에서는 특히 아니메 게열 그림체로 제대로 튜닝되었음.

cat ears에서 Text Encoder를 학습시키지 않은 쪽은, 진짜로 실제 고양이 모습이 나와버리기도 함.

전체 데이터셋에 hatsune miku나 cat ears 태그의 비중이 그렇게 많은 것도 아님.

hatsune miku는 5000장 중 33장(0.66%), cat ears는 150장(3%)정도임.

전체 데이터셋에서 차지하는 비중이 적더라도 그게 Danbooru에 있는 특수한 태그라면,

Text Encoder를 학습하는 것으로 저정도 차이를 보여줄 수 있음

이런 결과를 봤을때,

SD1.5 BASE의 Unet이 CLIP에 이미 맞춰져있기 때문에, 아니메 파인튜닝이 잘 안되는 거라고 생각함.

물론 데이터의 양을 늘리고, 학습량을 늘리면 Unet학습만 해도 계속 변하기는 하겠지만,

어차피 파라미터 수는 정해져 있고 아니메 계열 특화 베이스 모델을 만드는 거라면

Text Encoder까지 Danbooru형식 태그에 맞춰서 학습시키는 게 좋을 것 같음.

특히 SDXL은 아직까지 제대로 된 모델이 없는데,

범용성 있는 아니메 베이스 모델을 만든다면 Text Encoder까지 같이 학습시키는게 좋을듯.

SDXL은 Text Encoder가 2개인데, 하나는 자연어로 놔두고, 하나는 단보루 태그로 학습시켜는 방식도 생각해봤음.

NAI3는 엄청난 캐릭터, 아티스트 태그 인식력을 보여줌.

물론 모델 규모에서 오는 차이도 있겠지만,

이번엔 SDXL의 Text Encoder를 학습시켜서 이 정도 성능이 나오는 거 아닐까 싶기도 함.

실제로 SDXL BASE보다는 자연어 태그 인식률이 떨어지기도 했음.

사실 SD1.5는 이미 거의 다 animefull기반으로 학습되어 있고

SDXL은 파인튜닝 컷이 높아서

누가 쓸까 싶겠냐만

요즘 NAI3보고 저런거 어떻게 만들었나 궁금해서

여러가지 테스트하던 와중에 좀 의미 있는 발견같아서 써봄.

댓글

2024-01-06 13:52:25

*수정됨

SD 1는 TE도 학습하는것이 기본값으로 기억하는데 아닌가...?

펼쳐보기▼

2024-01-06 17:49:58

지금 보니까 그러네..?
SD1.5랑 animefull은 text encoder를 CLIP 그대로 사용해서 안쓰는게 기본인줄...

펼쳐보기▼

2024-01-06 17:58:51

근데 소규모 파인튜닝에서 text encoder를 학습시키는게 좋을지는 모르겠음.
아마 학습 데이터에 과하게 맞춰지면서 오히려 프롬프트 인식력이 떨어질 것 같기도 한데...

펼쳐보기▼

2024-01-07 14:14:14

ㅇㅇ 그래서 텍스트 인코더 손상을 최소한으로 막으려고 hcp에서 pivotal tuning이라는 걸 쓰기도 하더라

펼쳐보기▼

2024-01-07 18:46:36

찾아보니까 이걸로 학습된 로라도 있고 실제로 쓰여지고 있는 기술이네 ㄷㄷ
비슷한 고민을 한 사람들이 있었구나... 더 알아봐야겠다 ㄳㄳ

펼쳐보기▼

2024-01-07 00:54:58

요즘은 로라도 text encoder를 학습시키는 쪽으로 진행하고 있습니다.
단 full training(Full fp16 training 또는 Full bf16 training)이 필요한 것 같습니다.
특히 SDXL은 full training이 필수적이라는 의견이 많습니다. 
해결되지 않은 문제도 믈론 있습니다. G와 L중에서 G가 더 효과가 큰 clip인 것 같은데, 로라 학습시 어떤 clip이 학습되는 지 확실하지 않습니다.

팁으로 4090도 TE까지 학습시키면 VRAM이 부족합니다. 그래서 기존 BitsAndBytes 를 제거하시고 (pip uninstall bitsandbytes)
새로운 윈도우용 bitsandbytes-windows를 설치하시는 것을 권해드립니다. (pip install bitsandbytes-windows)

펼쳐보기▼

2024-01-07 01:57:53

오.. 로라도 text encoder를 학습시키시나요?
bitsandbytes 버전을 바꾸면 VRAM 절약되는건 몰랐네요. 한번 가서 시도해볼게요 ㅎㅎ

펼쳐보기▼

2024-01-07 05:49:35

맞습니다. 그런데 KOHYA_SS에서 아직 옵션의 구현이 다 되지 않고 있습니다.

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 정보 그림 드림부스 임베딩 하이퍼

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28082048

공지 파딱 마음대로 작성한 AI그림 학습 채널 규정 - [24-01-24]

포리X 2023.10.29 1971

공지 [리퀘스트] 탭이 추가되었습니다.

선한_하얀_사자 2023.02.10 3372

공지 신문고

Anon 2023.02.21 3165

공지 각종 학습파일 적용법

거만한_보라_달팽이 2023.01.24 39273

공지 그림 학습법 모음

거친_핑크_외계인 2022.10.30 72262

숨겨진 공지 펼치기(1개)

488 이미지 한장으로 학습 & 영상뽑기 (roop-unleashed) [13]

ㅇㅇ 2024.04.19 1285 11

487 정보 아주 간단한 underfit, overfit 판단 방법 [5]

Dalcefo 2024.04.16 735 9

486 정보 뉴비가 쓰는 데이터셋 50장 미만으로 로라 만드는 법 [6]

ㅇㅇ 2024.04.12 1947 35

485 정보 챈이 반 죽어서 쓰는 학습률 설명 [3]

딸기맛봇치 2024.02.29 1840 9

484 정보 Stable Cascade kohya_ss LoRA CUI 학습 사용법 [19]

포리X 2024.02.20 2028 6

483 나도 AI출력물로 AI학습해봤는데 [6]

비비빛 2024.02.14 2046 12

482 정보 인텔 Arc A770 16GB SDXL 학습 간단 후기 [14]

포리X 2024.01.30 1316 5

481 Animagine XL V3와 Pony Diffusion V6 XL의 캐릭터 학습 간단 후기 [15]

포리X 2024.01.21 1904 5

480 정보 webui 1.7.0 버전 wd tagger 속도 빠르게 하는방법 [4]

유찌 2024.01.17 1324 6

479 정보 Text Encoder 학습도 고려해볼만 한 것 같음 [8]

Rainfrog 2024.01.06 1151 5

478 그림 sakifox 작가 Gosuzun 로라 만들어 봄 [1]

ㅇㅇ 2024.01.09 1260 5

477 정보 AI 출력물로 학습데이터 재활용 4 [2]

몬TDAI 2023.12.20 1861 5

476 정보 공지에 있는 로라 학습법에 오류가 있고, 공지대로 했으면 저사양로라를 쓰고 있는거임. [12]

바이오틴 2023.12.13 2039 10

475 정보 아래 의상 학습한사람이 쓴 의상학습법 [6]

ai 2023.11.07 1762 6

474 정보 자료가적은 학습 방법 (1장+) [5]

ai 2023.11.08 3737 11

473 정보 슬라이드 LoRA (복사기 LoRA)를 만드는 방법 [11]

포리X 2023.10.17 2517 11

472 SDXL 로라 성능 걍 미쳤음 [23]

Rainfrog 2023.08.16 5009 6

471 정보 로라 학습법의 모든 것. [8]

serina 2023.08.19 13534 13

470 정보 KOHYA_SS 에서 triton 에러 메세지 제거 방법 [11]

엑시옴 2023.08.15 1802 11

469 정보 SDXL 1.0 kohya_ss LoRA GUI 학습 사용법 (12GB VRAM 기준) [37]

포리X 2023.07.29 11331 7

468 정보 로라 학습 코랩 사용법 (초보 대상) (+ 학습 코랩 한글화 공유) [11]

해머임팩트 2023.07.17 3394 12

467 정보 [실사로라6|심화학습5] weighted caption은 진짜 효과가 있나? [8]

엑시옴 2023.07.10 2764 5

466 정보 SDXL 0.9/1.0 kohya_ss LoRA CUI 학습 사용법 (12GB VRAM 기준) [5]

포리X 2023.07.11 3025 5

465 [실사로라7|응용학습1] 그림 한 장으로 로라 만드는 과정 [11]

엑시옴 2023.07.07 4609 10

464 하이퍼 요즘 뜬금없이 하이퍼네트워크 질문이 늘어나고 있네 [1]

포리X 2023.06.13 1541 9

463 [실사로라5|심화학습4] clip skip은 얼마로 로라를 만들어야 할까? [13]

엑시옴 2023.06.06 2432 9

462 [실사로라2|심화학습1] Train batch size - 배치를 올리면 Learning rate를 같이 올려야 한다고?응 맞아. [19]

엑시옴 2023.05.31 2257 6

461 정보 [실사로라3|심화학습2] 데이터 가공과 퀄 [19]

엑시옴 2023.06.02 6599 13

460 정보 [실사로라1|모든 과정] 실사로라 만드는 과정 전부 - xRica 님의 실사로라 캠페인 참여 [26]

엑시옴 2023.05.28 14037 21

459 정보 BRA v5 모델이 실사로라의 베이스 모델로 아주 좋음 [17]

엑시옴 2023.05.19 4172 10

458 정보 코이카츠 그림체 lora를 통한 자캐 lora 학습 단순화 [4]

ㅇㅇ 2023.04.23 3765 11

457 정보 civitai에 올라온 로라 학습법 [11]

ai 2023.04.19 13675 16

456 로라 블록 (혹은 레이어) 학습 - 필요한 것만 중점적으로 학습시킬 수 있을 지 [15]

엑시옴 2023.04.15 2457 5

455 정보 학습 모델 5개 비교 [7]

머팔로 2023.04.05 5571 7

454 LORA 학습을 위한 KOHYA가 업데이트 되면서 특정 블록만을 지정해서 학습시킬 수 있다고 하는 데, HOXY 해보신 분? [23]

엑시옴 2023.04.05 4116 14

453 정보 학습 해상도 차이 및 태그 정제 유무 비교 [20]

머팔로 2023.04.01 5339 19

452 정보 누군가는 궁금할 수 있었던 그 그림체 로라 학습세팅 [16]

까나리아 2023.03.31 6590 13

451 정보 로라 학습 간단 팁 - 1 [10]

asde31c 2023.03.26 8447 10

450 장사꾼들은 좀 꺼져라 [4]

Anon 2023.03.22 2948 22

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.