LoRA에서 rank는 얼마가 적당할까?

AI 그림 채널

채널위키 알림 알림 중 알림 취소

구독자 74642명 알림수신 1651명 @NO_NSFW

인공지능으로 제작한 그림을 자랑하고 정보를 공유하는 채널

정보 LoRA에서 rank는 얼마가 적당할까?

ㅇㅇ

추천 23 비추천 1 댓글 33 조회수 10205 작성일 2023-02-04 11:14:13

https://arca.live/b/aiart/69024839

솔직히 말하면 그냥 적정 값은 만드는 사람 맘임 ㅇㅇ, 너가 만든 LoRA가 최고야

그렇지만, 한번 알아보려고 한다.

글 가장 밑에 사용된 LoRA 링크 있음

오늘 학습 대상으로 삼은 캐릭터는 아그네스 타키온(말딸)로 캐릭터 특징을 먼저 짚어본다면,

여자, 말 귀, 바보털, 적색 눈, 눈 사이의 머리, 갈색 단발, 오른쪽 귀에 퓨린 장식(왼쪽에 달리면 안됨) : 필수 특징

+ 레이스 복장으로 실험실 코트, 소매가 긴 코트, 노란색 스웨터, 스웨터 안쪽에 검은 셔츠, 검은색 짧은 넥타이, 스타킹, 하이힐, 등등

+ 짤엔 없지만 일상복으로 보라색 셔츠를 입고 있다.

따라서 학습을 진행할 때 agnes tachyon \(umamusume\)의 태그에다가

말 귀, 말 꼬리, 바보털, 적색 눈, 눈 사이의 머리, 갈색 단발, 오른쪽 귀에 장식을 학습을 시킬 것이기 때문에 필수 태그들은 txt에서 지우고 진행할 것임

-> 이건 그냥 선택사항임. 캐릭터 LoRA로 할 거라 캐릭터 이름만 치면 되게 하려고

예시)


1girl, solo, animal ears, brown hair, horse ears, necktie, labcoat, hair between eyes, ahoge, smile, shirt, white background, looking at viewer, black necktie, red eyes, simple background, black shirt, collared shirt, upper body, short hair, closed mouth, horse girl, blush, bangs, single earring, earrings, sweater vest, sweater, twitter username, jewelry, coat	->	agnes tachyon \(umamusume\), solo, labcoat, smile, white background, black necktie, simple background, black shirt, collared shirt, portrait, closed mouth, blush, sweater vest

볼드체 = agnes tachyon \(umamusume\)으로 대체됨

twitter username은 그림자 때문인듯?그리고 upper body와 portrait는 하나만 쓰게 수정함

0. 학습 설정

args와 bold체로 써진 옵션들은 자신의 상황에 따라 바뀌는 옵션들

---- training setting constants--------

total 128 images. 10x 32 images, 20x 32 images, 40x 32 images, 80x 32 images

=> 1 dataset = 4800 images

batch = 4

=> 1200 steps / 1epoch, 10 epochs, 12000 steps 학습

unet lr = 1e-5, textencoder lr = 5e-6

scheduler = constant_with_warmup, warmup_step = 1200 steps(10%)

mixed_precision = save_precision = fp16

args = --cache_latents --gradient_checkpointing --max_token_length=150 --shuffle_caption --xformers --use_8bit_adam

CLIP = 1, enable_bucket

NO flip ('오른쪽 귀'에 장식이 특징이기 때문에)

Base model : Animefull-pruned (NAI)

---- training setting variables ----

network dimension(rank) = 4, 16, 64, 128

network alpha = 1, 4, 16, 32

------------------------------------

사용된 프롬프트

공통	masterpiece, best quality, agnes tachyon \(umamusume\),
	기본값	승부복	일상복
	upper body	labcoat, white coat, sweater vest, yellow sweater, black necktie, sleeves past wrists, sleeves past fingers, black pantyhose, high heels,	necklace, purple off-shoulder shirt, bare shoulders,
부정	(worst quality, low quality:1.4)

사용된 프롬프트 구성은 [공통] + ([기본값]|[승부복]|[일상복]) + [부정]

이미지 출력 모델 : AbyssOrangeMix2-hard

VAE : kl-f8-anime2

DPM++ SDE Karras, 20steps, CFG 6.5, 512*768, seed 2489242838, eta 0.2, CLIP skip=1

더 자세한 사항은 exif 참고

------------------------

컴퓨터를 열심히 굴려서 학습을 완료했다. 밑에 예시와 함께 보자

1. alpha = 1. rank varies (r=4, 16, 64, 128)

network dimension	기본값	승부복	일상복
r=4 (4.6MB)
r=16 (18MB)
r=64 (72MB)
r=128 (144MB)

말 귀, 바보털, 적색 눈동자, 오른쪽 귀의 특징이 agnes tachyon \(umamusume\)만 써도 나오는 것을 보니 특징은 잘 잡아 학습했지만

rank가 높아질수록 승부복에선 노란색 스웨터 안에 검은 셔츠를 입지 않음이 보임

이 글에서 알 수 있다시피, kohya_ss 방식에선 alpha값을 조정하지 않으면 높은 rank에서 학습률이 토막나 제대로 학습이 되지 않는다.

더군다나 나는 lr=1e-5로 대부분 1e-4근처의 학습률을 사용하는데 그것보다 더 낮은 학습률이다 보니 이런 점이 부각되어 보임.

그래서 alpha값들을 조정해 α/r = 1/4 = scaling로 고정하고 다시 학습을 해봤음.

2. scaling = alpha / rank = 1/4. alpha and rank vary.

(rank=4, alpha=1), (rank=16, alpha=4), (rank=64, alpha=16), (rank=128, alpha=32)

network dimension	기본값	승부복	일상복
r=4 (4.6MB) alpha = 1.
r=16 (18MB) alpha = 4.
r=64 (72MB) alpha = 16.
r=128 (144MB) alpha = 32.

scaling을 1/4로 정한건 rank=4랑 똑같은 scaling을 해주기 위해서 고정한 거임

이젠 높은 rank에서도 승부복을 잘 표현했지만, 클릭해서 보면 살짝 뿌옇게 보인다.

당연히 learning rate가 1e-5이지만 10epochs나 해서 과?적합스러운 결과를 보여주는 것이 당연함.

LoRA 가중치를 낮춘다고 해결되진 않았으나 다른 방법으로 해결할 방법이 있으니, CFG scale을 조정함으로써 해결이 가능하다.

3. CFG Scaling

network dimension	기본값 CFG=6.5	기본값 CFG = 5	기본값 CFG = 3.5
r=4, alpha=1.
r=16, alpha=4.
r=64, alpha=16.
r=128, alpha=32.

스케일을 적절히 낮추니 높은 rank에서도 그림이 깨짐 없이 잘 나온다.

솔직히 오른쪽 귀에 작은 퓨린 장식은 손가락도 제대로 못 그리는데 오각형-육각형 서순에 맞게 잘 그릴 것이라고 기대도 안 하긴 했음

사용된 그림들 구도에 따라 오른쪽에서 보면 장식이 안 보일 수도 있고

4. 그래서 왜 이 글을 작성하게 되었나

rank 수에 따라 캐릭터 특징을 잡는 퀄리티가 차이가 있어 보임?

rank=4에서 귀를 3개나 그리는 찐빠가 있지만, 시드가 고정된 그림이라 발생한 문제고 밑에 짤들을 한번 보셈

scaling이 고정된 LoRA 4개로 각각 짤 4개를 뽑고 임의로 섞었음. 시드도 섞었고

위에 16개 중에 rank를 구분 가능할 수 있을까? 정답은 exif에 있으니 한번 맞춰보길 바람 ㅎㅎ

그래서 내 결론은 뭐냐

1. alpha값에 대해

그냥 rank값으로 고정하고 learning rate를 적절히 잘 수정을 해주는 게 편하다.

하는 일은 학습 시 scaling말곤 없으니 골아프게 hyperparameter 숫자 늘릴 이유가 있나 싶음

그리고 어차피 학습 안되면 학습 자료나 learning rate부터 수정할 거잖아.

다만, alpha를 기본값인 1로 설정 하면 learning rate를 더 높게 설정해줘야 하는 건 잊지 말고

2. rank값에 대해

위에서 4나 128로 만든 것의 차이가 보이면 자신이 선택한 숫자로 하면 되지만

구분을 못하면 굳?이 rank값을 높여서 용량 낭비를 할 이유가 있을까? 낮은 rank에서도 특징을 잘 잡는데

rank=4는 4.7MB로 좀 고화질 이미지 크기고 rank=128은 144MB로 32배정도 더 큼

3. 사용된 LoRA들

https://mega.nz/folder/wJMnlSKK#v2cPD9SaFIMNPW4nZCNYtQ

끝.

화인즈

2023-02-04 11:21:31

여캥이

2023-02-04 11:22:52

DaVi

2023-02-04 11:36:04

캐릭터는 rank 높일 이유 없다고 생각함. 근데 화풍이나 컨셉은 rank 너무 낮으면 어렵지 않을까 싶은데…

펼쳐보기▼

ㅇㅇ

2023-02-04 11:36:46

누가 해주겠지~

펼쳐보기▼

DaVi

2023-02-04 11:39:06

컴퓨터 성능이 낮아서 실험해보고 싶은데 너무 힘들다… 4090가진 사람들이 열심히 해야한다 ㅠㅠ

펼쳐보기▼

ㅇㅇ

2023-02-04 11:41:53

유대인

2023-02-04 11:45:15

랭크/알파  1/1 로 하는건 어케 생각함? 난 128/128로 하는데 보통

펼쳐보기▼

ㅇㅇ

2023-02-04 11:58:40

뭐가 됐든 고정해서 수정할 일을 줄이는 게 더 낫다고 생각함

펼쳐보기▼

유대인

2023-02-04 12:15:53

unet lr 말고 그냥 lr도 1e-5로함?

펼쳐보기▼

ㅇㅇ

2023-02-04 12:21:49

어차피 unet lr 지정하면 그냥 lr은 상관없음

펼쳐보기▼

유대인

2023-02-04 12:22:26

...? Unet learning rate 여기에 그냥 값만 들어가 있으면 그냥 lr은 무시 되는거였ㅇ너???

펼쳐보기▼

ㅇㅇ

2023-02-04 12:29:32

어차피 U-Net이랑 TextEncoder말곤 학습 안 하는데 각각 lr 설정하면 기본 lr은 무시되지

펼쳐보기▼

혼모노데스티니

2023-02-04 13:03:11

lora가 달라붙는 모델이 커지면 그에 상응해서 lora의 rank도 올려주는게 맞을듯.

펼쳐보기▼

금융도박전문가

2023-02-04 16:43:55

그냥 128 ㄱㄱ 커도 괜찮음.

펼쳐보기▼

니파오니

2023-02-04 17:26:28

nam

2023-02-04 18:03:33

*수정됨

dim 64 기준으론 alpha 64로 동일하게 맞추면 학습 무조건 터지던데 이건 왜 그런 거임? 동일한 값으로 맞추는 건 128일 때만 문제가 안 생기는 거야?

펼쳐보기▼

ㅇㅇ

2023-02-04 18:11:30

1. learning rate가 너무 높거나

2. 데이터 셋을 잘못 준비했든가

펼쳐보기▼

nam

2023-02-04 18:12:51

learning rate는 1e-4 ~ 1e-5로 거의 고정해서 하고있는데 이게 문제인가?
왠만큼 로라 학습 팁 관련해선 찾아보곤 있는데 아직도 learning rate랑 alpha에 대해선 잘 모르겠음

펼쳐보기▼

ㅇㅇ

2023-02-04 18:13:20

터진다는게 어떻게 된다는 건지 설명 가능함?

펼쳐보기▼

nam

2023-02-04 18:14:15

*수정됨

학습 과정 자체에 있어선 loss=nan 같은 건 안 뜨고 잘 종료되는데 로라 넣고서 이미지 생성하면 흔히 보이는 것마냥 텍스처 깨진 것처럼 그냥 완전 뿌옇게 나오거나 모자이크처럼 나오는 그런 현상

펼쳐보기▼

ㅇㅇ

2023-02-04 18:15:25

데이터는 어떻게 준비함?

펼쳐보기▼

nam

2023-02-04 18:18:13

*수정됨

학습할 이미지는 이미지 크기 자체는 딱히 신경써서 고정된 크기로 모으거나 하진 않고 학습 잘 되도록 나름대로 얼굴이나 팔 다리 안 짤리고 잘 보이는 걸로 골라서 20장에서 많으면 150장 정도 준비함. Max resolution은 512에서 크게 하면 768까지도 해보고.. 나같은 경우는 캐릭터 학습보단 그림체 학습을 하는 편임. 정규화 데이터는 할당 안 하고 있고

alpha는 1로 고정해둔 상태로 학습 진행하면 결과물에도 문제 없어서 이미지 생성도 잘 됨. 다만 그림체의 영역이라 그런지 학습이 잘 되었는 지는 아주 뚜렷히 구분이 잘 안 가긴 함, 그래서 alpha를 좀 어떻게 하면 학습이 여기서 더 잘 될 수 있을까 고민하고있는 단계

펼쳐보기▼

ㅇㅇ

2023-02-04 18:26:02

그림체면 캐릭터보단 학습률이 더 낮아야 할 것 같음. 그래서 alpha를 1로 두었을 때가 상대적으로 작은 학습률로 되니깐. alpha값을 network dimension과 같게 둔다면 learning rate를 1e-5 ~ 1e-6까지 낮춰야 alpha=1.때와 비슷하게 될 거임. 

뭐가 되었든 alpha값을 고정하고 learning rate를 조절하는 게 좋아보임

펼쳐보기▼

nam

2023-02-04 18:41:20

아 그림체 학습은 오히려 학습률이 낮아야 적절한 학습이 되는 거야? 하긴 네 말 듣고 생각해보면 학습률이 높으면 캐릭터 학습으로 어정쩡하게 변해버리니 오히려 안좋을 것 같기도 하네..
일단 그럼 다음 학습 때엔 1e-6으로 두고 dim이랑 alpha 동일 수치로 다시 한 번 학습 시도해봐야겠다. 답변 고마워!

펼쳐보기▼

여캥이

2023-02-04 21:33:36

검색해보면 고랭크와 저랭크의 차이는 PNG와 JPG의 차이 정도로 보면 될것 같습니다. 눈으로 보기에는 거의 차이가 없지만 미세한 퀄리티의 차이는 존재한다는 느낌으로 
고랭크의 lora를 저랭크의 lora로 압축(?)해주는 스크립트도 있는것 같네요

펼쳐보기▼

qwer

2023-02-05 03:06:21

한문철의블랙비트박스

2023-02-05 12:26:05

논문추

펼쳐보기▼

ㅇㅇ

2023-03-04 09:21:53

캐릭터 특징을 캐릭명으로 합칠때 태깅된 파일 하나하나 직접 수정해야함?
그 캐릭터가 마스크를 항상 쓰고다니면 mask 도 지워버리고 하는게 맞지만
가끔 mask 안나오게 하려면 알몸기준으로 특징만 집어넣어야하나?

펼쳐보기▼

ㅇㅇ

2023-03-04 09:39:56

Q. 캐릭터 특징을 캐릭명으로 합칠때 태깅된 파일 하나하나 직접 수정해야함?
A. 예스

Q. 가끔 mask 안나오게 하려면 알몸기준으로 특징만 집어넣어야하나?
A. 솔직히 말하면 '캐릭터성'이란 매우 주관적인 영역이라고 생각함.
개발사나 제작자, 아티스트가 지정한 부분을 베이스라인으로 둬야 한다고 생각함. 아트북과 같이 레퍼런스가 있다면 확실히 판단이 가능함.

또는, 마스크를 착용하는 것이 캐릭터가 가지고 있는 특유의 분위기에 필요하다고 하면 반드시 들어가야 하겠지만,
대부분의 경우는 의복이 필수적으로 캐릭터의 특성으로 분류되지는 않지만 케이스 바이 케이스의 경우가 많음.
내가 예시로 든 아그네스 타키온이라는 캐릭터를 예로 들면, 이 캐릭터를 누가 팬아트로 그렸는데
'오른쪽 말 귀에 퓨린 장식'이 없다면 '아그네스 타키온'이라는 캐릭터로 분류되지 않을 거임.

이와 같이 '의복 또는 장식이 반드시 캐릭터를 표현하는데 필수적이다'라면 태그를 지우고 캐릭터 태그에 합쳐야 할 것이고
그것이 아니라면 mask 태그는 남겨두는 것이 좋아 보임. 더해서 마스크 안 쓴 이미지를 구해다 넣으면 더 좋고, 입은 그려야 할거 아님

펼쳐보기▼

ㅇㅇ

2023-03-04 09:46:59

ㄳㄳ 태그 합치는거 찾고있었는데 덕분에 해결함

펼쳐보기▼

ㅇㅇ

2023-03-04 19:48:45

개추.. 4,16이랑 128이랑 구별이 가긴 가는구나
덕분에 생각 정리하고 갑니다 (__)

펼쳐보기▼

이하비스

2023-03-14 06:59:36

이하비스

2023-03-14 06:59:56

이걸 왜 지금 봤나 싶네 정리글 개추

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 그림 공지 운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 27793214

공지 AI 그림 채널 통합 공지 (2023-10-05)

NO_NSFW 2022.10.23 582406

공지 ( 진행중 ) 대회 관련 공지 / 현재 진행중인 대회

NO_NSFW 2023.02.01 66079

공지 AI그림 채널 신문고

NO_NSFW 2022.12.10 71982

공지 곤살레스(아카 AI) 관련 공지

NO_NSFW 2024.03.26 6412

공지 본 채널은 AI 그림의 수익화를 반대합니다.

NO_NSFW 2023.05.11 54213

공지 공지 정보글에 여러분들의 기여가 필요합니다

DeepCreamPy 2023.02.21 80814

숨겨진 공지 펼치기(2개)

그림 30000 축하 [8]

햄버거살인마 2023.02.05 916 15

그림 기계를 좋아하는 사람이야 [10]

가나다 2023.02.05 1285 31

일반 작곡 듣고가실분!! [22]

킨노 2023.02.05 1069 19

그림 이모지 재밌다 [4]

732 2023.02.03 1185 15

그림 뉴비 로라 다 만들었다!!! [13]

ㅇㅇ 2023.02.05 1331 20

일반 챈섭 열기가 싫어진다 라면서 키는 뉴비챈섭 [36]

gender_ 2023.02.05 1391 12

그림 실사풍 한복 모음(많다) [26]

ㅁㅋㅍ 2023.02.04 7187 47

그림 초스압)지금까지 안 올렸던거 모아서 올려봄 [6]

흩어져간다 2023.02.04 1488 20

그림 ???: OO쿤 어째서 낮선여자의 냄새가 나는거야? [42]

도화담 2023.02.04 2239 33

일반 'Propaganda' [7]

dd 2023.02.04 1064 21

그림 그림쟁이 뉴비 AI로 그림 한번 올려본다. (그림쟁이는 죽지 않는다!) [27]

홍광 2023.02.04 3127 31

그림 첫작품!!!!재밌다 [17]

ㅇㅇ 2023.02.04 1572 25

일반 뭐냐 자대와서 폰 받아서 챈 들와봤는데 [12]

꼴림을탐구하는자 2023.02.04 1436 22

그림 Ultracolor로 그린 츄파츕스 [8]

인끝도 2023.02.03 1400 16

일반 반실사 아헤가오 모션 [20]

핑크맛딸기 2023.02.03 6863 36

전체글 개념글