LoRA 속도 몇가지 체크 - AI그림 학습 채널

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8829명 알림수신 126명 @Anon

그림 AI 학습 정보를 공유하는 채널

정보 LoRA 속도 몇가지 체크

한심한_까만_원숭이

추천 8 비추천 0 댓글 9 조회수 4106 작성일 2023-02-02 02:29:35 수정일 2023-02-02 17:25:11

https://arca.live/b/hypernetworks/68849165

전의 그 kohya씨 노트를 보다가 어 하는게 있어서 몇가지 테스트

우선 뭘 봤는지부터 보자

밑에 정규화 이미지수 말했던 그 페이지임

스크립트 옵션중(GUI에서도 세팅가능)

문장에서 말하는 메모리는 비램인 모양. V램이라고 좀 적지...

명시는 안되어 있는데 이건 걍 내가 실험해서 그런갑다 하는 것

省メモリ化のためmixed_precision="bf16"（または"fp16"）、およびgradient_checkpointing を指定します。

xformersオプションを指定し、xformersのCrossAttentionを用います。xformersをインストールしていない場合、エラーとなる場合（mixed_precisionなしの場合、私の環境ではエラーとなりました）、代わりにmem_eff_attnオプションを指定すると省メモリ版CrossAttentionを使用します（速度は遅くなります）。

省メモリ化のためcache_latentsオプションを指定してVAEの出力をキャッシュします。

메모리 경량화를 위해 mixed_precision="bf16"（혹은"fp16"）, 거기에 gradient_checkpointing를 지정합니다.

xformers 옵션을 지정해, xformers의 CrossAttention을 사용합니다. xformers을 인스톨하지 않은 경우 or 에러가 나는 경우（mixed_precision없는 경우, 제 환경에서는 에러가 났습니다）, 대신 mem_eff_attn옵션을 지정하면 메모리 경량화판 CrossAttention을 사용합니다（속도는 느려집니다）.

메모리 경량화를 위해 cache_latents 옵션을 지정하여 VAE의 출력을 캐시합니다.

gradient_checkpointingを外し高速化します（メモリ使用量は増えます）。またmixed_precisionを外し精度向上を図ります。

バッチサイズを増やし、高速化と精度向上を図ります。

gradient_checkpointing를 꺼 고속화합니다（메모리사용량은 늘어납니다）. 또 mixed_precision를 꺼 정도향상을 노립니다.

배치사이즈를 늘려, 고속화와 정도향상을 노립니다.

省メモリ化のため、ステップ当たりの学習回数がtrain_dreambooth.pyの半分になっています（対象の画像と正則化画像を同一のバッチではなく別のバッチに分割して学習するため）。元のDiffusers版やXavierXiao氏のStableDiffusion版とほぼ同じ学習を行うには、ステップ数を倍にしてください。

（shuffle=Trueのため厳密にはデータの順番が変わってしまいますが、学習には大きな影響はないと思います。）

메모리 경량화를 위해, 스텝당 학습횟수가 train_dreambooth.py의 반으로 되어 있습니다（대상의 이미지와 정규화 이미지를 동일 배치에서가 아니라 별도의 배치로 분리시켜 학습시키기 때문）. 원래의 Diffusers판이나 XavierXiao씨의 StableDiffusion판하고 거의 같은 학습을 하기 위해서는, 스텝수를 배로 해주세요.

（shuffle=True를 위해 엄밀히는 데이터의 순서가 바뀌어 버리지만, 학습에 큰 영향은 없을걸로 생각합니다）

그래서 뭘 실험해봤느냐
mixed precision, gradient chechpointing, Memory efficient attention, cache latents 네개를 만져봄

결과 품질은 몰?루. 일단 눈으로 비는건 학습속도뿐이니

시간많고 품질에 까다로운 분은 괜히 품질 나빠진다는 옵션은 손대지 마시길

저도 아직 다 이해하고 하는 짓이 아닌지라 ...

cache latents

비램에 담을 이미지를 "램"으로 캐시하는 듯 (즉 느려짐)

이건 제작자가 단어를 잘못쓴거 같음

통상 빠른 저장매체에서 느린쪽으로 복사하는건 백업이던 뭐던 다른 용어를 써야지 캐싱이라 하면 되나...

캐시는 느린쪽에서 빠른쪽으로 담을때나 써야지
켜면 학습이미지를 램에 퍼담는 과정을 거치는데, 이때 시퓨 사용량도 오만상 오름
이것때문에 느려지는 요소가 있는지는 아직 확인못함. 위의 두 옵션을 끄고 이걸 켜놓고 테스트해봐야?

일단 동일세팅에서 캐시 켜고끈거 비교해봄. 다른세팅을 다 끈게 아니라는거 유념.

껐을때 (cache latents OFF) - 비램 13.5GB, 1.07s/it
켰을때 - 비램 11.4GB, 1.1it/s
속도는 학습시작후 비슷한 시간대의(안정화 단계 가기까지 속도가 계속 증가중이므로) 속도를 대충 찍어봄
착실하게 비램 절약효과와 학습속도 개선이 있는 대신 단점이 캐싱중에 시퓨사용량이 정신나갈 정도로 오름
이 과정이 느리다면 CPU사용량이 100%인지 확인해볼 것. 만일 이렇다면 시퓨에서 발목잡고 있는거임

그리고 비램 2G 깎자고 이 시간과 시퓨를 써야 하나 고민된다면 옵션 끌 것
단 kohya씨는 속도에 관한 언급을 안했는데, 실험처럼 속도 증가 효과가 있으니 캐시가 빨리된다면 켜는것을 추천
학습 이미지 수는 적고 학습 스텝수가 높은 경우는 켜는게 나을 듯

Memory efficient attention

속도 느려짐. 켜면 간신히 굴러갈 정도 됨

xformers가 없거나 관련 에러가 나는 사람은 울며 겨자먹기로 이거 쓰라함

mixed_precision
이거에 관한 별다른 말이 없다?

전에 얼핏 이걸로 품질이 하락한다는 걸 봤던거같은데...

여하간 그래서 이거만 켰음

gradient chechpointing

이건 다른데서 글을 봤던거같은데, 명확히 이해는 못함

일단 제작자왈 속도와 비램사용량을 언급했으니 취향껏

4090 사용중

위의 넷을 몽땅 끔(mixed precision 끌라믄 밑에 Full fp16 training도 꺼야됨) - 비램터짐

...... 아놔. 이거 하실 챈럼은 돈으로 바ㄹ... 아 아니

Memory efficient attention 살림 - 23.5G 사용. 학습 6% 쯤에서 1.25s/it
mixed precision 살림 - 14G 사용. 학습 5%쯤에서 1.12it/s

그래서 지금은 세개 끄고 fp16 지정해서 진행중. 대충 1.5배 빨라졌나

최종요약

mixed precision(fp16)

gradient chechpointing, Memory efficient attention, cache latents 셋 체크해제
요렇게 하기 전 대비 학습속도 1.5배
실 속도는 각자의 시스템과 학습이미지에 따를것임

비램 8G 비길래 남는 여유로 webUI 돌렸더니 시스템 디지더라...

4090 챈러들 지겹다고 이렇게 하지마 OTL

댓글 [9]

겸손한_은색_쭈꾸미

2023-02-02 05:11:39

mixed precision 옵션하나가 v램 사용량 10gb나 줄인 거임???

펼쳐보기▼

한심한_까만_원숭이

2023-02-02 05:32:51

10G나... 라기보다는 비램 사용량을 반절 가까이 끌어내리는 모양
왜냐하면 다 끄면 터졌고(아이들 1G, 동작시 14G니까 27G 필요하다고 예상) 그냥 못하니까 Memory efficient attention라도 썼더니 0.5 남은거. 그럼 이 옵션은 10%정도 줄이나?

비램이 남으면 옵션을 손봐서 최대한 속도를 끌어올리고
반대로 비램 작은 사용자는 시간을 최대한 투자해서 낮은 비램으로도 돌릴 수 있게

펼쳐보기▼

겸손한_은색_쭈꾸미

2023-02-02 09:45:22

*수정됨

어... 그러면 이건감?
모든 옵션 OFF 램 사용 27GB (가정)
Memory efficient attention ON -> 램 사용량 3.5 GB 감소 + V램 23.5GB 사용
mixed precision 추가 활성화 -> 기존 Memory attention ON에서 추가로 램 사용량 9.5GB 감소 + V램 14GB 사용
이게 팩트면 ㄹㅇ 유용한 정보일듯

펼쳐보기▼

한심한_까만_원숭이

2023-02-02 10:32:43

댓글 고대로 복붙해서 부연설명

모든 옵션 OFF 램 사용 27GB (가정. 아이들 1G, 로라 26G)
Memory efficient attention ON -> 램 사용량 3.5 GB 감소 + V램 23.5GB 사용 (로라 22.5G, 아이들 1G)
mixed precision 추가 활성화 ->램 사용량 13GB 감소 + V램 14GB 사용 (로라 13G, 아이들 1G)

이런 느낌임. 1G는 윈도우가 잡아먹는(내가 이것저것 띄운것들) 양이고
mixed precision으로 비램 사용량이 "반" 줄었을거라 가정하면 저런 느낌
반 아닐 수도 있음. 이게 반인지 확인이 되려면 비램이 48G인 시스템에서 저걸 껐다켜서 확인하는 수밖에 없는지라

펼쳐보기▼

야무진_남색_고래

2023-02-03 11:27:24

Memory efficient 저게 제일 체감 속도 차이가 큰 것 같더라

펼쳐보기▼

한심한_까만_원숭이

2023-02-03 11:28:26

제작자가 대놓고 강조한 이유가 있는듯

펼쳐보기▼

못된_핑크_치타

2023-02-03 16:52:45

*수정됨

cache_latent옵션은 vae로 미리 latent 생성해 놓는거라서 더 빠른거임
따라서 캐싱 단어 사용은 올바른거임

펼쳐보기▼

한심한_까만_원숭이

2023-02-03 17:13:06

제작자가 V램 절감 옵션이라고 했기 때문에 (즉 V램에 올렸어야 할 latent 데이터를 시스템램에다 올리는) 더 느린 매체에 저장한다고 한 거(GPU입장에서는 비램에 올리는걸 먼저 찾을터이니)
근데 실제 작업 속도는 빨라졌으니 도대체 캐시 옵션을 껐을때 처먹는 비램의 정체는 뭘까 ㄱ-
그리고 왜 비램이 아닌 메인램에 올린게 작업이 더 빠른건지도 의문. 
대부분의 시스템은 비램이 메인램보다 훨씬 작아서 득이되면 득이되지 실이 될만한건 없는데
...아. 딱하나있다. 준비할때 졸라게 시퓨 갈구는거(+시간로스. 단 이건 스텝수가 길면 길수록 무시할만한 시간이 됨)

펼쳐보기▼

못된_핑크_치타

2023-02-03 19:32:47

*수정됨

애초에 원래 방식은 학습할때 마다 latent를 cpu로 실시간으로 계산하는 방식이라 느린거고, 이건 시작 전에 cpu로 생성해놓고 RAM에 저장해놓고 필요할때 꺼내써서 빠른거임

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 정보 그림 드림부스 임베딩 하이퍼

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30760672

공지 파딱 마음대로 작성한 AI그림 학습 채널 규정 - [24-01-24]

포리X 2023.10.29 2253

공지 [리퀘스트] 탭이 추가되었습니다.

선한_하얀_사자 2023.02.10 3497

공지 신문고

Anon 2023.02.21 3286

공지 각종 학습파일 적용법

거만한_보라_달팽이 2023.01.24 40146

공지 그림 학습법 모음

거친_핑크_외계인 2022.10.30 73642

숨겨진 공지 펼치기(1개)

182 정보 오늘 WEBUI 파일들이 대거 바이러스 검진 받고 있음 [10]

꿀리우스 2023.03.19 1402 1

181 정보 이미지 1장으로 캐릭터 학습 돌려보기? 4 - 코이카츠 캐릭터 얼굴 학습 1 [7]

포리X 2023.03.19 4402 8

180 정보 kohya_ss LoRA 학습에서 나오는 log 파일 열어보는 방법 [3]

포리X 2023.03.18 1001 4

179 정보 Efficient Diffusion Training via Min-SNR Weighting Strategy [1]

설왕설래 2023.03.18 409 1

178 정보 Glaze는 스타일(화풍) 학습을 막을 수 있는가? [4]

포리X 2023.03.17 1051 2

177 정보 SD에 관해 알고싶은 두세가지 것들 [3]

미음완보 2023.03.16 911 1

176 정보 이미지 1장으로 캐릭터 학습 돌려보기? - 3 [4]

포리X 2023.03.15 1889 2

175 정보 GIT 폴더권한(퍼미션) 오류가 자꾸 뜨시는분들 이걸로 만사해결!

TheHack 2023.03.15 383 0

174 정보 로라 태깅한거vs안한거 (추가) [29]

asde31c 2023.03.15 5890 14

173 정보 이미지 1장으로 캐릭터 학습 돌려보기? - 2 [4]

포리X 2023.03.15 1978 2

172 정보 이미지 1장으로 캐릭터 학습 돌려보기? - 1 [8]

포리X 2023.03.15 4418 6

171 정보 너무 어두운 이미지를 학습하지 못하는 이유와 해결방법에 대한 정보글(Noise offset) [5]

Bisket 2023.03.06 2742 11

170 정보 everydream2 개발자가 추천하는 finetune 설정값 [4]

novo 2023.03.02 2969 11

169 정보 코랩 Kohya LoRA Dreambooth 로라 드림부스 사용법(유튜브) [5]

하이글라비 2023.03.01 5900 8

168 정보 Dreambooth / Embeddings / LoRA / Hypernetworks 차이 [1]

겜안분어그로 2023.03.01 2261 4

167 정보 webui 이미지 생성 interrupt, skip시 저장 안하기 [1]

머봉 2023.02.28 570 2

166 정보 현? 코랩 ai 임베딩(embeddings) 관련 교육영상 [2]

하이글라비 2023.02.27 754 3

165 정보 신규? 패스트 드림부스에 관한 정보 [1]

하이글라비 2023.02.27 667 1

164 정보 코랩 드림부스 TheLastBen, ShivamSharo 오류

하이글라비 2023.02.27 371 3

163 정보 코랩용 LoRA 자동태깅후 임의 prompt 일괄 추가하는 블록 [6]

겜안분어그로 2023.02.27 2077 8

162 정보 캐릭터 로라 표본 이미지 수집 질문 [2]

adqwddgfgfasfdsz 2023.02.24 961 -1

161 정보 로라 캐릭 여러의상 텍스트 작성할때 단 하나만 써야함 [1]

asde31c 2023.02.24 767 0

160 정보 로라 캐릭터 학습 여러 의상 예시 데이터셋 [9]

asde31c 2023.02.22 3813 8

159 정보 한 캐릭터 여러 의상 학습 방법 [8]

asde31c 2023.02.22 4338 9

158 정보 kohya-ss lion optimizer 효과 있다 [3]

도지도지 2023.02.21 2662 6

157 정보 Caption Dropout을 써야 하는 이유에 대한 정보글 [2]

Bisket 2023.02.19 1332 3

156 정보 kohya-ss LoRA lion optimizer 후기? [2]

포리X 2023.02.19 1654 2

155 정보 파인튜닝 레포 Everydream2가 제일 좋대 [2]

거만한_주황_토끼 2023.02.17 2192 10

154 정보 로라 파일 크기(dim) 리사이징 하는법 [2]

쾌활한_남색_개구리 2023.02.13 969 3

153 정보 학습 파라미터 공유 [6]

겸손한_파란_북극곰 2023.02.09 5374 9

152 정보 로라로 멀티 서브젝트 학습해봄 [2]

씩씩한_갈색_비둘기 2023.02.09 477 1

151 정보 U-Net | 블록머지 방식에 대해서 [9]

소심한_핑크_하마 2023.02.06 772 4

150 정보 kohya_ss 업데이트 노트

소심한_남색_하마 2023.02.05 1518 2

149 정보 3D 모델을 이용한 학습이 은근히 잘되네 [4]

소탈한_보라_참새 2023.02.05 2427 1

148 정보 로라 학습 결과의 재밌는점 [4]

즐거운_하얀_원숭이 2023.02.04 1589 2

147 정보 LoRA 속도 몇가지 체크 [9]

한심한_까만_원숭이 2023.02.02 4107 8

146 정보 정규화이미지 최대장수 [4]

기쁜_남색_하마 2023.02.01 4691 9

145 정보 로라 학습 간편설치기 [14]

예리한_파란_올빼미 2023.01.31 6264 20

144 정보 쓸데없는 꿀팁: 데이터셋 [10]

거친_청록_벌 2023.01.29 3343 10

143 정보 미세팁 - kohya_ss 해상도 맥스 512x512일 때 버킷 사이즈(해상도)

굼뜬_파란_갈매기 2023.01.26 1428 2

142 정보 kohya_ss 로라 GUI버전 업뎃 후 loss=nan 증상 해결 [3]

소탈한_파란_곰 2023.01.23 1148 2

141 정보 포토샵) 이미지 일괄로 크기변경&액션적용 해주는 기능 [2]

훌륭한_은색_독수리 2023.01.23 1352 6

140 정보 LoRA 학습 가이드 [4]

예민한_분홍_오리 2023.01.17 6898 9

139 정보 날림으로 소개하는 날림 하이퍼 학습 방법 [24]

겸손한_초록_거위 2023.01.17 8578 15

138 정보 Hypernetwork Monkeypatch Extension에 추가된 기능들과 CLIP model changer [3]

순진한_은색_낙지 2023.01.16 1167 5

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.