EMA에 관한 질문 - AI그림 학습 채널

AI그림 학습 채널

알림 알림 중 알림 취소

구독자 8807명 알림수신 126명 @Anon

그림 AI 학습 정보를 공유하는 채널

EMA에 관한 질문

난처한_노란_하마

추천 2 비추천 0 댓글 4 조회수 1616 작성일 2022-10-31 16:01:19

https://arca.live/b/hypernetworks/61899175

SD의 체크포인트를 보면 저렇게 EMA 라는 것이 있는 놈이 있는데,

예전부터 좀 궁금했단 말이지.

찾아보던 도중 아래의 영상을 찾있음.

https://youtu.be/lAq96T8FkTw

엔드류 응 교수의 강의를 찾았고 설명이 명쾌해서 이해하기 좋았음.

그런데 드는 의문은 "이 개념을 SD에 적용한다고 했을 때 어떻게 적용이 되는가?"였음.

단적으로 말하자면 지수가중평균은 보다 최근의 데이터에 웨이트를 더 둔 것으로 결과물을 도출한다는 것인데,

실제로 SD에서 Diffusers로 변환하는 스크립트를 보면

In this conversion only the non-EMA weights are extracted. If you want to instead extract the EMA

weights (usually better for inference), please make sure to add the `--extract_ema` flag.

라고 돼있음.

Inference에 더 좋다는 데, 나는 아래와 같이 생각했음.

===

EMA는 최근의 데이터라는 보다 좁은 데이터 간격을 활용해 데이터를 도출하는데,

EMA가 SD에 적용된다면, 다음과 같이 적용 될 것이다.

Model을 학습할 때 1만스텝을 학습했다고 가정하고, 임의의 값을 가지는 β를 적용해 V_theta를 계산하여

최근 N스텝에 웨이트를 더 주게 한다.

최근 N스텝에 대해 가중치를 더 준다면 이전 스텝의 가중치는 지수적으로 감소하게 된다.

따라서 EMA는 모델의 과적합을 일정 부분 억제하며 보다 학습에 충실한 결과를 도출할 수 있게 작용한다.

EMA가 없다는 것은 각 스텝마다 웨이트를 갱신해 온 상태 그대로 있다는 것이고 이는 Fine Tuning에 적합하다.

그렇다면 일반적으로 full이라는 단어가 붙는 체크포인트는 일반 웨이트 및 EMA의 웨이트를 동시에 갖고 있고,

따라서 보다 큰 용량을 가진다.

===

라고 생각해도 되는건가?

다른 의문은

NAI 유출 체크포인트의 경우 일반적인 스크립트로 Diffusers로 변환하기 위해선 코드의 수정이 필요한데,

["state_dict"]를 삭제하는 부분과

text_model = convert_ldm_clip_checkpoint(checkpoint) 이 부분을

CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14") 이렇게 고치는 부분이었음.

내가 실제로 유출 모델을 EMA와 Non EMA로 따로 뽑아보려고 시도했는데,

뽑힌 두 결과를 바이너리로 비교했음에도 불구 차이가 단 하나도 없었음.

이게 유출 모델이 이미 state_dict여서 그런 것인지,

위의 코드를 수정한 것이 원인 중의 하나라고 봐도 되는 것인지 모르겠음.

난 머신러닝 말고 다른 전공이라 이쪽은 잘 모름.

혹시 전공자가 있다면 답을 주면 정말 고맙겠음...

댓글 [4]

순박한_초록_다람쥐

2022-10-31 17:47:37

비교 이미지를 봤을 때 emaonly가 비교적 약간 퀄리티가 낮아 보이기는 합니다. https://i.redd.it/mcn03832x0v91.png

펼쳐보기▼

난처한_노란_하마

2022-10-31 18:07:52

내가 보기엔 드라마틱한 차이는 없는 거 같긴 한데....
결국 SD에선 큰 의미가 없는 게 맞는건가? 어렵네

펼쳐보기▼

시크한_노란_원숭이

2022-11-01 04:57:52

일단 나도 nai기반 드림부스는 용량 반토막낸거랑 원본이랑 차이가 전혀 없이 나오긴하던데.. 뭐 혹시모르는거니 둘 다 저장은 해놓고 있지만

펼쳐보기▼

섬세한_갈색_닭

2022-11-06 09:14:04

*수정됨

나도 diffusion쪽 본 지 얼마 안되서 확신할 수는 없는데 원래 EMA는 train / inference 두 시점 다 사용 가능함

diffusion 이전에는 GAN(generative adversarial network)이라고 해서 다른 학습 방식이 있었는데 GAN이 특유의 구조 때문에 학습이 좀 불안정함
그래서 EMA를 써서 학습하면 GAN 학습시 지멋대로 튀는걸 평균내니까 안정적으로 학습되는 효과가 있음

stable diffusion 논문을 안읽어서 확신은 못하겠는데 검색해보니까 stable diffusion 계열에서 쓰는 EMA는 inference에만 쓰는거 같음
이건 사실 앙상블이라는 기법에 가까운데 어쨌든 딥러닝 학습은 배치단위로 이루어지기 때문에 가장 마지막에 본 데이터가 가장 많이 반영되어있음
그런데 딥러닝에서 가장 중요하게 여기는건 '일반화'임. 전체 데이터 중에 적은 비율이거나 아니면 한번도 못본 데이터에 대해서도 잘 작동하는걸 목표로함
그래서 마지막에 본 데이터를 좀 희석시켜서 과적합된걸 막으려는게 EMA를 사용하는 이유임

근데 이건 입력에 따라 다를 수 밖에 없음 거기다 이정도로 대규모 데이터셋을 학습하는 경우가 딥러닝 씬에도 별로 없어서 솔직히 체감 어려울 수도 있음

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인