(숫자는 step 수가 아니라 epoch 수임)
Batch size나 Gradient accumulation 쓰면 learning rate도 비례해서 올려야 함
Textual Inversion
Gradient Accumulation: 32 (마개조함)
Learning rate: 0.16 (0.005 * 32)
존나 큰 lr이지만 오히려 안정적이고, local minima에 빠지지 않고, 이미지가 점점 더 발전하고 있음.
근데 로스값은 계속 요동치는거 보면 로스를 잘못 구현했거나 다른 loss function이 필요할 듯
그나저나 step를 epoch로 바꾸는 pr 올릴려고 했는데 너무 많이 고쳐서 오토좌가 이건 안받아줄듯
지금도 잔버그 좀 많아서 고치는데 시간 오래걸릴듯함
이게 말이 되냐고!!!
현재 임베딩 / 공유된 하이퍼 / 공유된 드림부스