보라색이 디폴트인 AdamW / LR 5e-5 cosine

하늘색이 Lion / LR 3e-5 cosine 이다

대략 1k 스텝이 에폭이고, 총 12에폭짜리였는데, 수렴이 더 잘 되는 것을 볼 수 있다. (배치사이즈 3)

지금은 같은 세팅에서 LR 2e-5로 돌려 보고 있는데, 더 빨리 수렴이 되고 있어서 1e-5까지 줄여볼까 싶음.


효과 못 보고 있다면, LR 충분히 줄이지 않았거나 (기존의 1/3 이하로 두는 게 가이드라인이야)

8 bit adam 옵션을 안뺐거나 (이것도 같이 꺼야 적용됨)

epoch이 지나치게 짧아서 그럴 걸로 생각.  이 경우는 리피트를 줄이고 에폭을 늘려봐.


노파심에서 얘기하는 거지만 lion 최적화의 효과는 it/s 값이 올라가는게 아니라

같은 스텝으로 학습 시킬 때 수렴이 더 빠르게 된다는 거임.