런팟 20달러 쓸동안
왜이렇게 학습이 안되지 하면서 막 한 6만스텝까지 구워보고
리핏>에포크 해보고 리핏<에포크 해보고 해도 너무 안닮길래 왜이러나 싶었는데
cosine with restart를 constant with warmup으로 착각하고 여태 돌리고있었음
진짜 현타 오지게옴.....
prodigy도 한번 가볍게 9천스텝 돌려봤는데
weight decay랑 d_coef 0.01, 2 기본으로 하니까 학습이 잘 안되는거같음
챈에 언급된데로 weight decay올리고 d_coef는 0.5로 낮춰서 함 해봐야할듯