런팟 20달러 쓸동안


왜이렇게 학습이 안되지 하면서 막 한 6만스텝까지 구워보고


리핏>에포크 해보고 리핏<에포크 해보고 해도 너무 안닮길래 왜이러나 싶었는데


cosine with restart를 constant with warmup으로 착각하고 여태 돌리고있었음


진짜 현타 오지게옴.....


prodigy도 한번 가볍게 9천스텝 돌려봤는데


weight decay랑 d_coef 0.01, 2 기본으로 하니까 학습이 잘 안되는거같음


챈에 언급된데로 weight decay올리고 d_coef는 0.5로 낮춰서 함 해봐야할듯