최종학습률 공식
chatgpt한테 물어본건데
얘는 자기가 모르는거 나오면 말 지어내는 얘라서
alpha값 64올랐다고 64배를 나누는게 맞나...?
여기에는 alpha를 dim 절반값 주는게 좋다고하는데
LR값을 모두 같은값을 준거면 학습률 변동돼서 적절한 학습률로 학습된 결과보고 느껴진거 같기도해서 잘 몰르겠음
https://rentry.org/59xed3#20230406
https://rentry.org/59xed3#20230406
여기도 dim/alpha 정보는 나와있는데 저 빨간표가 무슨뜻인지 이해안감