스케줄러니 옵티마이저니 그딴거 다필요없고 데이터셋 만지는게 제일 확실함

공부 스케줄을 병신같이 짜봤자 문제집만 병신이 아니면 성적 잘 나오잖아~

솔직히 여기서 묻는 질문들 중에 최소 절반은 데이터셋 정제만으로 해결 가능함

그래서 왜 adafactor 쓰냐고? 그냥 ㅇㅇ