레이어 1, 1로 두고 lr 10e-6에서 시작해서 0.5e-6까지 쭉 내리고 학습했는데 나쁘지 않게 뽑히는듯

pt 파일 크기도 1/4돼서 좋고 ㅋㅋㅋㅋ


근데 Linear에 LN 먹여도 잘 돌아감? 의미가 있는 짓임?