https://mega.nz/file/D19VDZ5K#k9XcmVtr_JquQtQbPdXaG1wIe0FBZkB-Vn2Gs8OCd2g
이작가임
어...어...
2만 500번은 0.00003으로 학습시킨거고
0.005로 20번학습시킴
1,2,1 레이어
gelu 활성화함수
kaiming normal 레이어 가중치초기화
레이어 정규화
드롭아웃
학습률 비율이 헷갈리는데 아마 그럴거임
https://mega.nz/file/D19VDZ5K#k9XcmVtr_JquQtQbPdXaG1wIe0FBZkB-Vn2Gs8OCd2g
이작가임
어...어...
2만 500번은 0.00003으로 학습시킨거고
0.005로 20번학습시킴
1,2,1 레이어
gelu 활성화함수
kaiming normal 레이어 가중치초기화
레이어 정규화
드롭아웃
학습률 비율이 헷갈리는데 아마 그럴거임