초기 pr 링크


복잡하다고 잘하는건 아니고 데이터셋이 큰경우 학습이 엄청나게 터지는걸 방지하는 정도로 생각했던 기능이었습니다.

그래서 1, 2, 2, 1로 아 로스가 좀 덜 터지고 그림도 꽤 잘 나오는구나 정도였습니다.


1, 2, 4, 2, 1은 완전히 테스트용 예시였고 큰 의미는 없습니다.....


오히려 1, 2, 1, 2, 1이나 1, 2, 4, 2, 4, 1같은 약간 쥐어짜는 구조나, skip connection + squeeze - excitation같이 효과적이고 조금 복잡한 모델이 훨씬 효과가 좋기에 누군가가 torch.load를 구현해주겠지? 했는데 어째서 아무도 안해줌...? 저 귀찮음...


그리고 사실 bias initialization도 zero가 아니라 normal로 해줘야함... 


그래도 float식을 지원한다는 점에서 아마 1 0.5 1도 가능할겁니다. 


굳이 엄청 넓고 깊고 그런거 따라하지 않으셔도 됩니다. pr넣을 당시에는 그냥 1 2 2 1이 학습도 적당히 빠르고 무겁지도 않았는데 다들 1 2 4 2 1 하는거보면 뭔가 좋은게 있나 싶긴한디 암튼 그럼