cross entrophy loss랑 로드우도함수는 multi-class classification 상황에서 사용하면 이해가 빠름.
cross entrophy는 통계학 관점에서 보면 이해가 엄청 빠름. 그냥 쉽게 말해서 "원본과 추정한 모델이 얼마나 겹쳐지냐"라고 생각하면 될 듯? 너가 그린 삼각형(추정한 모델)이랑 교수님이 그린 삼각형(정답 모델)을 포개었을 때 비슷한 정도라고 생각하면 될 듯
Softmax는 쉽게 말해 확률반형 max라고 하면 되지 않을까? 모든 항을 자연상수의 거듭제곱으로 변형하고, 이 array에 대한 확률이라고 보면 될 듯?
일반적인 multiclass classification task 에서 CE를 사용하면 output을 일종의 one-hot vector꼴로 나타나는 거잖아? 그러면 이제 'loss'를 내가 예측한 output(predicted_y)의 one-hot vector 랑 진짜 정답(ground truth y)의 one-hot vector의 차이로 이해하면 되는거지?