Linear (학습 초기사진들을 새로 학습하는 과정이 다 지워버려서 못넣음)



Softsign (이쪽은 초기 사진만 있음) ~768step



논문 몇개 읽고 역시 Linear여야 하나? 하고서 한 31000스텝 돌렸는데


어째서 Softsign이 잘 나오는걸까? Cross Attention은 분명히 Linear functions들로만 구성한다고 했는데...


대학원이 답이다