좀만 더하면 임베딩 총정리해서 공유할수 있을듯

좌우반전 포함 100개로 훈련했고 lr 0.005 쓰니까 과적합이 보이고 있긴 해도 600~1000 구간이 스윗스팟인듯. 더 낮춰서 해봐야지


일단 결론은 이미지의 양보다 질이 제일 중요하고 (태그 말고, 태그 떡칠하면 안됨)

그다음 중요한건 임베딩이 쳐먹는 토큰 갯수임. 많을수록 구체적인걸 표현할 수 있는데, 위의 임베딩은 6 먹였음. 캐릭터라면 12, 16 이상은 써야하지 않나 싶음.

학습 이미지 갯수와 토큰 갯수가 비례하는지 반비례하는지가 확실하지가 않네