제일 중요한 건 그게 아님

우리 프롬으로 뭐 씀?

"태그" 씀

"왼쪽에 있는 남자는 모자를 쓴 채로 한 손을 들고 있고 오른쪽에 있는 여자는 드레스를 입고 있다. 중간의 아이는 곰 인형을 들고 있다."를 태그로 적어 보셈


그리고 그게 영어의 문장 구조를 따르긴 커녕 조사와 부사 등등이 하나도 없이 명사와 쉼표만으로 가득 찬 단어 뭉치라는 걸 볼 수 있을 거

디퓨전 모델이 똑똑하다고? 맞음 ㅇㅇ 근데 clip은 안 똑똑하기 때문에 저걸 clip이 명사 쉼표 덩어리를 자연어 이해하듯이 알잘딱으로 해석해 줄 거라는 기대는 좀 낮추는 게 낮을 거임