모델을 처음부터 만들 때의 관점임

CLIP 모델은 프롬프트->토큰->임베딩 순으로 변환시켜주는 모델임

그리고 임베딩은 Unet에 들어가서 이미지에 프롬프트 요소를 생성해내는 역할임

문제는 CLIP 자체는 diffusion model의 필수조건이 아니며 원래는 자체적으로 이미지-텍스트 간 상호관계를 만드는 완전히 다른 모델이라는 것이다

그래서 토큰->임베딩 과정에서 GPT-2 트랜스포머 모델을 쓰는데, 이걸 쓰면 프롬프트의 문장 해석에 뛰어난 성능을 보이게 되지만, 많은 양의 태그 및 쉼표에 최적화되진 않았음. 예를 들면 프롬프트 앞의 태그가 프롬프트 뒤의 태그보다 더 잘 먹히는 문제라거나...

NAI 모델은 이 CLIP을 하나도 바꾸지 않았고, WD 1.4는 그나마 태그에 대한 CLIP 파인튜닝을 한다고 해서 그나마 기대하는중.

근데 그냥 CLIP처럼 트랜스포머같은 무거운 모델 없이 그냥 WD1.4 태거에 있는 태그들만 모아서 라벨링한 후 일반적으로 CNN 훈련하듯이 태그를 그대로 넣으면 안되나? 하는 생각을 해봤음


두서없이 썼는데 오늘 학회에서 Imagen 개발자랑 얘기하면서 든 생각임

한국오면 정리 좀 하겠음