스테이블 디퓨전 기준으로 정리하자면...


무작위 생성된 노이즈 이미지의 크기를 작게 줄인 뒤 컴퓨터가 연산하기 적합한 형태인 숫자로 변환해 쑤셔넣음

이렇게 쑤셔 넣어진 상태를 우리는 '잠재 공간 속에 있다' 라고 부르기로 약속했음



U-net 은 이미지와 무작위로 생성된 노이즈 이미지를 무작위로 1대1로 매칭시켜둔 차이를 학습한 모델임

그렇기 때문에 노이즈 예측기(Noise predictor) 라는 명칭으로 불리기도 함




VAE 에서 압축된 데이터는 U-net 에서 특정 알고리즘(sampler/scheduler)을 사용해 n번(step) 반복하여

노이즈와 실제 이미지의 차이를 조금씩 줄여나가는데 마치 노이즈를 없애는 것처럼 보여서 디노이징(denoising)이라고 함

디퓨전 학습과 반대로 동작한다하여 역 디퓨전(reverse diffusion)이라는 이름으로도 불림


참고로 n번 반복하는 사이에 텍스트 인코더가 '마! 니가 갈 길은 거기가 아니고 이 방향이다!' 라고 외치며 자석마냥 유도하는데

이 과정을 Attention 이라고 부르지만 아직 이해했다고 말할 수 없어서 정리까진 못 하겠음


디노이징된 압축 데이터는 다시 VAE 의 디코딩 과정을 거쳐 사람이 관찰할 수 있는 이미지로 다시 만들어짐