DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

태그
Diffusion
스키밍 날짜
2023/06/28

Objective

Handling Points 를 Target Points 로 움직여 자연스러운 이미지를 형성하는 것

Method

첫 번째 단계에서 LoRA 를 이용해 주어진 이미지에 대한 fine-tuning 을 진행함. 이는 두 번째 단계에서 의도하지 않은 결과로 denoising 되는 현상을 최소화하기 위한 것으로 보임.
두 번째 단계에서는 학습한 LoRA 를 이용해 DDIM inversion 을 통해 t 번째 timestep 에서의 latent 를 뽑아내고, 이를 Latent Optimization 을 거쳐서 새로운 latent 로 변형시키는 과정을 진행함. 이 때, optimization 과정은 Handling Point 와 align 되어 있는 latent 상의 feature vector 를 Target Point 로 optimize 하는 형태의 loss 를 가지고 있음. 이 때, unwanted region 의 변화를 억제하기 위한 loss 도 한 단계 denoising 된 픽셀의 alignment 로 해결함.
한 단계 optimize 된 후 변하게 된 Handling Point 의 위치는 새롭게 latent 상에서 기존의 feature vector 와 가장 가까운 지점을 찾아 지정하게 됨. 이를 반복하여 latent 를 optimize 하여 최종적인 변화된 latent 를 얻고 이를 denoising 하여 새로운 이미지를 얻을 수 있음.