Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

태그
Diffusion
Video
스키밍 날짜
2024/01/21

Objective

Video Diffusion Model 의 학습에 간과되어 있는 부분이 Data Curation 이라는 것에 초점을 맞추어 해당 부분에 대한 방법론을 제안한다.

Method

SD 2.1 기반에 Temporal Layer (Conv + Attn) 을 추가하여 모델 아키텍처를 제안
컷 편집 되어 있는 비디오를 자동으로 구별하고 자름
Optical Flow 를 구해서 변화가 적은 비디오들은 필터링함

Application 1: Camera Motion LoRA

Camera Motion LoRA
Camera Motion LoRA layer 를 Temporal Block 에 삽입하여 Camera Motion 이 유사한 데이터들로 finetuning 하여 해당 motion 의 비디오를 생성

Application 2: 3D Multiview Synthesis

Video Diffusion Model 을 360°360\degree 를 돌린 비디오들로 전체 layer 를 finetuning 하여 novel view synthesis 를 흉내낼 수 있음.