Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

태그

Diffusion

Video

스키밍 날짜

2024/01/21

Video Diffusion Model 의 학습에 간과되어 있는 부분이 Data Curation 이라는 것에 초점을 맞추어 해당 부분에 대한 방법론을 제안한다.

•

SD 2.1 기반에 Temporal Layer (Conv + Attn) 을 추가하여 모델 아키텍처를 제안

•

컷 편집 되어 있는 비디오를 자동으로 구별하고 자름

•

Optical Flow 를 구해서 변화가 적은 비디오들은 필터링함

Camera Motion LoRA

Camera Motion LoRA layer 를 Temporal Block 에 삽입하여 Camera Motion 이 유사한 데이터들로 finetuning 하여 해당 motion 의 비디오를 생성

Video Diffusion Model 을

360\degree

를 돌린 비디오들로 전체 layer 를 finetuning 하여 novel view synthesis 를 흉내낼 수 있음.