Objective
RGB monocular trajectory of Real Estate Video 와 ShapeNet 기반의 CAD Model 을 이용해 CAD Model Annotation 이 있는 데이터셋을 만드는 것
Method
1.
Object Detection + Appearance Descriptor 를 활용하여 비디오 상에서 각 물체의 Track 을 찾아냄.
2.
각 Track 별로 다음과 같은 기준으로 Track 의 물체의 candidates (top 10) 을 뽑아냄.
a.
Multiview 에서의 CAD Model 렌더링과 비디오의 object 부분과의 appearance similarity
b.
CAD Model 렌더링의 카테고리 (ShapeNet 55 Category) 이름과 object detection class category 와의 similarity (Universal Sentence Encoder 의 공간 상에서의 cosine similarity)
3.
Top 10 candidate 에서 human 이 가장 적합한 것을 선택하고 2D - 3D Corresponding Points 를 찾아내서 표시함.
4.
Corresponding Points 를 이용해 object 의 9DoF (3 for Translation, 3 for Rotation. 3 for Scale) 을 optimize 함.