Objective
Pick-and-Drop task 를 수행하는 Open-Vocabulary Robot 을 설계하는 것
Method
•
Open-Vocabulary Vision Language Model, Robotics Skill for Navigation, Grasping, Rearrangement 등 off-the-shelf 기술의 pipeline 을 연결함.
•
물체의 위치를 알기 위해서 Video Frame 에서 CLIP embedding score 가 할당된 point cloud 를 depth 만큼 밀고, voxel grid 중 open-vocabulary query 와 가장 높은 similarity 를 보이는 위치를 target point 로 설정함.
•
Robot Navigation 을 위해, (1) robot 과 물체의 거리가 가까워야 하고, (2) robot arm 이 활동할 거리가 있어야 하고, (3) 충돌이 발생하면 안되는 세 가지 loss 를 활용하여 navigation 을 수행함.