DRONET: Learning to Fly by Driving
•
Udacity Data / Bicycle Data
•
car 과 bicycle 의 behavior 를 모방하여 학습
◦
collision 이 발생하지 안도록
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
DAgger (Dataset Aggregation)
•
: stochastic policy function
•
는 의 확률로 을, 의 확률로 를 따르는 mixtured policy
•
를 따라서 step trajectory 를 sample 하고 이 때 방문한 모든 visited states 에 대해서 새로운 데이터셋 를 얻고 기존 데이터셋과 합친다.
•
새롭게 얻어낸 데이터셋으로 classifier 을 학습한다.
Experiment: Super Tux Kart
•
supervised learning 은 좋은 결과를 보여주지 못함.
◦
training set 이 해당 situation 을 가지고 있지 못한 경우가 있을 수 있기 때문임.
Problem Setup
•
: set of policies, where is a policy
•
: task horizon
No-Regret Algorithm
•
The best online algorithm
•
어떤 알고리즘이 no-regret 이면 bounded (?) 되어 있음을 보여야 함.
•
DAgger algorithm 에서 좋은 것에 대해서 물어보기 때문에 supervised learning 과의 차이가 발생함.
•
optimal policy 를 찾는데 있어서 supervision learning 이 항상 좋지 않음.
◦
dependency 에 대한 고려가 없기 때문임.
•