Duplicate

Lecture 7 | Dagger

Tags
Date
DRONET: Learning to Fly by Driving
Udacity Data / Bicycle Data
car 과 bicycle 의 behavior 를 모방하여 학습
collision 이 발생하지 안도록
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
DAgger (Dataset Aggregation)
πi\pi_i: stochastic policy function
πi=βiπ+(1βi)π^i\pi_i= \beta_i \pi^* + (1-\beta_i)\hat \pi_iβi\beta_i 의 확률로 π\pi^* 을, 1βi1-\beta_i 의 확률로 π^i\hat\pi_i 를 따르는 mixtured policy
πi\pi_i 를 따라서 TT step trajectory 를 sample 하고 이 때 방문한 모든 visited states ss 에 대해서 새로운 데이터셋 Di={(s,π(s))}{\mathcal D}_i = \{ (s,\pi^*(s)) \} 를 얻고 기존 데이터셋과 합친다.
새롭게 얻어낸 데이터셋으로 classifier π^i+1\hat\pi_{i+1} 을 학습한다.
Experiment: Super Tux Kart
supervised learning 은 좋은 결과를 보여주지 못함.
training set 이 해당 situation 을 가지고 있지 못한 경우가 있을 수 있기 때문임.
Problem Setup
Π\Pi: set of policies, where πΠ\pi\in\Pi is a policy
TT: task horizon
No-Regret Algorithm
The best online algorithm
어떤 알고리즘이 no-regret 이면 bounded (?) 되어 있음을 보여야 함.
O~(N)=O(NlogN)\tilde O(N) = O(N\log N)
DAgger algorithm 에서 좋은 것에 대해서 물어보기 때문에 supervised learning 과의 차이가 발생함.
optimal policy 를 찾는데 있어서 supervision learning 이 항상 좋지 않음.
dependency 에 대한 고려가 없기 때문임.