Duplicate

Lecture 10 | Reinforce

Tags
Date
Reinforcement Learning Connectionist Network
REINFORCE Algorithm
Policy Gradient
Function Approximation
Function approximator 를 사용해 gradient 를 계산할 수 있음.
Convergence to a Locally Optimal Policy
Conditions:
limkαk=0kαk=πk=π(,;θk)\lim_{k \to \infty} \alpha_k = 0 \\ \sum_k \alpha_k = \infty \\ \pi_k = \pi(\cdot, \cdot; \theta_k)
Wrap Up
MDP 를 MC 로 표현할 때 mt 를 사용하는데, stationary assumption 을 사용함.
Expected Value 를 stationary distribution 으로 가정하면서 풀 수 있음.
Value Function 이나 Q function 을 estimate 하지 않고 expected return 을 maximize 하는 형태로 policy 를 optimize 할 수 있음.
policy 의 parameter θ\theta 에 대한 식으로 표현하게 됨.
Policy Gradient 방법론은 DQM 보다 느림.