Reinforcement Learning Connectionist Network
REINFORCE Algorithm
Policy Gradient
Function Approximation
•
Function approximator 를 사용해 gradient 를 계산할 수 있음.
•
Convergence to a Locally Optimal Policy
•
Conditions:
Wrap Up
•
MDP 를 MC 로 표현할 때 mt 를 사용하는데, stationary assumption 을 사용함.
•
Expected Value 를 stationary distribution 으로 가정하면서 풀 수 있음.
•
Value Function 이나 Q function 을 estimate 하지 않고 expected return 을 maximize 하는 형태로 policy 를 optimize 할 수 있음.
◦
policy 의 parameter 에 대한 식으로 표현하게 됨.
•
Policy Gradient 방법론은 DQM 보다 느림.
•