Markov Decision Processes (MDPs)
Maximum Entropy Probability Distribution
•
특정 데이터셋을 설명하는 가장 적절한 distribution 은 constraint 를 만족하는 가장 entropy 가 높은 distribution 임.
Soft Bellman Equation
Tsallis Entropy
•
일 때 Boltzmann-Gibbs Entropy
•
일 때, Sparse Tsallis Entropy
Sparse Bellman Equation
•
q function 의 ordering 으로 값이 threshold 보다 작은 것들은 cut-off 함.
Performance Error Bounds
•
Experiment: Reinforcement Learning
•
Sparseax distribution 이 다른 방법들보다 action space 를 더 효율적으로 탐색함.