强化学习教程: 10-强化学习公式大全
内容纲要
欢迎转载,作者:Ling,注明出处:强化学习教程: 10-强化学习公式大全
回报:
值函数:Value Function
策略函数:Policy Function
马尔科夫奖励过程的贝尔曼方程:
马尔可夫决策过程的贝尔曼方程:
贝尔曼最优方程:
两大迭代方法:不仅求V而且求最优策略
三大评估方法:求Value Function的方法
控制/迭代方法:即不仅求Value Function,而且会更新策略
大规模RL:
基于w的Value Function
增量法:一次处理一个样本
V:
Q:
加上:A<-A' 就是控制
批量法:一次需要多个样本
DQN:
策略梯度算法:将策略表示成θ函数
Actor-Critic: 一般用TD Error
Dyna
留言