内容纲要

欢迎转载,作者:Ling,注明出处:强化学习教程: 10-强化学习公式大全

 

回报:

RL_10_001

值函数:Value Function

RL_10_002

策略函数:Policy Function

RL_10_003

马尔科夫奖励过程的贝尔曼方程:

RL_10_004

马尔可夫决策过程的贝尔曼方程:

RL_10_005

贝尔曼最优方程:

RL_10_006

两大迭代方法:不仅求V而且求最优策略

RL_10_007

三大评估方法:求Value Function的方法

RL_10_008

控制/迭代方法:即不仅求Value Function,而且会更新策略

RL_10_009

大规模RL:

基于w的Value Function

增量法:一次处理一个样本

RL_10_010

V:

RL_10_011

Q:

RL_10_012

加上:A<-A' 就是控制

批量法:一次需要多个样本

RL_10_013

DQN:

RL_10_014

策略梯度算法:将策略表示成θ函数

RL_10_015

Actor-Critic: 一般用TD Error

RL_10_016

Dyna

RL_10_017