强化学习教程: 10-强化学习公式大全
内容纲要
					
					欢迎转载,作者:Ling,注明出处:强化学习教程: 10-强化学习公式大全
回报:
	
值函数:Value Function
	
策略函数:Policy Function
	
马尔科夫奖励过程的贝尔曼方程:
	
马尔可夫决策过程的贝尔曼方程:
	
贝尔曼最优方程:
	
两大迭代方法:不仅求V而且求最优策略
	
三大评估方法:求Value Function的方法
	
控制/迭代方法:即不仅求Value Function,而且会更新策略
	
大规模RL:
基于w的Value Function
增量法:一次处理一个样本
	
V:
	
Q:
	
加上:A<-A' 就是控制
批量法:一次需要多个样本
	
DQN:
	
策略梯度算法:将策略表示成θ函数
	
Actor-Critic: 一般用TD Error
	
Dyna
	
                                                        
                                                        
                                                        
                                                        
                                                        
留言