内容纲要

欢迎转载,作者:Ling,注明出处:强化学习教程: 09-Exploration and Exploitation

 

本章主要讲解了强化学习中一个基本的权衡问题,就是探索与开发的问题,这是任何一个强化学习算法或者说项目都要考虑的问题, 否则你的算法效果肯定不会很好的。

探索与开发

这两者本身是一种冲突,开发要求我们对算法目前学习到的东西更加充分的加以利用,而探索则需要我们放弃之前学到的东西, 去尝试新的东西以求能否获得更好的效果。下面举几个例子:

  • 经典的饭馆问题,你选择饭馆是选择去你以前经常吃的口味还不错的店呢?还是偶尔灵光一闪,去尝试一下新的店,这当然有风险,要么没之前的店好吃,但是也有可能 出乎意料的找到了一家更好的店。
  • 在线广告展示问题,同样也是探索与开发的权衡,你是展示目前来说最成功的的广告,还是尝试新的不同的广告,效果当然就不能确定了。
  • 游戏问题,选择你相信的最优动作,还是尝试新的动作,道理都是一样的。

几种探索与开发的方式

  • 朴素探索:就像我们之前一直使用的e-greedy算法,很简单,但是很多情况下很有效。
  • 乐观初始估计:优先选择当前被认为是最高价值的行为,除非新信息的获取推翻了该行为具有最高价值这一认知。
  • 乐观面对不确定性:倾向于选择不确定性高的。
  • 概率匹配:根据当前估计的概率分布采样行为。
  • 信息状态搜索: 将已探索的信息作为状态的一部分联合个体的状态组成新的状态,以新状态为基础进行前向探索。