强化学习教程: 09-Exploration and Exploitation

内容纲要

本章主要讲解了强化学习中一个基本的权衡问题，就是探索与开发的问题，这是任何一个强化学习算法或者说项目都要考虑的问题，否则你的算法效果肯定不会很好的。

探索与开发

这两者本身是一种冲突，开发要求我们对算法目前学习到的东西更加充分的加以利用，而探索则需要我们放弃之前学到的东西，去尝试新的东西以求能否获得更好的效果。下面举几个例子：

经典的饭馆问题，你选择饭馆是选择去你以前经常吃的口味还不错的店呢？还是偶尔灵光一闪，去尝试一下新的店，这当然有风险，要么没之前的店好吃，但是也有可能出乎意料的找到了一家更好的店。
在线广告展示问题，同样也是探索与开发的权衡，你是展示目前来说最成功的的广告，还是尝试新的不同的广告，效果当然就不能确定了。
游戏问题，选择你相信的最优动作，还是尝试新的动作，道理都是一样的。

几种探索与开发的方式