谷歌在强化学习领域的创新之处在于,通过引入努力的概念解决好奇心-拖延之间的摩擦。从本质上来讲,情境记忆方法是一种仅对需要一定努力而获取的观察数据给与奖励的方法,它建议去避免“自我沉溺的行为”。
根据我们电视迷宫(maze-tv)例子,在转换频道之后,所有的节目将最终在内存中结束。因此,电视节目将不会具有任何吸引力,因为出现在屏幕上的节目顺序是随机的和不可预知的,所有这些节目都已经在存储中了!一个情境存储智能体将检查过去, 以确定它是否看到了与当前类似的观察结果,在这种情况下, 它不会得到任何奖励。
在电视上反复播放几次之后,情景存储代理就不会被即时满足所吸引,而必须去探索电视之外的世界以获得额外的奖励。听起来是不是聪明啊?情景记忆方法把好奇心和图的可达性联系起来。
智能体在剧集开始时以一个空的存储开始,每一步都将当前的观察结果与存储中的观察结果进行比较,以确定它的新颖性。如果当前的观察确实是新颖的 - 那么从记忆中的观察中采取的步骤比阈值更多 - 那么智能体就会奖励自己,并将当前的观察添加到情景存储中。这个过程一直持续到剧集结束, 此时存储将会被抹去。
让我们来看看情景记忆架构的各个组成部分:
1)嵌入和比较器网络:这两个网络的目的是在给定另一个输入观察的情况下预测特定观察的可达性。具体而言,两个网络是基于一个称为R-Network的架构,这是一个由逻辑回归的损失训练的分类器:如果在k步内两个观测从一个到另外一个的可达的概率比较低,那么它的预测值接近于0,反之,当概率是很高时,其值接近于1。
2)情景记忆缓冲器:情景记忆缓冲器存储当前情景中过去的观察结果的嵌入,以便根据特定的观察结果进行评估。
3)奖励估计模块:该模块的目的是检查内存中是否有可达到的观察结果,如果没有,则进行检查。从本质上说,通过从当前状态只采取一些行动,这个模块的检查确保在内存中没有观察可以达到,因此鼓励好奇心。
Google在一系列视觉环境(如ViZDoom和DMLab)中测试了情景记忆强化学习模型,结果非常出色。 在这些环境中,智能体的任务是处理各种问题,例如在迷宫中搜索目标或收集好的内容以及避免坏对象。
DMLab环境碰巧为智能体提供了类似激光科幻小说中物件。 之前关于DMLab的工作中的标准设置是为智能体配备所有任务的小工具,如果智能体不需要特定任务的小工具,则可以免费使用它。
奖励的稀疏性使得这些环境对于大多数传统的强化学习方法而言非常具有挑战性。 当负责在迷宫中搜索高回报的项目时,它更喜欢花时间标记墙壁,因为这会产生很多“惊喜”奖励。