2019-12-06 11:44

人工智能探索将重点从奖励转向好奇

导读(科技Xplore)--加州大学伯克利分校(位于arxiv)的一组研究人员编写了一篇题为“自我监督预测的好奇驱动探索”的论文。 不要被标题吓倒,因为本文从传统的强化学习中讨论了他们在人工智能中的迷人路径。 本月早些时候,共同作者PulkitAgrawal发表的一段视频是他们在国际机器学习会议上的论文摘要。 他们一直在教计算机很好奇。未来主义提出它,"研究人员已经成功地给了人工智能注入了一个好奇的植

(科技Xplore)--加州大学伯克利分校(位于arxiv)的一组研究人员编写了一篇题为“自我监督预测的好奇驱动探索”的论文。

不要被标题吓倒,因为本文从传统的强化学习中讨论了他们在人工智能中的迷人路径。

本月早些时候,共同作者PulkitAgrawal发表的一段视频是他们在国际机器学习会议上的论文摘要。

他们一直在教计算机很好奇。未来主义提出它,"研究人员已经成功地给了人工智能注入了一个好奇的植入物。"

但是,作为作者在视频中提到的"内在好奇心"模型。他们在说什么?

麻省理工学院(MIT)技术审查的骑士会这么说。该模型是由加州大学伯克利分校的研究人员开发的"即使当没有强反馈信号时也能使他们的学习算法工作。"

提交人进一步解释了Giothub."想法是在来自环境的外部奖励是稀疏的情况下,训练具有内在好奇心的激励(ICM)的代理。令人惊讶的是,即使在环境中没有可用的奖励,也可以使用ICM,在这种情况下,代理只学习到好奇:“没有奖励的RL”。"

未来主义说:“这可能是人工智能和现实应用之间的桥梁。”汤姆·沃德(TomWard)说:“目前大多数认可机构都是通过‘强化学习’进行培训的--当他们完成帮助他们达到目标或完成某项功能的任务时,他们会得到奖励。”

他说,“骑士”被认为是一种有好处的方法,因为它使它成为可能的"用于实现在代码中难以定义的事物的机器。"

同时,骑士说,它带来了限制。"Agrawal指出,它经常需要大量的培训来学习任务。"

论文的作者是来自加州大学伯克利分校的DeepakPathak、PulseAgrawal、AlexeiEfros、TrevorDarrell。他们在视频上强调的事实是,在现实世界中,奖励是稀疏的或不存在的。

"在许多现实的场景中,在代理外部的奖励是非常稀疏的,或者完全不存在。在这种情况下,好奇心可以作为一种内在的奖励信号,使其能够探索其环境,并学习在其生活中可能有用的技能。"

例如,在他们的研究中,一个代理学会了如何沿着走廊移动而没有任何非本征的奖励。他们提出的方法在两个环境中进行了评估:Vizdoom和SuperMarioBros。

结果?Knight报告说,在这两场比赛中,"使用人为的好奇心使学习过程更加有效。"

沃德在《未来主义》一书中说:“没有配备好奇升级设备的人工智能反复撞击墙壁,而好奇的人工智能则探索其环境,以了解更多信息。”

为什么这件事?如果他们确实让机器好奇,会导致复杂任务的性能更好吗?关注这些研究人员的进一步工作将是一件有趣的事。MIT技术审查说,"加州大学伯克利分校(UCBerkeley)团队热衷于在机器人上测试,这些机器人使用强化学习来解决问题,比如抓住尴尬的对象。"

研究人员发布了github网页的演示。酒店是在TensortFlow和Openai健身房建立的。

进一步探索

在许多真实世界的场景中,对于代理来说,外在的奖励是极其稀少的,或者完全没有。在这种情况下,好奇心可以作为一个内在的奖励信号,使代理人能够探索它的环境和学习技能,可能是有用的,在它的生活。我们将好奇心描述为Agent在自监督逆动力学模型学习的视觉特征空间中预测自身行为后果的能力的误差。我们的公式尺度到高维连续状态空间,如图像,绕过了直接预测像素的困难,并且,批判性地忽略了环境中无法影响代理的方面。该方法在两个环境中进行了评估:VizDoom和SuperMario Bros.对三种不同的设置进行了研究:1)稀疏的外部奖励,其中好奇心使得与环境的交互达到目标的次数要少得多;2)没有外部奖励的探索,好奇心促使代理更有效地探索;3)推广到未知的场景(例如,同一游戏的新级别),其中从早期的经验中获得的知识可以帮助代理人比从头开始更快地探索新的地方。