首页 > 信息 > > 正文
2019-05-29 13:43

添加音频数据有助于AI导航3D迷宫

导读视觉是人类主要依赖于导航世界的感觉,但声音可能同样重要 - 已经表明,人们可以学习如何在音频信号的音量,方向和速度上跟随微妙的线索

视觉是人类主要依赖于导航世界的感觉,但声音可能同样重要 - 已经表明,人们可以学习如何在音频信号的音量,方向和速度上跟随微妙的线索。受此启发,东芬兰大学的科学家最近提出了一份预印纸(“ 自主代理受益于听力? ”)的人工智能系统,它可以通过声音补充视觉数据。他们说,初步结果表明,这种方法可以提高代理人在3D迷宫中完成目标的能力。

“只使用视觉信息进行学习对于学习代理来说并不总是那么容易,”共同作者写道。“例如,在有很多房间且代理人和目标之间没有直接视线的情况下,代理人很难仅使用视觉信息到达目标......因此,使用音频功能可以提供有价值的信息。这些问题的信息。“

研究人员的AI采用了深度Q网络的形式,这种模型可以灵活地处理不同类型的数据(即图像像素和音频),并且已经成功应用于Atari游戏。他们在VizDoom上训练它,这是一个建立在第一人称射击游戏Doom上的数字研究环境,有两种不同的音频特征:音高和原始样本。

正如团队解释的那样:“我们将关于环境(到目标的距离)的信息编码到样本的间距中。然后,将样本与图像一起提供给代理......由于距离目标的距离是以...样本的整体间距编码的,因此这些特征可以很容易地被消化以获得代理的有用信息(更高的间距等于更接近目标)。这些功能可作为一种健全性检查,提供有关目标距离的信息对代理人有益。“

在运行自定义VizDoom场景的功能强大的PC上进行的实验中,科学家们要求AI代理人在迷宫中导航 - 即向左,向右,向前或向后 - 转向各个房间。代理商最初采取完全随机的行动,但随着时间的推移,当他们获得实现目标的奖励(一种称为强化学习的技术)时,他们的表现得到了改善。

测试了两种不同类型的设置:一种是将代理随机放置在一个房间中,另一种是在五个房间中的任何一个中产生的。在前者中,与仅使用视觉相比,具有音调和原始音频的视觉信息提供了更好的每次测试的平均奖励,并且在后者的情况下,音频特征与视觉一起使得代理能够“在大多数时间内达到目标”。 “。

“仅使用视觉提供的平均成功率为43%。但是,视觉与原始音频的增强,以及视觉与音高的增加分别提供了87%和86%的平均成功率,“研究人员写道。“同样地,仅使用视觉信息到达目标所需的平均步数是1420.但是,在视觉上添加互补的原始音频和音高会将步数分别减少到751和614。”