添加音频数据有助于AI导航3D迷宫

视觉是人类主要依赖于导航世界的感觉，但声音可能同样重要 - 已经表明，人们可以学习如何在音频信号的音量，方向和速度上跟随微妙的线索。受此启发，东芬兰大学的科学家最近提出了一份预印纸(“ 自主代理受益于听力? ”)的人工智能系统，它可以通过声音补充视觉数据。他们说，初步结果表明，这种方法可以提高代理人在3D迷宫中完成目标的能力。

“只使用视觉信息进行学习对于学习代理来说并不总是那么容易，”共同作者写道。“例如，在有很多房间且代理人和目标之间没有直接视线的情况下，代理人很难仅使用视觉信息到达目标......因此，使用音频功能可以提供有价值的信息。这些问题的信息。“

研究人员的AI采用了深度Q网络的形式，这种模型可以灵活地处理不同类型的数据(即图像像素和音频)，并且已经成功应用于Atari游戏。他们在VizDoom上训练它，这是一个建立在第一人称射击游戏Doom上的数字研究环境，有两种不同的音频特征：音高和原始样本。

正如团队解释的那样：“我们将关于环境(到目标的距离)的信息编码到样本的间距中。然后，将样本与图像一起提供给代理......由于距离目标的距离是以...样本的整体间距编码的，因此这些特征可以很容易地被消化以获得代理的有用信息(更高的间距等于更接近目标)。这些功能可作为一种健全性检查，提供有关目标距离的信息对代理人有益。“

在运行自定义VizDoom场景的功能强大的PC上进行的实验中，科学家们要求AI代理人在迷宫中导航 - 即向左，向右，向前或向后 - 转向各个房间。代理商最初采取完全随机的行动，但随着时间的推移，当他们获得实现目标的奖励(一种称为强化学习的技术)时，他们的表现得到了改善。

测试了两种不同类型的设置：一种是将代理随机放置在一个房间中，另一种是在五个房间中的任何一个中产生的。在前者中，与仅使用视觉相比，具有音调和原始音频的视觉信息提供了更好的每次测试的平均奖励，并且在后者的情况下，音频特征与视觉一起使得代理能够“在大多数时间内达到目标”。 “。

“仅使用视觉提供的平均成功率为43%。但是，视觉与原始音频的增强，以及视觉与音高的增加分别提供了87%和86%的平均成功率，“研究人员写道。“同样地，仅使用视觉信息到达目标所需的平均步数是1420.但是，在视觉上添加互补的原始音频和音高会将步数分别减少到751和614。”

添加音频数据有助于AI导航3D迷宫

猜你喜欢

最新文章