2019-11-09 16:46

亚马逊Alexa科学家通过新颖的AI训练技术促进信息检索

如果搜索引擎支持使用机器学习训练的信息检索模型,则需要大量的手动注释数据。这是因为它们不仅必须处理一系列查询,而且还必须处理与这些查询相关的所有数据。幸运的是,亚马逊Alexa部门的科学家详细介绍了一种方法(“ 临时重新排名的基于内容的弱监督”),可以为需要较少人工监督的模型铺平道路。这些可能反过来将训练数据集的大小从数万个条目增加到数百万个,从而导致将来性能更好的系统。

正如团队解释的那样,基于AI的检索算法通常在查询和两个文档上进行训练:一个“相关”文档可以满足用户对信息的搜索,而一个相关但不相关的文档则不能。人工将相关文档标记为相关文档或不相关文档,并且在培训过程中,人工智能系统学会最大限度地提高他们分配给已处理样本的相关评分之间的差异。

相比之下,研究人员的方法利用了这样一个事实,即大量信息检索培训数据(新闻文章和Wikipedia条目)已经与他们介绍的文章和部分中的相关文本相关联。换句话说,他们假设可以使用标题和标题代替搜索字符串来进行培训。

该团队首先从《纽约时报》的在线存储库和Wikipedia中收集了数百万个文档标题对。他们从每一对中使用查询和相关文本(以及与查询相关但与相关文本相比相关性较低的文本)来训练机器学习模型。然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库,以建立基线,然后他们应用了一种算法,该算法可以为每个查询标识相关和不相关的文本。最后,他们为AOL数据集提供了约25,000个手动注释的样本集,并从测试数据中以算法方式选择了样本。

为了确定其方法的有效性,该团队分别在四个测试集(《纽约时报》,维基百科,AOL和手动注释集)中分别训练了AI系统,并对前20个结果的累积相关性进行了评分每个指标均使用称为“标准化折现累计收益”(nDCG)的指标。他们报告说,在基线中,AOL数据集和称为位置感知卷积循环相关网络(PACRR)的AI体系结构的组合产生了最佳结果。在同一系统上,《纽约时报》数据集使nDCG增长了12%。并且,当系统针对难以与给定新目标域中的数据进行区分的示例进行了训练时,得分提高了35%。

共同作者写道:“通过使用我们的方法,可以在没有行为数据且只有有限的域内数据的情况下,在新域上有效地训练神经排名模型。