如果您对虚拟助手无法令人满意地回答问题而感到沮丧,不必担心-亚马逊的研究人员正在研究这种情况。上周在ACM SIGIR信息检索研究与开发会议上在巴黎发表的一篇新发表的论文中,西雅图公司的Alexa AI自然理解小组的一个团队提出了一种问答技术(“ 通过加入多文档来回答复杂的问题准知识图的证据”,证明了与竞争方法相比“明显的改进”。

正如主要作者Abdalghani Abujabal在博客文章中解释的那样,大多数计算机问答系统都采用以下两种方法之一:它们执行文本搜索并尝试推断文本中命名的实体之间的关系,或者使用手工制作的知识图编码这些关系。这对于诸如“哪个诺兰电影曾获得奥斯卡奖但错过了金球奖?”这样的复杂问题变得棘手,文本搜索将需要一个文档,其中包含回答该问题所需的所有信息,而知识图则必须代表该问题所隐含的每种关系。明确地。
研究人员试图将两全其美的系统结合在一起,该系统基于输入的问题,使用问题的全文作为搜索字符串,执行标准的文本搜索(普通的Web搜索)。在应用算法来识别每个文档中的命名实体和词性之前,它会检索搜索算法排名最高的10个左右文档,特别是主题谓词-对象三元组,例如“ Nolan,directed,Inception”和“ The Social Network,获奖者” ,最佳剧本。”最后,它可以动态地识别出所识别的实体和词性,构成一个“临时”知识图。
构造后,系统利用现有图的句法线索和数据(例如词典和嵌入)来确定图中哪些名称引用相同的实体。为名称对齐方式分配了置信度得分,并且搜索算法将查找图中的基石,或与搜索字符串中的各个单词非常匹配的单词。
该系统找出连接基石的路径上的问题的答案,并根据两个标准对其进行评估:数据三元组的长度和置信度得分以及名称对齐。它消除了除最短和最高置信度以外的所有路径,并从图中除去了所有基石。以及所有未命名实体的节点。
最终,该算法根据几个标准(例如将它们连接到基石的路径的权重以及它们与基石的距离)对其余实体进行排名,然后将剩余实体作为搜索问题的答案返回。
该团队报告说,在使用两个不同数据集和三个不同性能指标的36个测试中,他们的系统在34个基础上跑赢了三个基准,并在其他两个基础上获得了接近第二的成绩,平均改善了25%(最高80%)超过表现最佳的基准。他们留待以后的工作,将临时知识图与现有的,经过策划的知识图相集成,并相应地调整搜索算法。

