脸书的研究人员建立了一个数据集来训练个性化的对话代理

脸书的研究人员最近汇编了一个包含500万个角色和7亿个基于角色的对话的数据集。这个数据库可以用来训练端到端的对话系统，从而在计算机代理和人类之间产生更有吸引力和丰富的对话。

会话系统，或称会话代理(CA)，是一种计算机系统，旨在通过文本、语音、图形或其他方法以一致的方式与人类进行通信。到目前为止，基于神经结构的对话系统，例如LSTMs或记忆网络，已经被发现在实现平滑通信方面特别有前途，尤其是当直接训练对话日志时。

研究人员在论文中写道，“他们的一个主要优势是，可以在没有任何专家知识的情况下，依靠现有对话的大量数据源，学习涵盖各个领域的知识。”“然而，另一方面，他们也表现出有限的参与，尤其是在聊天设置：中。他们缺乏一致性，不像(甚至有些)脚本化聊天机器人那样使用主动参与策略。”

在最近的一项研究中，来自蒙特利尔学习算法研究所(MILA)和脸书人工智能的另一组研究人员创建了一个名为PERSONA-CHAT的数据集，其中包括具有文本简档的代理之间的对话。他们发现，为特定角色训练对话系统可以提高他们的互动参与度。

在论文中，研究人员解释了：“然而，这个聊天的人的数据集是使用基于土耳其机器人的人工数据收集机制创建的。”“因此，无论是对话框还是人物角色都不能完全代表真实的用户-机器人交互，数据集的覆盖范围仍然有限，包含1k多个不同的人物角色。”

为了解决以前编译的数据集的局限性，脸书研究人员创建了一个新的大规模的基于人物角色的对话数据集，该数据集由从在线平台Reddit中提取的对话组成。他们的研究采用了更具代表性的互动方式，将之前的工作向前推进了一步。

研究者写道：“在这篇论文中，我们使用之前从Reddit中提取的对话来构建一个基于人物角色的非常大的对话数据集。”“使用简单的启发式方法，我们创建了一个超过500万个字符的语料库，覆盖了超过7亿个对话。”

为了评估其有效性，研究人员在他们新开发的数据集上训练了一个基于人物角色的端到端对话系统。在数据集上训练的系统可以有更吸引人的对话，这比训练期间没有访问人物角色的其他对话代理要好。

有趣的是，他们的数据集产生了最先进的结果，尽管对话系统只是预先训练的。在未来，这些发现可能会导致开发出更有吸引力的聊天机器人，这些机器人也可以被个性化和训练以获得特定的角色。

研究者写道：“我们发现训练模型可以使答案与作者的性格和背景相一致，从而可以提高预测效果。”“因为培训前的培训使工作表现有了显著的提升，未来的工作可以针对不同的对话系统对这种模式进行微调。”