旧金山——尽管我们所有的语音识别朋友都很方便,但与他们交谈时,你仍然会觉得自己是在与一位外国亲戚交谈。

无论是Siri(苹果)、Alexa(亚马逊)、谷歌Assistant还是Cortana(微软),每一款软件都要求人们用缓慢而清晰的短语说话,以增加理解的几率。
但微软的研究人员表示,他们已经达到了一个里程碑,预示着未来机器可以像人一样转录我们。在周一发表的一篇名为“实现人类对话语音识别的平面化”的论文中,微软人工智能和研究部门的工程师们宣布,他们已经开发出一种语音识别系统,其错误与专业转录员相同,甚至更少。
这个团队的错误率从上个月报告的6.3%下降到了5.9%。这个5.9%的比率与被要求转录同一段对话的人的比率差不多,而根据微软的数据,这是有记录以来的最低水平。
谷歌Assistant是谷歌硬件发布的明星
“我们已经达到了人类的平等,”该公司首席语言科学家黄学东在一份声明中说。“这是一个历史性的成就。”
语音识别技术的改进势必会对消费者和企业都产生影响。
“这将使Cortana更加强大,使一个真正的智能助手成为可能,”微软人工智能部门负责人哈利森(HarryShum)说。
几乎每家大型科技公司都在向机器学习和人工智能投入大量资源,包括苹果(Apple)、谷歌和亚马逊(Amazon)。亚马逊的alexa Echo出人意料地大受欢迎。
上个月,亚马逊(Amazon)宣布了新的Alexa奖,目标是对开发能够与人类进行长时间交谈的人工智能感兴趣的大学生。获胜的团队将获得50万美元,但如果他们成功让人工智能与人类进行20分钟的互动,亚马逊将额外奖励学生100万美元。
亚马逊Alexa副总裁兼首席科学家罗希特·普拉萨德(Rohit Prasad)在宣布获奖时发表声明称:“一个能连贯交谈20分钟的社交机器人是前所未有的,它至少比最先进的对话人工智能先进五倍。”
三星(Samsung)最近收购了Viv,收购了自己的人工智能专长。Viv是Siri的创始人之一达格•基特劳斯(Dag Kittlaus)开发的一款人工智能语音助手。
微软语音与对话组的负责人杰弗里·茨威格(Geoffrey Zweig)表示,该团队的下一个目标是确保语音识别在现实生活中广泛应用,无论是在派对上还是在有道路噪音的情况下。该团队还将尝试和解决如何教机器分辨不同口音的不同声音的问题。
但是最终,我们的目标不仅仅是正确地听到人们所说的话,而是真正地理解他们的意思,进而采取行动。

