谷歌的WaveNet通过识别音调模式来模仿语音中的压力和语调等功能,但今天却不甘示弱,亚马逊今天宣布在亚马逊Polly中提供Neural Text-To-Speech和newscaster样式的通用服务,该服务将文本转换为语音。

正如亚马逊网络服务技术传播者朱利安·西蒙(Julien Simon)在博客文章中所指出的那样,“神经文本到语音”通过增加自然度和表达力,显着改善了语音质量。
至于新闻播音员的风格,它使新闻报道和博客文章等内容的旁白听起来“更加真实”,Simon表示,这是由Neural Text-To-Speech的底层机器学习算法实现的。他写道:“感谢波莉(Polly)和新闻播音员的风格,[听众]…可以欣赏高质量声音阅读的文章,听起来像他们希望在电视或广播中听到的一样。”
Globe and Mail,Gannett,BlueToad,TIM Media,大不列颠百科全书,非营利性教育技术公司CommonLit和游戏开发商Volley等客户已经通过Polly使用新闻播报员风格。在一月份,亚马逊悄悄将其部署到支持Alexa的设备上,以进行每日简报和Wikipedia片段旁白。
新闻播音员样式可用于两种英语语音,而神经文本语音转换可用于11种语音,包括三种美国英语语音和八种美国英语语音。两者均实时且以批处理方式工作,目前在美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧洲(爱尔兰)AWS地区均可访问。
从首次语音请求(标准或NTTS)开始,在前12个月内,每月最多可免费使用100万个字符来进行“文本语音转换”语音。在那之后是有偿的事情。
使用AI产生人性化语音
去年年底,亚马逊在一份研究论文(“ 数据减少对序列到序列神经TTS的影响 ”)中详细介绍了其在神经文本到语音转换方面的工作,研究人员在其中描述了一种可以学会采用新的口语风格的系统。只需几个小时的培训-而不是数十个小时,配音演员可能需要按照目标风格进行阅读。
亚马逊的AI模型由两个部分组成。第一个是生成神经网络,其将音素的序列-即与另一个区分开一个字,如声音的感知上不同的单元P,B,d,和吨在垫和 轻拍到谱图的一个序列,或视觉-随时间变化的声音频谱表示。第二个是将这些频谱图转换为连续音频信号的声码器。
音素到频谱图解释器网络是逐序列的,这意味着它不仅仅从对应的输入中计算输出,而是考虑其在输出序列中的位置。亚马逊的科学家除了使用“样式编码”(还标识了训练示例中使用的特定说话风格)之外,还使用音素序列和相应的频谱图序列对其进行了培训。该模型的输出被输入到声码器中,该声码器可以从任何说话者那里获取频谱图,而无论它们在训练期间是否被看到。
最终结果?一种AI模型训练方法,该方法将大量中性风格的语音数据与仅几个小时的所需样式的补充数据结合在一起,以及一种能够区分语音元素的AI系统,该语音元素既独立于语音风格又独特于此样式。Amazon TTS Research高级经理安德鲁·布雷恩(Andrew Breen)在上一篇博客文章中写道:“能够根据客户请求的上下文来教导Alexa调整其说话风格的能力,使我们有可能提供以前无法想象的新颖而令人愉悦的体验,”
凭借Neural Text-To-Speech和新闻播音员的风格,亚马逊实际上与Google 脱颖而出。Google 在2月份在其Cloud Text-to-Speech服务中推出了 31种新的WaveNet语音和24种新的标准语音(带来了WaveNet的总数)声音到57)。它在微软中有另一个竞争对手,该公司通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。

