谷歌云平台博客周二发布公告,将云语音引入语音。
AI Cloud产品经理Dan Aharon表示:“开发人员一直告诉我们,他们希望在自己的应用程序中将文本添加到语音中,所以今天我们通过云文本到语音将这项技术带到了谷歌云平台。”
云到语音是关于机器学习支持的文本到语音的转换。
作为一个应用编程接口,云文本到语音网站表示,您可以跨应用程序和设备创建与用户的交互。云文本到语音支持可以发送REST或gRPC请求的应用程序或设备。这包括手机、个人电脑、平板电脑和物联网设备(如汽车、电视和扬声器)。
什么样的真实应用才合适?包括用例呼叫中心自动化和物联网设备的交互响应。
他说,云文本到语音已经在帮助客户为最终用户提供更好的体验。
(SiliconANGLE的Robert Hoff表示:“自11月以来,已有数十名Alpha用户尝试使用它。”)
客户包括思科和海豚一号。后者将云文本到语音集成到其产品中;他们的用户可以创造“自然的呼叫中心体验”。
什么是谷歌云平台?这是一项云计算服务,运行在谷歌内部相同的基础设施上,用于谷歌搜索和YouTube等产品。现在,TechCrunch的Frederic Lardinois说,“开发人员将能够访问DeepMind开发的文本到语音引擎,该引擎目前被该公司用于其助手和谷歌地图。”
进入WaveNet神经网络架构——直接生成原始音频波形。
Aharon在博客中写道,“云文本到语音还包括一系列由WaveNet构建的高保真语音,这是DeepMind创建的原始音频的生成模型。WaveNet合成更自然的声音,平均生成语音音频。比起其他文本到语音技术,我更喜欢它。”
云文字转语音采用先进的语音技术;机器学习模型中深度思维产生模仿人类声音的语言的研究已经取得了成功。这个演讲听起来很自然,它的团队声称它已经将与人类表现的差距缩小了50%以上。
Lardinois指出了WaveNet对演讲做出特殊贡献的原因:
“与之前的努力不同,WaveNet不会根据一组短语音片段合成语音,这些片段通常会产生你必须熟悉的机器人声音。相反,WaveNet使用机器学习模型对原始音频进行建模。创造更自然的语言。”
Lardinois还简单介绍了WaveNet以及如何解决所有重要的响应速度问题。
“大约一年前,谷歌首次谈到了WaveNet。从那以后,它将这些工具转移到了一个新的基础设施上,该基础设施位于公司自己的张量处理单元上。这使它能够以比以前快1000倍的速度生成这些音频波形,因此现在只需50毫秒就能生成第二个音频。”
它允许开发者用30种声音合成自然声音。此外,它还提供了多种语言和变体。该网站称,它支持12种语言和变体的32种声音。
作者尝试了两种语言。两次尝试看起来都很棒。)
TechCrunch的Frederic Lardinois指出,开发者将能够定制该服务生成的MP3或WAV文件的音调、语速和音量增益。
博客中的Aharon提供了定价信息和文档的链接。

