2022年1月31日谷歌宣布推出开源安卓语音识别转录工具LiveTranscribe的语音引擎

8月18日，谷歌宣布了安卓语音识别转录工具Live script的开源语音引擎。

这家公司希望通过这样做，任何开发人员都可以为长时间的对话提供字幕，并减少网络延迟和断开连接造成的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国还是认识新朋友，Live script都可以帮助你交流。

通信可以实时流畅(只要有网络)，通信可以实时流畅(只要有网络)

谷歌在今年2月发布了Live转录。该工具使用机器学习算法将音频转换为实时字幕。与安卓即将推出的直播字幕功能不同，直播转录是一种全屏体验，它使用智能手机的麦克风(或外接麦克风)，依靠谷歌云语音API。现场转录可以实时说70多种语言和方言的标题。另一个主要区别是Live script可以在18亿安卓设备上使用(当Live Caption在今年晚些时候推出时，它只适用于一些安卓Q设备)。

在云上工作

谷歌的云语音API目前不支持发送无限长的音频流。此外，依赖云意味着在网络连接、数据成本和延迟方面存在潜在问题。

因此，语音引擎会在达到超时之前关闭并重新启动流请求，包括在长时间静默期间重新启动会话，以及在语音中检测到暂停时关闭。在会话之间，语音引擎还会在本地缓冲音频，然后在重新连接时发送。因此，谷歌避免了被截断的句子或单词，并减少了对话中丢失的文本量。

从70多种语言和方言中选择自己的权利，从70多种语言和方言中选择自己的权利。

为了降低带宽要求和成本，谷歌还评估了不同的音频编解码器：FLAC、AMR-WB和Opus。FLAC(无损编解码)可以保持准确性，不保存太多数据，并且有明显的编解码延迟。AMR-WB可以保存大量数据，但在噪声环境下精度较低。

同时，Opus允许数据速率比大多数音乐流媒体服务低很多倍，同时仍然保留音频信号的重要细节。谷歌还将在长时间的沉默中使用语音检测来关闭网络连接。

总体而言，该团队能够“在不影响准确性的情况下将数据使用量减少10倍”。

为了比云语音应用编程接口更进一步降低延迟，实时转录使用了定制的Opus编码器。编码器只是提高了比特率，以至于“延迟无法在视觉上区分发送未压缩的音频”。

2022年1月31日谷歌宣布推出开源安卓语音识别转录工具LiveTranscribe的语音引擎

猜你喜欢

最新文章

2022年1月31日 谷歌宣布推出开源安卓语音识别转录工具LiveTranscribe的语音引擎

猜你喜欢

最新文章

2022年1月31日谷歌宣布推出开源安卓语音识别转录工具LiveTranscribe的语音引擎