首页 > 本地频道 > 教育 > > 正文
2022-01-31 15:45

2022年1月31日 谷歌宣布推出开源安卓语音识别转录工具LiveTranscribe的语音引擎

导读8月18日,谷歌宣布了安卓语音识别转录工具Live script的开源语音引擎。这家公司希望通过这样做,任何开发人员都可以为长时间的对话提供

8月18日,谷歌宣布了安卓语音识别转录工具Live script的开源语音引擎。

这家公司希望通过这样做,任何开发人员都可以为长时间的对话提供字幕,并减少网络延迟和断开连接造成的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国还是认识新朋友,Live script都可以帮助你交流。

通信可以实时流畅(只要有网络),通信可以实时流畅(只要有网络)

谷歌在今年2月发布了Live转录。该工具使用机器学习算法将音频转换为实时字幕。与安卓即将推出的直播字幕功能不同,直播转录是一种全屏体验,它使用智能手机的麦克风(或外接麦克风),依靠谷歌云语音API。现场转录可以实时说70多种语言和方言的标题。另一个主要区别是Live script可以在18亿安卓设备上使用(当Live Caption在今年晚些时候推出时,它只适用于一些安卓Q设备)。

在云上工作

谷歌的云语音API目前不支持发送无限长的音频流。此外,依赖云意味着在网络连接、数据成本和延迟方面存在潜在问题。

因此,语音引擎会在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及在语音中检测到暂停时关闭。在会话之间,语音引擎还会在本地缓冲音频,然后在重新连接时发送。因此,谷歌避免了被截断的句子或单词,并减少了对话中丢失的文本量。

从70多种语言和方言中选择自己的权利,从70多种语言和方言中选择自己的权利。

为了降低带宽要求和成本,谷歌还评估了不同的音频编解码器:FLAC、AMR-WB和Opus。FLAC(无损编解码)可以保持准确性,不保存太多数据,并且有明显的编解码延迟。AMR-WB可以保存大量数据,但在噪声环境下精度较低。

同时,Opus允许数据速率比大多数音乐流媒体服务低很多倍,同时仍然保留音频信号的重要细节。谷歌还将在长时间的沉默中使用语音检测来关闭网络连接。

总体而言,该团队能够“在不影响准确性的情况下将数据使用量减少10倍”。

为了比云语音应用编程接口更进一步降低延迟,实时转录使用了定制的Opus编码器。编码器只是提高了比特率,以至于“延迟无法在视觉上区分发送未压缩的音频”。