Alphabet的子公司DeepMind 于10月开发了WaveNet,这是一种神经网络,可为Google Assistant的语音合成提供支持。与搜索巨头以前的文本语音转换系统相比,它能够提供更好,更逼真的音频样本,此外,它还可以生成原始音频,而不是来自语音演员的拼接声音。现在,Alphabet的研究人员开发了一个新版本Tacotron 2,该版本使用多个神经网络来产生与人类几乎无法区分的语音。

这是一个样本。第一个是使用Tacotron 2生成的,第二个是配音演员:
音频播放器
使用向上/向下箭头键增加或减小音量。
Tacotron 2由两个深度神经网络组成。正如本月发表的研究论文所描述的那样,第一篇论文将文本翻译成声谱图,即频谱频谱的可视化表示。第二个-DeepMind的WaveNet-解释图表并生成相应的音频元素。结果是一个端到端引擎,该引擎可以强调单词,正确发音的名字,采用句法线索(即,强调单词为斜体或大写),并根据标点改变其发音方式。
目前尚不清楚Tacotron 2是否会进入面向用户的服务(如Google助手),但在这一过程中将是一样的。在DeepMind的WaveNet研究成果发表后不久,Google就在具有助手功能的智能手机,扬声器和平板电脑上推出了多种语言的机器学习支持的语音识别。
仅有一个问题:现在,Tacotron 2系统经过训练可以模仿一种女性声音。为了产生新的声音和语音模式,Google需要再次训练该系统。

