Alphabet的Tacotron2文字转语音引擎的声音与人类几乎无法区分

Alphabet的子公司DeepMind 于10月开发了WaveNet，这是一种神经网络，可为Google Assistant的语音合成提供支持。与搜索巨头以前的文本语音转换系统相比，它能够提供更好，更逼真的音频样本，此外，它还可以生成原始音频，而不是来自语音演员的拼接声音。现在，Alphabet的研究人员开发了一个新版本Tacotron 2，该版本使用多个神经网络来产生与人类几乎无法区分的语音。

这是一个样本。第一个是使用Tacotron 2生成的，第二个是配音演员：

音频播放器

使用向上/向下箭头键增加或减小音量。

Tacotron 2由两个深度神经网络组成。正如本月发表的研究论文所描述的那样，第一篇论文将文本翻译成声谱图，即频谱频谱的可视化表示。第二个-DeepMind的WaveNet-解释图表并生成相应的音频元素。结果是一个端到端引擎，该引擎可以强调单词，正确发音的名字，采用句法线索(即，强调单词为斜体或大写)，并根据标点改变其发音方式。

目前尚不清楚Tacotron 2是否会进入面向用户的服务(如Google助手)，但在这一过程中将是一样的。在DeepMind的WaveNet研究成果发表后不久，Google就在具有助手功能的智能手机，扬声器和平板电脑上推出了多种语言的机器学习支持的语音识别。

仅有一个问题：现在，Tacotron 2系统经过训练可以模仿一种女性声音。为了产生新的声音和语音模式，Google需要再次训练该系统。

Alphabet的Tacotron2文字转语音引擎的声音与人类几乎无法区分

猜你喜欢

最新文章