国内

当前位置/ 首页/ 国内/ 正文

AWS Polly在美国西班牙语和巴西葡萄牙语中赢得了神经声音

亚马逊宣布将神经文本语音转换(NTTS)和新闻播音员风格在可将文本转换为语音的云服务Amazon Polly中提供数月后,西雅图公司今天在美国西班牙语和巴西葡萄牙语中首次推出了两种新的NTTS语音:Lupe和卡米拉就像他们前面的美国英语NTTS语音一样,它们通过识别音调模式来模仿语音中的压力和语调之类的东西。

在Amazon Web Services(AWS)的美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧盟(爱尔兰)地区提供Camila和Lupe的神经版本。标准变体还可以在18个AWS区域中使用,从而使Polly的声音总数达到29种语言的61种,而标准和神经版本的声音总数达到四种语言的13种。

根据Amazon文字转语音计划经理Marta Smolarek的说法,新的美国西班牙语语音-Lupe是Polly中的第三种美国文字语音转换-不仅会说西班牙语,而且会讲英语,并且提供完全双语的西班牙语-英语经验。它涵盖了72种英语和西班牙语的音素变体(一种特定语言的感知上不同的声音单位,可将一个单词与另一个单词区分开),而西班牙语中的波利·佩内洛普(Penélope)和米格尔(Miguel)则只有29种音素。

从首次语音请求(标准或NTTS)开始,在前12个月内,每月最多可免费使用100万个字符来进行“文本语音转换”语音。在那之后是有偿的事情。

去年年底,亚马逊在一份研究论文(“数据减少对序列到序列神经TTS的影响”)中详细介绍了其在神经文本到语音转换方面的工作。只需几个小时的培训-而不是数十个小时,配音演员可能需要按照目标风格进行阅读。

亚马逊的AI模型由两个部分组成。第一个是生成神经网络,它将音素序列转换为声谱图序列,或随时间变化的声音频谱频谱的视觉表示。第二个是将这些频谱图转换为连续音频信号的声码器。

音素到频谱图解释器网络是逐序列的,这意味着它不仅仅从对应的输入中计算输出,而是考虑其在输出序列中的位置。亚马逊的科学家除了使用“样式编码”来识别训练示例中使用的特定说话风格外,还使用音素序列和相应的频谱图序列对其进行了训练。该模型的输出被输入到声码器中,该声码器可以从任何说话者那里获取频谱图,而无论它们在训练期间是否被看到。

最终结果?一种AI模型训练方法,该方法将大量中性风格的语音数据与仅几个小时的所需样式的补充数据结合在一起,以及一种能够区分语音元素的AI系统,该语音元素既独立于语音风格又独特于此样式。

凭借Neural Text-To-Speech和新闻播音员的风格,Amazon实际上与Google脱颖而出。Google在2月份在其Cloud Text-to-Speech服务中推出了31种新WaveNet语音和24种新标准语音(带来了WaveNet的总数)声音到57)。它在微软中有另一个竞争对手,该公司通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。