技术新讯 > 乐器声学设备的制造及制作,分析技术 > 时钟式层次变分编码器的制作方法  >  正文

时钟式层次变分编码器的制作方法

  • 国知局
  • 2024-06-21 11:27:21

本公开涉及一种用于预测韵律的时钟式(clockwork)层次变分(variational)编码器。

背景技术:

1、语音合成系统使用文本到语音(tts)模型来根据文本输入生成语音。生成/合成的语音应该准确地传达信息(可懂度),同时听起来像具有意图的韵律(prosody)(表达性)的人类语音(自然度)。虽然传统的拼接式和参数式合成模型能够提供可理解的语音,并且语音的神经建模方面的最新进展已经显著提高了合成语音的自然度,但是大多数现有的tts模型在对韵律建模方面是无效的,从而导致重要应用所使用的合成语音缺乏表达性。例如,对于诸如会话助手和长篇式阅读器的应用来说,期望的是通过输入文本输入中没有传达的韵律特征(诸如语调、重音、节奏和风格)来产生真实的语音。例如,简单的语句可以以许多不同的方式讲出,这取决于该语句是否是问题、是否是问题的答案、该语句中是否存在不确定性,或者是否传达输入文本未指定的关于环境或上下文的任何其他含义。

技术实现思路

1、本公开的一个方面提供了一种在合成语音中表示意图的韵律的方法。该方法包括在数据处理硬件处接收具有至少一个词的文本话语,并且由数据处理硬件选择用于该文本话语的话语嵌入。文本话语中的每个词具有至少一个音节,并且每个音节至少有一个音素。话语嵌入表示意图的韵律。对于每个音节,使用所选择的话语嵌入,该方法还包括:由数据处理硬件通过将该音节的每个音素的语言特征与该音节的相对应的韵律音节嵌入进行编码,来预测该音节的持续时间;由数据处理硬件基于音节的预测持续时间来预测音节的基音轮廓;以及由数据处理硬件基于音节的预测持续时间生成多个固定长度的预测基音帧。每个固定长度的预测基音帧表示音节的预测基音轮廓的一部分。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,表示文本话语的层次语言结构的网络包括包含文本话语的每个音节的第一层级、包含文本话语的每个音素的第二层级和包含文本话语的每个音节的每个固定长度的预测基音帧的第三层级。在这些实施方式中,网络的第一层级可以包括表示文本话语的每个音节的长短期记忆(long short-term memory,lstm)处理单体,网络的第二层级可以包括表示文本话语的每个音素的lstm处理单体,并且网络的第三层级可以包括表示每个固定长度的预测基音帧的lstm处理单体。这里,第二层级的lstm处理单体相对于第一层级的lstm处理单体计时并且计时得比第一层级的lstm处理单体更快,而第三层级的lstm处理单体相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快。

3、在一些示例中,预测音节的持续时间包括:对于与音节相关联的每个音素,通过将相对应的音素的语言特征与该音节的相对应的韵律音节嵌入进行编码,来预测相对应的音素的持续时间;以及通过对与音节相关联的每个音素的预测持续时间求和来确定音节的持续时间。在这些示例中,基于音节的预测持续时间来预测音节的基音轮廓可以包括将该音节的相对应的韵律音节嵌入与对相对应的韵律音节嵌入和与该音节相关联的每个相对应的音素的音素层级语言特征的每个编码相组合。

4、在一些实施方式中,该方法还包括,对于每个音节,使用所选择的话语嵌入进行以下操作:由数据处理硬件基于音节中每个音素的预测持续时间来预测音素的能量轮廓;以及对于与音节相关联的每个音素,由数据处理硬件基于该音素的预测持续时间生成多个固定长度的预测能量帧。这里,每个固定长度的能量帧表示相对应的音素的预测能量轮廓。在这些实施方式中,层次语言结构表示文本话语,并且层次语言结构包括包含文本话语的每个音节的第一层级、包含文本话语的每个音素的第二层级、包含文本话语的每个音节的每个固定长度的预测基音帧的第三层级、以及平行于第三层级并且包含文本话语的每个音素的每个固定长度的预测能量帧的第四层级。第一层级可以包括表示文本话语的每个音节的长短期记忆(lstm)处理单体,第二层级可以包括表示文本话语的每个音素的lstm处理单体,第三层级可以包括表示每个固定长度的预测基音帧的lstm处理单体,以及第四层级可以包括表示每个固定长度的预测能量帧的lstm处理单体。这里,第二层级的lstm处理单体相对于第一层级的lstm处理单体计时并且计时得比第一层级的lstm处理单体更快,第三层级的lstm处理单体相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快,并且第四层级的lstm处理单体以与第三层级的lstm处理单体相同的速度计时,并且相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快。

5、在一些示例中,层次语言结构的第三层级包括在单次中预测每个音节的预测基音帧的前馈层,和/或层次语言结构的第四层级包括在单次中预测每个音素的预测能量帧的前馈层。此外,固定长度的预测能量帧和固定长度的预测基音帧的长度可以相同。附加地或替选地,为所接收的文本话语的每个音素生成的固定长度的预测能量帧的总数可以等于为接收到的文本话语的每个音节生成的固定长度的预测基音帧的总数。

6、在一些实施方式中,该方法还包括:由数据处理硬件接收包括多个参考音频信号的训练数据,每个参考音频信号包括人类语音的讲出的话语并具有相对应的韵律;以及由数据处理硬件通过将每个参考音频信号编码成表示参考音频信号的相对应的韵律的相对应的固定长度的话语嵌入来训练韵律模型的深度神经网络。话语嵌入可以包括固定长度的数值向量。

7、本公开的另一方面提供了一种用于在合成语音中表示意图韵律的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,这些指令当在数据处理硬件上运行时,使得数据处理硬件执行操作。这些操作包括接收具有至少一个词的文本话语,并且选择用于该文本话语的话语嵌入。文本话语中的每个词具有至少一个音节,并且每个音节至少有一个音素。话语嵌入表示意图的韵律。对于每个音节,在使用所选择的话语嵌入的情况下,这些操作还包括:通过将该音节的每个音素的语言特征与该音节的相对应的韵律音节嵌入进行编码,来预测该音节的持续时间;基于音节的预测持续时间来预测音节的基音轮廓;以及基于音节的预测持续时间生成多个固定长度的预测基音帧。每个固定长度的预测基音帧表示音节的预测基音轮廓的一部分。

8、这个方面可以包括以下可选特征中一个或多个。在一些实施方式中,表示文本话语的层次语言结构的网络包括包含文本话语的每个音节的第一层级、包含文本话语的每个音素的第二层级和包含文本话语的每个音节的每个固定长度的预测基音帧的第三层级。在这些实施方式中,网络的第一层级可以包括表示文本话语的每个音节的长短期记忆(longshort-term memory,lstm)处理单体,网络的第二层级可以包括表示文本话语的每个音素的lstm处理单体,并且网络的第三层级可以包括表示每个固定长度的预测基音帧的lstm处理单体。这里,第二层级的lstm处理单体相对于第一层级的lstm处理单体计时并且计时得比第一层级的lstm处理单体更快,而第三层级的lstm处理单体相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快。

9、在一些示例中,预测音节的持续时间包括:对于与音节相关联的每个音素,通过将相对应的音素的语言特征与该音节的相对应的韵律音节嵌入进行编码,来预测相对应的音素的持续时间;以及通过对与音节相关联的每个音素的预测持续时间求和来确定音节的持续时间。在这些示例中,基于音节的预测持续时间来预测音节的基音轮廓可以包括将该音节的相对应的韵律音节嵌入与对相对应的韵律音节嵌入和与该音节相关联的每个相对应的音素的音素层级语言特征的每个编码相组合。

10、在一些实施方式中,这些操作还包括,对于每个音节,在使用所选择的话语嵌入的情况下:基于音素的预测持续时间来预测音节中每个音素的能量轮廓;以及对于与音节相关联的每个音素,基于该音素的预测持续时间生成多个固定长度的预测能量帧。这里,每个固定长度的能量帧表示相对应的音素的预测能量轮廓。在这些实施方式中,层次语言结构表示文本话语,并且层次语言结构包括包含文本话语的每个音节的第一层级、包含文本话语的每个音素的第二层级、包含文本话语的每个音节的每个固定长度的预测基音帧的第三层级、以及平行于第三层级并且包含文本话语的每个音素的每个固定长度的预测能量帧的第四层级。第一层级可以包括表示文本话语的每个音节的长短期记忆(lstm)处理单体,第二层级可以包括表示文本话语的每个音素的lstm处理单体,第三层级可以包括表示每个固定长度的预测基音帧的lstm处理单体,以及第四层级可以包括表示每个固定长度的预测能量帧的lstm处理单体。这里,第二层级的lstm处理单体相对于第一层级的lstm处理单体计时并且计时得比第一层级的lstm处理单体更快,第三层级的lstm处理单体相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快,并且第四层级的lstm处理单体以与第三层级的lstm处理单体相同的速度计时,并且相对于第二层级的lstm处理单体计时并且计时得比第二层级的lstm处理单体更快。

11、在一些示例中,层次语言结构的第三层级包括在单次中预测每个音节的预测基音帧的前馈层,和/或层次语言结构的第四层级包括在单次中预测每个音素的预测能量帧的前馈层。此外,固定长度的预测能量帧和固定长度的预测基音帧的长度可以相同。附加地或替选地,为所接收的文本话语的每个音素生成的固定长度的预测能量帧的总数可以等于为接收到的文本话语的每个音节生成的固定长度的预测基音帧的总数。

12、在一些实施方式中,这些操作还包括:接收包括多个参考音频信号的训练数据,每个参考音频信号包括人类语音的讲出的话语并具有相对应的韵律;以及通过将每个参考音频信号编码成表示参考音频信号的相对应的韵律的相对应的固定长度的话语嵌入来训练韵律模型的深度神经网络。话语嵌入可以包括固定长度的数字向量。

13、在以下附图和描述中阐述了本公开的一个或多个实施方式的细节。其他方面、特征和优点根据说明书和附图以及权利要求书将变得显而易见。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21630.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。