技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学特征确定方法、装置、电子设备及语音合成系统与流程 > 正文

声学特征确定方法、装置、电子设备及语音合成系统与流程

国知局
2024-06-21 11:44:46

本技术涉及语音合成，尤其涉及一种声学特征确定方法、装置、电子设备及语音合成系统。

背景技术：

1、语音合成系统通常由前端、声学模型和声码器三部分组成。前端主要实现文本处理、文本转音素、韵律停顿预测等功能；声学模型主要实现音素转成与语音直接相关的声学特征；声码器则实现声学特征转换成语音。

2、现有的声学模型通常采用非流式结构，以整个语句为基本处理单元，基于整个语句的音素韵律特征，将整个语句的声学特征均预测得到后，再将声学特征输出并转换成语音。但是，将整个语句的声学特征均预测得到后，再将声学特征输出并转换成语音，会使得确定声学特征的响应时间较长，进而影响语音合成的响应速度。

技术实现思路

1、基于上述需求，本技术提出一种声学特征确定方法、装置、电子设备及语音合成系统，能够减少确定声学特征的响应时长，从而提高语音合成的响应速度。

2、为实现上述目的，本技术提出如下技术方案：

3、根据本技术实施例的第一方面，提供了一种声学特征确定方法，包括：

4、获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征；其中，所述短句集合中包括对所述待转换语句进行语句切分后得到的至少两个短句；

5、对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征；其中，所述第一短句为所述短句集合中的任意一个短句；

6、基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征，预测所述第一短句对应的声学特征；所述声学特征用于合成与所述第一短句对应的语音。

7、可选的，对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征，包括：

8、对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，得到所述短句集合对应的上下文音素韵律特征；

9、基于所述上下文音素韵律特征中历史短句对应的特征，确定所述第一短句对应的历史音素韵律特征；所述历史短句为所述短句集合中第一短句之前的短句；

10、基于所述上下文音素韵律特征中未来语句对应的特征，确定所述第一短句对应的未来音素韵律特征；所述未来短句为所述短句集合中第一短句之后的短句。

11、可选的，对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征，基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征，预测所述第一短句对应的声学特征，包括：

12、将所述短句集合中的各个短句对应的音素韵律特征和所述第一短句对应的音素韵律特征均输入到预先训练的第一声学模型中，得到所述第一短句对应的声学特征；

13、其中，所述第一声学模型对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征，基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征，预测所述第一短句对应的声学特征。

14、可选的，所述第一声学模型的训练过程，包括：

15、预先采集样本转换语句对应的样本短句集合，并确定所述样本短句集合中各个样本短句对应的音素韵律特征；所述样本短句集合中包括对所述样本转换语句进行语句切分后得到的至少两个样本短句；

16、将所述样本短句集合中的各个样本短句对应的音素韵律特征和第一样本短句对应的音素韵律特征输入到所述第一声学模型中，得到所述第一样本短句对应的第一样本预测信息，以及，将所述样本短句集合中的各个样本短句对应的音素韵律特征输入到预先训练的第二声学模型中，得到所述样本短句集合对应的第二样本预测信息；所述第一样本短句为所述样本短句集合中的任意一个样本短句；

17、基于所述第一样本预测信息和所述第二样本预测信息，对所述第一声学模型进行模型参数调整。

18、可选的，所述第一样本预测信息包括：所述第一样本短句对应的第一音素韵律编码特征和第一样本声学特征；所述第二样本预测信息包括：所述样本短句集合对应的第二音素韵律编码特征和第二样本声学特征；

19、其中，所述第一音素韵律编码特征是所述第一声学模型中的编码器基于所述第一样本短句对应的音素韵律特征、样本历史音素韵律特征和样本未来音素韵律特征进行编码得到的；所述第一样本声学特征是所述第一声学模型中的解码器对所述第一音素韵律编码特征进行解码得到的；所述第二音素韵律编码特征是所述第二声学模型中的编码器基于所述样本短句集合中的各个样本短句对应的音素韵律特征进行编码得到的；所述第二样本声学特征是所述第二声学模型中的解码器对所述第二音素韵律编码特征进行解码得到的。

20、可选的，基于所述第一样本预测信息和所述第二样本预测信息，对所述第一声学模型进行模型参数调整，包括：

21、基于所述第一音素韵律编码特征与所述第二音素韵律编码特征之间的损失函数，以及，所述第一样本声学特征和所述第二样本声学特征之间的损失函数，对所述第一声学模型进行模型参数调整。

22、可选的，所述第二声学模型的训练过程，包括：

23、获取至少两个发音人的第一样本录音数据，所述第一样本录音数据包括：第一样本录音文本和第一样本音频；

24、将所述第一样本录音文本对应的音素韵律特征输入到所述第二声学模型中，得到所述第一样本录音文本对应的第一预测声学特征；

25、基于所述第一预测声学特征和所述第一样本音频对应的真实声学特征之间的损失函数，对所述第二声学模型进行模型参数调整。

26、可选的，所述第二声学模型的训练过程，还包括：

27、获取目标发音人的第二样本录音数据，所述第二样本录音数据包括：第二样本录音文本和第二样本音频；

28、将所述第二样本录音文本对应的音素韵律特征输入到所述第二声学模型中，得到所述第二样本录音文本对应的第二预测声学特征；

29、基于所述第二预测声学特征和所述第二样本音频对应的真实声学特征之间的损失函数，对所述第二声学模型进行模型参数微调。

30、根据本技术实施例的第二方面，提供了一种声学特征确定装置，包括：

31、特征获取模块，用于获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征；其中，所述短句集合中包括对所述待转换语句进行语句切分后得到的至少两个短句；

32、上下文特征提取模块，用于对所述短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征；其中，所述第一短句为所述短句集合中的任意一个短句；

33、声学特征预测模块，用于基于所述第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征，预测所述第一短句对应的声学特征；所述声学特征用于合成与所述第一短句对应的语音。

34、根据本技术实施例的第三方面，提供了一种电子设备，包括：存储器和处理器；

35、所述存储器与所述处理器连接，用于存储程序；

36、所述处理器，用于通过运行所述存储器中的程序，实现上述声学特征确定方法。

37、根据本技术实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述声学特征确定方法。

38、根据本技术实施例的第五方面，提供了一种语音合成系统，包括：前端设备、声学特征确定设备和声码器；

39、所述前端设备，用于确定待转换语句对应的短句集合中的各个短句对应的音素韵律特征；所述短句集合中包括对所述待转换语句进行语句切分后得到的至少两个短句；

40、所述声学特征确定设备，用于通过执行上述声学特征确定方法确定所述短句集合中的短句对应的声学特征；

41、所述声码器，用于基于所述短句集合中的短句对应的声学特征，确定所述所述短句集合中的短句对应的短句语音。

42、本技术提出的声学特征确定方法，获取待转换语句对应的短句集合中的各个短句对应的音素韵律特征；其中，短句集合中包括对待转换语句进行语句切分后得到的至少两个短句；对短句集合中的各个短句对应的音素韵律特征进行上下文特征提取处理，并从提取的特征中确定出第一短句对应的历史音素韵律特征和未来音素韵律特征；其中，第一短句为短句集合中的任意一个短句；基于第一短句对应的音素韵律特征、历史音素韵律特征和未来音素韵律特征，预测第一短句对应的声学特征，声学特征用于合成与第一短句对应的语音。采用本技术的技术方案，对待转换语句切分成的每个短句的声学特征进行依次预测，相比于对待转换语句的声学特征进行整句预测，能够实现声学特征的流式预测，减少确定声学特征的响应时长，进而提高语音合成的响应速度。