技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音风格提示信息的确定方法及装置、电子设备和介质与流程 > 正文

语音风格提示信息的确定方法及装置、电子设备和介质与流程

国知局
2024-06-21 11:55:32

本发明涉及语音处理，具体而言，涉及一种语音风格提示信息的确定方法及装置、电子设备和介质。

背景技术：

1、语音合成技术是通过机械的电子的方法把文本转换成音频的技术，而个性化的语音合成技术则是用户可以定义语音合成音色的合成技术，个性化的语音合成要求语音合成模型能适应不同音色不同风格的发音人音色进行建模与语音合成。

2、目前，zero-shot即零次学习语音合成是个性化的语音合成技术的研究热点，零次学习语音合成技术为对于任意新的发音人也有建模能力的语音合成技术。其中，语音prompt(提示)工程为语音合成技术中的重要手段，通过给语音合成模型的解码器注入语音风格提示信息，来训练语音合成模型自动迭代式地输出后面音频的能力。

3、然而，现有的语音合成方案的语音prompt工程的结构效率不够高，语音风格提示信息的注入效率较低，且语音风格提示信息的稳定性较差，降低了语音合成的准确性。

技术实现思路

1、本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

2、为此，本发明的第一个方面在于提出一种语音风格提示信息的确定方法。

3、本发明的第二个方面在于提出一种语音合成方法。

4、本发明的第三个方面在于提出一种语音风格提示信息的确定装置。

5、本发明的第四个方面在于提出一种语音合成装置。

6、本发明的第五个方面在于提出一种电子设备。

7、本发明的第六个方面在于提出一种可读存储介质。

8、本发明的第七个方面在于提出一种计算机程序产品。

9、有鉴于此，根据本发明的第一个方面，提出了一种语音风格提示信息的确定方法，该方法包括：根据参考音频，提取参考音频的发音特征以及键值对向量；根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

10、本发明提供的语音风格提示信息的确定方法的技术方案的执行主体可以为电子设备，还可以为语音风格提示信息的确定装置，还可以根据实际使用需求进行确定，在此不作具体限定。为了更加清楚地描述本发明提供的语音风格提示信息的确定方法，下面以语音风格提示信息的确定方法的执行主体为语音风格提示信息的确定装置进行说明。

11、具体地，在本发明所提供的语音风格提示信息的确定方法中，在确定注入到语音合成模型中的语音风格提示信息的过程中，语音风格提示信息的确定装置获取输入到语音合成模型的目标文本以及参考音频，并对参考音频进行预处理，以提取参考音频的发音特征以及键值对向量，进而再根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值。进一步地，语音风格提示信息的确定装置再基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量。在此基础上，语音风格提示信息的确定装置再基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息。这样，本发明基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

12、根据本发明的上述语音风格提示信息的确定方法，还可以具有以下附加技术特征：

13、在一些技术方案中，可选地，键值对向量包括键向量和值向量，根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息，包括：根据注意力机制对应的注意力评分函数，对查询向量和键向量进行注意力打分，得到注意力分值矩阵；将注意力分值矩阵与值向量相乘，得到语音风格提示信息。

14、在该技术方案中，上述键值对向量具体可包括值向量以及键向量，其中值向量记作value，键向量记作key，进一步地，查询向量记作query。在此基础上，在语音风格提示信息的确定装置基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息的过程中，具体地，语音风格提示信息的确定装置利用注意力机制对应的注意力评分函数，对上述确定的键向量key以及查询向量query进行注意力打分，得到每个键向量key以及每个查询向量query的注意力分值，从而得到一个注意力分值矩阵。进一步地，语音风格提示信息的确定装置将上述值向量value与得到的注意力分值矩阵进行相乘，即可得到参考音频的隐状态表征，即得到上述语音风格提示信息。这样，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

15、在一些技术方案中，可选地，语音风格提示信息的确定方法还包括：根据发音特征对目标文本进行编码，得到目标文本的时长预测信息；根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量，包括：将发音特征、预测基频值、预测能量值和时长预测信息进行解码，得到第一声学特征；按照特征维度对第一声学特征、预测基频值和预测能量值进行拼接，得到查询向量。

16、在该技术方案中，在提取参考音频的发音特征之后，语音风格提示信息的确定装置还可基于确定的发音特征，对目标文本进行编码，并对目标文本的音频时长进行预测，得到目标文本的时长预测信息。在此基础上，在语音风格提示信息的确定装置基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量的过程中，具体地，语音风格提示信息的确定装置对发音特征、预测基频值、预测能量值和时长预测信息进行解编码操作，从而预测得到目标文本的第一声学特征。进一步地，语音风格提示信息的确定装置将预测得到的第一声学特征、预测能量值以及预测基频值按照特征维度进行拼接，从而拼接得到注意力机制中的查询向量。这样，保证了得到的查询向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

17、在一些技术方案中，可选地，根据发音特征对目标文本进行编码，得到目标文本的时长预测信息，包括：根据发音特征对目标文本进行编码得到文本内容相关的内容隐状态特征；根据内容隐状态特征得到目标文本的时长预测信息。

18、在该技术方案中，在语音风格提示信息的确定装置基于确定的发音特征，对目标文本进行编码，从而得到目标文本的时长预测信息的过程中，具体地，语音风格提示信息的确定装置根据确定的发音特征对目标文本进行编码，以得到与目标文本的文本内容相关的内容隐状态特征。进一步地，语音风格提示信息的确定装置再根据编码得到的内容隐状态特征，对目标文本进行音素级别时长至声学特征级别时长的预测拓展，从而得到目标文本的时长预测信息。这样，保证了对目标文本进行时长预测的准确性，进而提升了后续确定的语音风格提示信息的稳定性和准确性。

19、在一些技术方案中，可选地，根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值，包括：根据目标文本的时长预测信息对内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征；根据声学隐状态特征和发音特征预测出对应目标文本的预测基频值与预测能量值。

20、在该技术方案中，在语音风格提示信息的确定装置根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值的过程中，具体地，语音风格提示信息的确定装置根据目标文本的时长预测信息对目标文本的内容隐状态特征进行时长扩展，得到与目标音频声学特征时间轴长度对齐的声学隐状态特征。进一步地，语音风格提示信息的确定装置再根据声学隐状态特征和上述发音特征对目标文本的基频值和能量值进行预测，得到目标文本的预测基频值与预测能量值。这样，保证了对目标文本的基频值和能量值进行预测的准确性，从而提升了后续确定的语音风格提示信息的稳定性和准确性。

21、在一些技术方案中，可选地，提取参考音频的键值对向量，包括：提取参考音频的第二声学特征、实际基频值和实际能量值；按照特征维度对第二声学特征、实际基频值和实际能量值进行拼接，得到键值对向量。

22、在该技术方案中，在语音风格提示信息的确定装置提取参考音频的键值对向量的过程中，语音风格提示信息的确定装置提取参考音频的第二声学特征、实际基频值和实际能量值，并将提取到的第二声学特征、实际能量值以及实际基频值按照特征维度进行拼接，从而拼接得到注意力机制中的键值对向量。这样，保证了得到的键值对向量的准确性，从而保证了后续确定的语音风格提示信息的准确性，能够提升后续进行语音合成的准确性。

23、根据本发明的第二个方面，提出了一种语音合成方法，该方法包括：获取目标文本和具有目标语音风格的参考音频；根据如上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

24、本发明提供的语音合成方法的技术方案的执行主体可以为电子设备，还可以为语音合成装置，还可以根据实际使用需求进行确定，在此不作具体限定。为了更加清楚地描述本发明提供的语音合成方法，下面以语音合成方法的执行主体为语音合成装置进行说明。

25、具体地，在本发明所提供的语音合成方法中，在通过语音合成模型合成语音的过程中，语音合成装置获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，语音合成装置按照上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，语音合成装置再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成方法基于上述任一技术方案中的语音风格提示信息的确定方法实现，因此，本发明提供的语音合成方法具备上述任一技术方案中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

26、根据本发明的第三个方面，提出了一种语音风格提示信息的确定装置，该装置包括：处理单元，用于根据参考音频，提取参考音频的发音特征以及键值对向量；处理单元，还用于根据目标文本以及参考音频的发音特征，确定预测基频值与预测能量值；处理单元，还用于根据预测基频值、预测能量值以及参考音频的发音特征，确定查询向量；处理单元，还用于根据注意力机制处理查询向量和键值对向量，得到目标文本的语音风格提示信息。

27、本发明提供的语音风格提示信息的确定装置包括处理单元，在确定注入到语音合成模型中的语音风格提示信息的过程中，处理单元获取输入到语音合成模型的目标文本以及参考音频，并对参考音频进行预处理，以提取参考音频的发音特征以及键值对向量，进而再根据目标文本以及参考音频的发音特征，确定目标文本的预测基频值与预测能量值。进一步地，处理单元再基于预测基频值、预测能量值以及参考音频的发音特征，确定注意力机制中的查询向量。在此基础上，处理单元再基于注意力机制对确定的键值对向量以及查询向量进行处理，从而得到注入到语音合成模型中的目标文本的语音风格提示信息。这样，基于并行式的提示输入机制，利用注意力机制实现任意长度的目标文本的语音风格提示信息的注入与特征融合，提升了语音风格提示信息的稳定性和准确性，提高了语音风格提示信息的注入效率，从而提升了后续进行语音合成的准确性。

28、根据本发明的第四个方面，提出了一种语音合成装置，该装置包括：获取单元，用于获取目标文本和具有目标语音风格的参考音频；处理单元，用于根据如上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息；处理单元，还用于根据目标文本的第一声学特征和语音风格提示信息，确定目标声学特征；处理单元，还用于根据目标声学特征，合成具有目标语音风格且语音内容为目标文本的语音信息。

29、本发明提供的语音合成装置包括获取单元以及处理单元，在通过语音合成模型合成语音的过程中，获取单元获取输入至语音合成模型中的目标文本以及具有目标语音风格的参考音频。进一步地，处理单元按照上述任一技术方案中的语音风格提示信息的确定方法，确定目标文本的语音风格提示信息。进一步地，处理单元再根据语音风格提示信息以及确定语音风格提示信息过程中得到的第一声学特征，确定目标声学特征，并根据目标声学特征，合成语音内容为目标文本且具有目标语音风格的语音信息。本发明提供的语音合成装置基于上述任一技术方案中的语音风格提示信息的确定方法进行语音合成，因此，本发明提供的语音合成装置具备上述任一技术方案中的语音风格提示信息的确定方法的全部有益效果，在此不再赘述。

30、根据本发明的第五个方面，提出了一种电子设备，包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，程序或指令被处理器执行时实现如上述技术方案中的语音合成方法的步骤。因此，本发明第五个方面所提出的电子设备具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第五个方面所提出的电子设备具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

31、根据本发明的第六个方面，提出了一种可读存储介质，其上存储有程序或指令，该程序或指令被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，该程序或指令被处理器执行时实现如上述任一技术方案中的语音合成方法的步骤。因此，本发明第六个方面所提出的可读存储介质具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第六个方面所提出的可读存储介质具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

32、根据本发明的第七个方面，提出了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上述任一技术方案中的语音风格提示信息的确定方法的步骤，或者，该计算机程序被处理器执行时实现如上述任一技术方案中的语音合成方法的步骤。因此，本发明第七个方面所提出的计算机程序产品具备上述第一个方面任一技术方案中的语音风格提示信息的确定方法的全部有益效果，或者，本发明第七个方面所提出的计算机程序产品具备上述第二个方面技术方案中的语音合成方法的全部有益效果，在此不再赘述。

33、本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。