技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、电子设备及存储介质与流程 > 正文

语音处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:48:34

本申请涉及语音处理，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术：

1、非自回归tts(text to speech，文本到语音)模型吸引了工业界和学术界越来越多的关注，其中最受关注的当属语音合成模型fastspeech2，fastspeech2的输入为音素数据(包括拼音和韵律)，输出为音频数据，如梅尔频谱mel-spectrogram，mel-spectrogram再经声码器处理后生成语音。目前，fastspeech2利用第三方python包分别提取各项特征信息，如音调、音高等，不仅忽略了各项特征信息之间的相关性，且不考虑语音韵律和不同说话人之间的关系，导致合成的语音韵律感较差。因此，亟需一种能够提升语音韵律感的语音处理方法。

技术实现思路

1、本申请实施例的目的是提供一种语音处理方法、装置、电子设备及存储介质，用以提升语音合成的韵律感和个性化。

2、为解决上述技术问题，本申请实施例是这样实现的：

3、一方面，本申请实施例提供一种语音处理，包括：

4、将待处理的目标音素数据和说话人的说话风格信息输入语音处理模型，确定所述目标音素数据对应的目标音频数据；所述目标音频数据与所述说话风格信息相匹配；

5、所述确定所述目标音素数据对应的目标音频数据，包括：

6、提取所述目标音素数据的初始音素特征信息；

7、根据所述初始音素特征信息和所述说话风格信息，提取所述目标音素数据的目标特征信息；所述目标特征信息包括与所述说话人相匹配的语速特征信息、音调特征信息、音高特征信息和情感特征信息中的至少一项；

8、根据所述目标特征信息和所述初始音素特征信息对所述目标音素数据进行语音合成，得到所述目标音频数据。

9、另一方面，本申请实施例提供一种语音处理装置，包括：

10、第一模型处理模块，用于将待处理的目标音素数据和说话人的说话风格信息输入语音处理模型，确定所述目标音素数据对应的目标音频数据；所述目标音频数据与所述说话风格信息相匹配；所述第一模型处理模块确定所述目标音素数据对应的目标音频数据时，执行为以下步骤：

11、提取所述目标音素数据的初始音素特征信息；

12、根据所述初始音素特征信息和所述说话风格信息，提取所述目标音素数据的目标特征信息；所述目标特征信息包括与所述说话人相匹配的语速特征信息、音调特征信息、音高特征信息和情感特征信息中的至少一项；

13、根据所述目标特征信息和所述初始音素特征信息对所述目标音素数据进行语音合成，得到所述目标音频数据。

14、再一方面，本申请实施例提供一种电子设备，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述语音处理方法。

15、再一方面，本申请实施例提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现上述语音处理方法。

16、采用本申请实施例的技术方案，通过语音处理模型来合成目标音素数据的目标音频数据，由于语音处理模型具备对目标音素数据的目标特征信息(包括语速特征信息、音调特征信息、音高特征信息和情感特征信息中的至少一项)的提取能力，且各项特征信息是同时依赖于初始音素特征信息和说话风格信息提取出的，因此在特征提取过程中充分考虑了各项特征信息之间的相关性，例如音素和语速之间的相关性、音素和音调之间的相关性、音素和音高之间的相关性以及音素和情感之间的相关性，使得特征提取更加丰富、完整。并且，由于说话人可以是任意人，那么说话人的说话风格信息可以是任意类型的风格，因此，根据说话人的说话风格信息提取出的目标特征信息能够在一定程度上反映出说话人的说话语速特点、说话停顿特点、说话声音特点、说话情感特点等，因此基于目标特征信息所合成的目标音频数据能够与说话人的风格相匹配，例如，若输入说话人“张三”的说话风格信息，则可以生成与说话人“张三”的说话风格相符的目标音频数据；若输入说话人“李四”的说话风格信息，则可以生成与说话人“李四”的说话风格相符的目标音频数据，使得合成的目标音频数据的韵律感更优，更具有个性化。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音处理模型包括：音素特征提取模块、风格特征提取模块和音频生成模块；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述风格特征提取模块根据所述初始音素特征信息和所述说话风格信息，提取所述目标音素数据的所述目标特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述处理后的第一融合特征信息，提取所述目标音素数据的局部特征信息，包括：

6.根据权利要求2所述的方法，其特征在于，所述音频生成模块根据所述目标特征信息和所述初始音素特征信息对所述目标音素数据进行语音合成，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述音频属性信息，对所述目标音素数据进行语音合成，包括：

8.根据权利要求1所述的方法，其特征在于，所述语音处理模型通过以下步骤训练得到：

9.一种电子设备，其特征在于，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-8任一项所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-8任一项所述的语音处理方法。

技术总结本申请实施例公开了一种语音处理方法、装置、电子设备及存储介质。所述方法包括：将待处理的目标音素数据和说话人的说话风格信息输入语音处理模型，提取所述目标音素数据的初始音素特征信息；根据所述初始音素特征信息和所述说话风格信息，提取所述目标音素数据的目标特征信息；所述目标特征信息包括与所述说话人相匹配的语速特征信息、音调特征信息、音高特征信息和情感特征信息中的至少一项；根据所述目标特征信息和所述初始音素特征信息对所述目标音素数据进行语音合成，得到目标音素数据的目标音频数据。本申请能够提升语音合成的韵律感和个性化。技术研发人员：刘鹏飞受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6