技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法、装置、电子设备及存储介质与流程 > 正文

语音处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:48:18

本申请涉及语音处理，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术：

1、非自回归tts(text to speech，文本到语音)模型吸引了工业界和学术界越来越多的关注，其中最受关注的当属语音合成模型fastspeech2，fastspeech2因其优秀的语音合成效果和响应速度，赢得了大多数互联网公司的关注，并将其运用于线上。fastspeech2的输入为音素数据(包括拼音和韵律)，输出为音频数据，如梅尔频谱mel-spectrogram，mel-spectrogram再经声码器处理后生成语音。目前，fastspeech2的韵律主要是基于音素级别的，导致生成的语音在情感表现力和自然度方面效果不是很好。

技术实现思路

1、本申请实施例的目的是提供一种语音处理方法、装置、电子设备及存储介质，用以提升语音合成在情感表现力和自然度方面的效果。

2、为解决上述技术问题，本申请实施例是这样实现的：

3、一方面，本申请实施例提供一种语音处理方法，包括：

4、将待处理的目标音素数据输入语音处理模型得到目标音频数据；

5、所述将待处理的目标音素数据输入语音处理模型得到目标音频数据包括：

6、提取所述目标音素数据的第一音素特征信息；

7、根据所述第一音素特征信息，提取所述目标音素数据的目标特征信息；所述目标特征信息包括第二音素特征信息、词语特征信息和说话风格特征信息；

8、根据所述目标特征信息和所述第一音素特征信息，对所述目标音素数据进行语音合成，得到所述目标音素数据的目标音频数据。

9、再一方面，本申请实施例提供一种语音处理装置，包括：

10、模型处理模块，用于将待处理的目标音素数据输入语音处理模型得到目标音频数据；

11、所述模型处理模块在将待处理的目标音素数据输入语音处理模型得到目标音频数据时，执行为以下步骤；

12、提取所述目标音素数据的第一音素特征信息；

13、根据所述第一音素特征信息，提取所述目标音素数据的目标特征信息；所述目标特征信息包括第二音素特征信息、词语特征信息和说话风格特征信息；

14、根据所述目标特征信息和所述第一音素特征信息，对所述目标音素数据进行语音合成，得到所述目标音素数据的目标音频数据。

15、再一方面，本申请实施例提供一种电子设备，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述语音处理方法。

16、再一方面，本申请实施例提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现上述语音处理方法。

17、采用本申请实施例的技术方案，通过将待处理的目标音素数据输入语音处理模型，提取目标音素数据的第一音素特征信息，进而根据第一音素特征信息提取目标音频数据的目标特征信息，目标特征信息包括第二音素特征信息、词语特征信息和说话风格特征信息。然后，根据目标样本特征信息和第一音素特征信息对目标音素数据进行语音合成，得到目标音素数据的目标音频数据。由于预先训练的语音处理模型具备对词语特征信息和说话风格特征信息的提取能力，以及将音素特征信息、词语特征信息和说话风格特征信息进行特征融合的能力，即音素、词语和说话风格三种粒度上的特征融合能力，并且，说话风格特征信息(如说话语速特点、说话停顿特点、说话声音特点等)能够用于表征说话者的情感特征，音素特征信息、词语特征信息和说话风格特征信息之间的融合不仅使音素和词语之间的对应更加准确，如位置关系之间的对应，且能够提升音频质量，因此，利用语音处理模型能够避免仅从音素层面提取特征时导致音质损失的情况，使得合成的目标音频数据不仅在情感表现力方面的效果更优，且语音音质更好、更加自然。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音处理模型包括：音素特征提取模块、特征提取模块和音频生成模块；

3.根据权利要求2所述的方法，其特征在于，所述特征提取模块包括：局部特征提取层、特征关联层和全局特征提取层；

4.根据权利要求2所述的方法，其特征在于，所述音频生成模块包括：可变信息预测器和音频生成层；

5.根据权利要求4所述的方法，其特征在于，所述融合特征信息包括融合特征向量；

6.根据权利要求4所述的方法，其特征在于，所述音频生成层根据所述音频属性信息，对所述目标音素数据进行语音合成，包括：

7.根据权利要求1所述的方法，其特征在于，所述语音处理模型通过如下步骤训练得到：

8.一种语音处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-7任一项所述的语音处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-7任一项所述的语音处理方法。

技术总结本申请公开了一种语音处理方法、装置、电子设备及存储介质。方法包括：将待处理的目标音素数据输入语音处理模型得到目标音频数据；将待处理的目标音素数据输入语音处理模型得到目标音频数据包括：提取目标音素数据的第一音素特征信息；根据第一音素特征信息，提取目标音素数据的目标特征信息；目标特征信息包括第二音素特征信息、词语特征信息和说话风格特征信息；根据目标特征信息和第一音素特征信息，对目标音素数据进行语音合成，得到目标音素数据的目标音频数据。本申请能够提升语音合成在情感表现力和自然度方面的效果。技术研发人员：刘鹏飞受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6