技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理方法及相关装置、设备和存储介质与流程 > 正文

语音处理方法及相关装置、设备和存储介质与流程

国知局
2024-06-21 11:52:51

本申请涉及语音处理，特别是涉及一种语音处理方法及相关装置、设备和存储介质。

背景技术：

1、语音处理技术在诸如语音识别、语音翻译、语音合成等各种任务中均具有极为广泛的应用场景。

2、目前，随着机器学习的不断发展，通过网络模型实现语音处理已经在上述众多场景中得到应用。然而，现有技术通常进行范式化地特征提取，导致无法适用于不同处理任务，从而影响语音处理任务的处理精度。有鉴于此，如何区分不同处理任务进行语音处理，以提升语音处理的处理精度，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音处理方法及相关装置、设备和存储介质，能够区分不同处理任务进行语音处理，以提升语音处理的处理精度。

2、为了解决上述技术问题，本申请第一方面提供了一种语音处理方法，包括：获取待处理数据；其中，待处理数据中至少包含待处理语音和用于指示对待处理语音执行目标任务的提示文本；提取待处理语音的第一特征表示；基于各种语音属性的混合专家系统分别处理第一特征表示，得到对应语音属性的语音属性特征，并基于语言属性的混合专家系统处理第一特征表示，得到语言属性的语言属性特征；基于目标任务将各种语音属性的语音属性特征与语言属性的语言属性特征进行自适应融合，得到融合属性特征；至少基于融合属性特征执行目标任务，得到语音处理结果。

3、为了解决上述技术问题，本申请第二方面提供了一种语音处理装置，包括：数据获取模块、特征提取模块、属性解耦模块、特征融合模块和任务执行模块，数据获取模块，用于获取待处理数据；其中，待处理数据中至少包含待处理语音和用于指示对待处理语音执行目标任务的提示文本；特征提取模块，用于提取待处理语音的第一特征表示；属性解耦模块，用于基于各种语音属性的混合专家系统分别处理第一特征表示，得到对应语音属性的语音属性特征，并基于语言属性的混合专家系统处理第一特征表示，得到语言属性的语言属性特征；特征融合模块，用于基于目标任务将各种语音属性的语音属性特征与语言属性的语言属性特征进行自适应融合，得到融合属性特征；任务执行模块，用于至少基于融合属性特征执行目标任务，得到语音处理结果。

4、为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音处理方法。

5、为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的语音处理方法。

6、上述方案，获取待处理数据，且待处理数据中至少包含待处理语音和用于指示对待处理语音执行目标任务的提示文本，再提取待处理语音的第一特征表示，从而基于各种语音属性的混合专家系统分别处理第一特征表示，得到对应语音属性的语音属性特征，并基于语言属性的混合专家系统处理第一特征表示，得到语言属性的语言属性特征。在此基础上，基于目标任务将各种语音属性的语音属性特征与语言属性的语言属性特征进行自适应融合，得到融合属性特征，再至少基于融合属性特征执行目标任务，得到语音处理结果，故通过各种语音属性的混合专家系统处理第一特征表示，能够从第一特征表示中解耦出各种不同语音属性的语音属性特征，而通过语言属性的混合专家系统处理第一特征表示，能够从第一特征表示中解耦出语言属性的语言属性特征，进而能够实现对不同属性的独立抽取，相较于范式化地特征提取，有助于在不同处理任务中灵活控制各种属性特征。故此，能够区分不同处理任务进行语音处理，以提升语音处理的处理精度。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语言属性的混合专家系统设置于大语言模型中执行参数微调的目标网络内。

3.根据权利要求2所述的方法，其特征在于，所述语言属性的混合专家系统在所述语音属性的混合专家系统训练收敛之后训练得到，所述语言属性的混合专家系统的训练步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标任务将各种所述语音属性的语音属性特征与所述语言属性的语言属性特征进行自适应融合，得到融合属性特征之前，所述方法还包括：

5.根据权利要求1或4所述的方法，其特征在于，所述融合属性特征由特征融合网络基于所述目标任务自适应选择至少一种所述语音属性的调整属性特征，与所述语言属性特征进行融合得到，且所述特征融合网络基于不同样本任务的样本数据训练得到，所述样本数据包括样本语音以及所述样本语音执行所述样本任务之后的期望处理结果。

6.根据权利要求5所述的方法，其特征在于，所述特征融合网络的训练步骤包括：

7.根据权利要求1所述的方法，其特征在于，所述语音属性的混合专家系统的训练步骤包括：

8.根据权利要求1所述的方法，其特征在于，在所述目标任务为语音合成的情况下，所述待处理数据还包括待合成文本，所述至少基于所述融合属性特征执行所述目标任务，得到语音处理结果之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述各种语音属性包括：风格属性、语种属性、韵律属性、音色属性、内容属性、背景属性中的至少一者；

10.一种语音处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，至少包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音处理方法。

12.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音处理方法。

技术总结本申请公开了一种语音处理方法及相关装置、设备和存储介质，其中，语音处理方法包括：获取待处理数据；其中，待处理数据中至少包含待处理语音和用于指示对待处理语音执行目标任务的提示文本；提取待处理语音的第一特征表示；基于各种语音属性的混合专家系统分别处理第一特征表示，得到对应语音属性的语音属性特征，并基于语言属性的混合专家系统处理第一特征表示，得到语言属性的语言属性特征；基于目标任务将各种语音属性的语音属性特征与语言属性的语言属性特征进行自适应融合，得到融合属性特征；至少基于融合属性特征执行目标任务，得到语音处理结果。上述方案，能够区分不同处理任务进行语音处理，以提升语音处理的处理精度。技术研发人员：万根顺,熊世富,高建清,刘聪,刘庆峰受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/5/19