技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音增广方法及相关方法、装置、设备和存储介质与流程 > 正文

语音增广方法及相关方法、装置、设备和存储介质与流程

国知局
2024-06-21 11:56:29

本申请涉及语音处理，特别是涉及一种语音增广方法及相关方法、装置、设备和存储介质。

背景技术：

1、数据增强是诸如语音识别、语音情感分类等语音任务相关模型训练中的一种重要技术，通过数据增强能够对样本语音进行增广，以生成新的样本语音，有助于后续相关模型训练效果。

2、目前，现有技术通常聚焦于对单通道语音进行数据增强，而缺乏对多通道语音的增强方案。有鉴于此，如何在实现多通道语音增广的前提下，尽可能地提升多通道语音增广的多样性，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音增广方法及相关方法、装置、设备和存储介质，能够在实现多通道语音增广的前提下，尽可能地提升多通道语音增广的多样性。

2、为了解决上述技术问题，本申请第一方面提供了一种语音增广方法，包括：获取目标语音；其中，目标语音包含多个语音通道；基于目标语音执行增广处理，得到与目标语音表达相同含义的增广语音；其中，增广处理包括以下至少一项操作：对至少一个语音通道的语谱图执行至少一种谱增广，对至少一个语音通道中语音帧的目标数据以帧为单位进行增广，对至少一个语音通道中语音帧的目标数据以通道为单位进行增广，且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。

3、为了解决上述技术问题，本申请第二方面提供了一种语音处理模型的训练方法，包括：获取样本原始语音；其中，样本原始语音包含多个语音通道；基于样本原始语音，增广得到与样本原始语音表达相同含义的样本增广语音；其中，样本增广语音由样本原始语音作为目标语音通过上述第一方面中的语音增广方法得到；至少基于样本增广语音训练语音处理网络，得到语音处理模型。

4、为了解决上述技术问题，本申请第三方面提供了一种语音处理方法，包括：获取待处理语音；基于语音处理模型对待处理语音进行处理，得到待处理语音的处理结果；其中，语音处理模型至少基于与样本原始语音表达相同含义的样本增广语音训练得到，样本增广语音由样本原始语音作为目标语音通过上述第一方面中的语音增广方法得到，且样本原始语音包含多个语音通道。

5、为了解决上述技术问题，本申请第四方面提供了一种语音增广装置，包括：获取模块和增广模块，获取模块，用于获取目标语音；其中，目标语音包含多个语音通道；增广模块，用于基于目标语音执行增广处理，得到与目标语音表达相同含义的增广语音；其中，增广处理包括以下至少一项操作：对至少一个语音通道的语谱图执行至少一种谱增广，对至少一个语音通道中语音帧的目标数据以帧为单位进行增广，对至少一个语音通道中语音帧的目标数据以通道为单位进行增广，且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。

6、为了解决上述技术问题，本申请第五方面提供了一种语音处理模型的训练装置，包括：获取模块、增广模块和训练模块，获取模块，用于获取样本原始语音；其中，样本原始语音包含多个语音通道；增广模块，用于基于样本原始语音，增广得到与样本原始语音表达相同含义的样本增广语音；其中，样本增广语音由样本原始语音作为目标语音通过上述第四方面中的语音增广装置得到；训练模块，用于至少基于样本增广语音训练语音处理网络，得到语音处理模型。

7、为了解决上述技术问题，本申请第六方面提供了一种语音处理装置，包括：获取模块和处理模块，获取模块，用于获取待处理语音；处理模块，用于基于语音处理模型对待处理语音进行处理，得到待处理语音的处理结果；其中，语音处理模型至少基于与样本原始语音表达相同含义的样本增广语音训练得到，样本增广语音由样本原始语音作为目标语音通过上述第四方面中的语音增广装置得到，且样本原始语音包含多个语音通道。

8、为了解决上述技术问题，本申请第七方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音增广方法，或实现上述第二方面中的语音处理模型的训练方法，或实现上述第三方面中的语音处理方法。

9、为了解决上述技术问题，本申请第八方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的语音增广方法，或实现上述第二方面中的语音处理模型的训练方法，或实现上述第三方面中的语音处理方法。

10、上述方案，获取目标语音，且目标语音包含多个语音通道，再基于目标语音执行增广处理，得到与目标语音表达相同含义的增广语音，且增广处理包括以下至少一项操作：对至少一个语音通道的语谱图执行至少一种谱增广，对至少一个语音通道中语音帧的目标数据以帧为单位进行增广，对至少一个语音通道中语音帧的目标数据以通道为单位进行增广，且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者，故上述第一项操作，能够以语音通道的语谱图为单位对目标语音中语音通道执行谱增广，对于上述第二项操作，能够以语音通道中语音帧的目标数据为单位进行增广，对于上述第三项操作，能够以语音通道为单位进行增广，从而能够对目标语音按照上述至少一项操作进行增广，进而能够大大提升语音增广的多样性。故此，能够在实现多通道语音增广的前提下，尽可能地提升多通道语音增广的多样性。

技术特征：

1.一种语音增广方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对至少一个所述语音通道的语谱图执行至少一种谱增广，包括：

3.根据权利要求1所述的方法，其特征在于，所述对至少一个所述语音通道中语音帧的目标数据以帧为单位进行增广，包括以下至少一者：

4.根据权利要求3所述的方法，其特征在于，所述在各个所述语音通道中选择时间对齐的语音帧作为第一目标帧，包括以下至少一者：

5.根据权利要求3所述的方法，其特征在于，所述在至少一个所述语音通道中分别选择所述语音帧作为第二目标帧，包括以下至少一者：

6.根据权利要求1所述的方法，其特征在于，所述对至少一个所述语音通道中语音帧的目标数据以通道为单位进行增广，包括以下至少一者：

7.一种语音处理模型的训练方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，所述至少基于所述样本增广语音训练语音处理网络，得到语音处理模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述获取在基于所述样本增广语音训练所述语音处理网络过程中所提取到的样本语音特征，包括：

10.一种语音处理方法，其特征在于，包括：

11.一种语音增广装置，其特征在于，包括：

12.一种语音处理模型的训练装置，其特征在于，包括：

13.一种语音处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，至少包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至6任一项所述的语音增广方法，或实现权利要求7至9任一项所述的语音处理模型的训练方法，或实现权利要求10所述的语音处理方法。

15.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至6任一项所述的语音增广方法，或实现权利要求7至9任一项所述的语音处理模型的训练方法，或实现权利要求10所述的语音处理方法。

技术总结本申请公开了一种语音增广方法及相关方法、装置、设备和存储介质，其中，语音增广方法包括：获取目标语音；其中，目标语音包含多个语音通道；基于目标语音执行增广处理，得到与目标语音表达相同含义的增广语音；其中，增广处理包括以下至少一项操作：对至少一个语音通道的语谱图执行至少一种谱增广，对至少一个语音通道中语音帧的目标数据以帧为单位进行增广，对至少一个语音通道中语音帧的目标数据以通道为单位进行增广，且语音帧的目标数据为语音帧本身、语音帧的声学特征中任一者。上述方案，能够在实现多通道语音增广的前提下，尽可能地提升多通道语音增广的多样性。技术研发人员：胡今朝,吴重亮,李永超,吴明辉受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/6/5