技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音端点检测模型的训练方法、语音端点检测方法及装置与流程 > 正文

语音端点检测模型的训练方法、语音端点检测方法及装置与流程

国知局
2024-06-21 11:48:18

本申请涉及音频处理，尤其涉及一种语音端点检测模型的训练方法、语音端点检测方法及装置。

背景技术：

1、语音端点检测，也称为语音活动检测(voice activity detection，vad)，其目的是对语音和非语音进行区分。具体来说，语音端点检测是为了从带有噪声的音频中准确的定位出语音的开始点和结束点，去掉静音及噪声的部分，找到一段真正有效的语音。

2、利用语音端点检测模型进行语音端点检测，是语音端点检测的主流方式。目前，语音端点检测模型的训练通常是简单的对二分类网络(检测音频是语音，还是非语音)进行训练，训练得到的语音端点检测模型的性能较差，特别是对于未见过的样本，检测的准确性比较低。

技术实现思路

1、本申请提供一种语音端点检测模型的训练方法、语音端点检测方法及装置，以提升语音端点检测模型的性能。

2、第一方面，本申请实施例提供了一种语音端点检测模型的训练方法，包括：

3、将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理，得到所述样本音频的第一隐层特征；所述教师模型是基于无监督训练所得的预训练模型；

4、将所述第一音频特征输入学生模型中进行训练处理，得到训练后的所述学生模型、所述样本音频的第二隐层特征及第一语音端点检测结果；

5、根据所述第一隐层特征、所述第二隐层特征和所述第一语音端点检测结果，确定目标损失；

6、基于所述目标损失对所述训练后的所述学生模型进行训练，得到语音端点检测模型。

7、可以看出，本申请实施例中，将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理，得到样本音频的第一隐层特征；其中，教师模型是基于无监督训练所得的预训练模型；以及，将多个样本音频的第一音频特征输入学生模型中进行训练处理，得到训练后的学生模型、样本音频的第二隐层特征及第一语音端点检测结果；并根据第一隐层特征、第二隐层特征和第一语音端点检测结果，确定目标损失；基于目标损失对训练后的学生模型进行训练，得到语音端点检测模型。由于该训练过程中所使用的教师模型是基于大量无标签样本进行无监督训练所得的预训练模型，因此教师模型的泛化性高、鲁棒性好，能够为学生模型的训练提供有效指导，从而提升训练得到的语音端点检测模型的泛化性和鲁棒性；再者，在训练过程中，教师模型用于提取第一隐层特征，并基于该第一隐层特征指导学生模型的训练，也就是说，整体训练过程还包括隐层特征提取能力的训练，而不再是简单的对二分类网络进行训练，因此，能够提升训练得到的语音端点检测模型的性能，进而提升语音端点检测结果的准确性。

8、第二方面，本申请实施例提供了一种语音端点检测方法，包括：

9、获取待检测音频；

10、将所述待检测音频的第二音频特征输入语音端点检测模型中进行语音端点检测处理，得到第二语音端点检测结果；所述语音端点检测模型是根据上述第一方面提供的语音端点检测模型的训练方法训练得到。

11、可以看出，本申请实施例中，在获取到待检测音频时，将该待检测音频的第二音频特征输入语音端点检测模型中进行语音端点检测处理，得到第二语音端点检测结果。由于该语音端点检测过程中所使用的语音端点检测模型，是将无监督训练所得的预训练模型作为教师模型，并通过该教师模型提取的第一隐层特征指导学生模型进行训练得到的，因此语音端点检测模型的训练不再是简单的对二分类网络进行训练，并且由于教师模型的泛化性高、鲁棒性好，因此能够提升语音端点检测模型的整体性能；从而在语音特征检测、语音增强等语音相关的处理场景中，基于该高性能的语音端点检测模型进行语音端点检测处理，保障了语音端点检测结果的准确性，进而保障了语音特征检测、语音增强等处理的准确性。

12、第三方面，本申请实施例提供了一种语音端点检测模型的训练装置，包括：

13、特征提取模块，用于将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理，得到所述样本音频的第一隐层特征；所述教师模型是基于无监督训练所得的预训练模型；

14、训练模块，用于将所述第一音频特征输入学生模型中进行训练处理，得到训练后的所述学生模型、所述样本音频的第二隐层特征及第一语音端点检测结果；

15、确定模块，用于根据所述第一隐层特征、所述第二隐层特征和所述第一语音端点检测结果，确定目标损失；

16、所述训练模块，还用于基于所述目标损失对所述训练后的所述学生模型进行训练，得到语音端点检测模型。

17、第四方面，本申请实施例提供了一种语音端点检测装置，包括：

18、获取模块，用于获取待检测音频；

19、检测模块，用于将所述待检测音频的第二音频特征输入语音端点检测模型中进行语音端点检测处理，得到第二语音端点检测结果；所述语音端点检测模型是根据上述第一方面提供的语音端点检测模型的训练方法训练得到。

20、第五方面，本申请实施例提供了一种电子设备，包括：

21、处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行上述第一方面提供的语音端点检测模型的训练方法中的步骤，或者所述可执行指令包括用于执行上述第二方面提供的语音端点检测方法中的步骤。

22、第六方面，本申请实施例提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行上述第一方面提供的语音端点检测模型的训练方法，或者所述可执行指令使得计算机执行上述第二方面提供的语音端点检测方法。

技术特征：

1.一种语音端点检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一音频特征输入学生模型中进行训练处理，得到训练后的所述学生模型、所述样本音频的第二隐层特征及第一语音端点检测结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述学生模型包括特征提取网络和预测网络；所述通过所述学生模型对所述第一音频特征进行第二特征提取处理，得到所述样本音频的第二隐层特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一隐层特征、所述第二隐层特征和所述第一语音端点检测结果，确定目标损失，包括：

5.根据权利要求1所述的方法，其特征在于，所述将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述原始音频和所述第二标签进行预处理，得到训练样本集，包括：

7.根据权利要求6所述的方法，其特征在于，所述第二标签包括所述原始音频的每个目标长度所对应的标注信息，所述标注信息表征所述原始音频中所述目标长度的音频是否为有效语音；

8.一种语音端点检测方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述进行语音端点检测处理，得到第二语音端点检测结果，包括：

10.根据权利要求8所述的方法，其特征在于，所述将所述待检测音频的第二音频特征输入语音端点检测模型中进行语音端点检测处理，得到第二语音端点检测结果之前，所述方法还包括：

11.一种语音端点检测模型的训练装置，其特征在于，包括：

12.一种语音端点检测装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如权利要求1-7任一项所述的语音端点检测模型的训练方法，或者所述可执行指令使得计算机执行如权利要求8-10任一项所述的语音端点检测方法。

技术总结本申请实施例提供了一种语音端点检测模型的训练方法、语音端点检测方法及装置，其中训练方法包括：将多个样本音频的第一音频特征输入教师模型中进行第一特征提取处理，得到样本音频的第一隐层特征；将第一音频特征输入学生模型中进行训练处理，得到训练后的学生模型、样本音频的第二隐层特征及第一语音端点检测结果；根据第一隐层特征、第二隐层特征和第一语音端点检测结果，确定目标损失；基于目标损失对训练后的学生模型进行训练，得到语音端点检测模型；其中，教师模型是基于无监督训练所得的预训练模型。通过本申请实施例，提升了语音端点检测模型的性能。技术研发人员：杨斌,陆全,蒋宁,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6