技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音帧检测及其模型训练方法、模型产品及电子设备与流程 > 正文

语音帧检测及其模型训练方法、模型产品及电子设备与流程

国知局
2024-06-21 11:27:02

本申请实施例涉及语音数据处理，尤其涉及一种语音帧检测方法、一种语音帧检测模型训练方法、一种语音帧检测模型产品、及对应的电子设备。

背景技术：

1、语音帧检测(voice activity detection，vad)是广泛应用于语音通信和交互场景，在音频编码、混音、自动音量调节、语音唤醒和识别等过程中都具有非常重要作用的一种技术。传统的vad技术只针对通用的语音成分进行检测，而不能检测出特定说话人的语音成分。

2、伴随着机器学习技术的发展，为弥补传统vad不能检测出特定说话人的语音成分的不足，一种针对特定说话人检测的机器学习模型应运而生。在该机器学习模型中，会针对特定说话人进行声纹提取，再基于提取出的声纹从语音帧中检测出特定说话人。但是，声纹提取需要专用的模型，再结合后续的用于语音检测的模型，才能实现特定说话人的语音帧检测。这对于资源有限的设备来说，因模型复杂度及数据处理能耗，成为无法付诸实施的方案。

3、因此，如何在资源有限的设备中实现基于vad的、针对特定说话人的语音帧检测方案，成为亟待解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供一种语音帧检测方案，以至少部分解决上述问题。

2、根据本申请实施例的第一方面，提供了一种语音帧检测方法，包括：获取目标说话人的语音帧数据对应的第一说话人特征，以及，获取目标语音数据中的当前语音帧对应的第二说话人特征，所述目标语音数据为包含至少一个说话人的语音的语音数据；基于所述第一说话人特征，对所述第二说话人特征进行注意力计算，获得对应的特征权重；基于所述特征权重，对所述第二说话人特征进行处理，根据处理结果确定当前语音帧是否为目标说话人的语音帧。

3、根据本申请实施例的第二方面，提供了一种语音帧检测模型训练方法，包括：获取训练样本，所述训练样本包括：第一说话人的第一语音样本和包含多个说话人的语音的第二语音样本，所述第二语音样本包含多个语音帧；将所述训练样本输入待训练的语音帧检测模型，获取第一语音样本对应的第一说话人样本特征，和，第二语音样本对应的第二说话人样本特征；并且，基于所述第一说话人样本特征对所述第二说话人样本特征进行注意力计算，获得对应的特征权重；基于所述特征权重对所述第二说话人样本特征进行处理，并根据处理结果对所述第二语音样本特征进行分类预测，以获得第一说话人的语音帧；根据所述特征权重、预测结果，和预设的损失函数，计算损失值，并基于所述损失值对所述语音帧检测模型进行训练。

4、根据本申请实施例的第三方面，提供了另一种语音帧检测方法，包括：取目标说话人的语音帧数据对应的第一说话人特征，以及，获取实时采集的会议语音数据中的当前语音帧对应的第二说话人特征；基于所述第一说话人特征，对所述第二说话人特征进行注意力计算，获得对应的特征权重；基于所述特征权重，对所述第二说话人特征进行处理，根据处理结果确定当前语音帧是否为目标说话人的语音帧；对所述目标说话人的语音帧进行音频处理。

5、根据本申请实施例的第四方面，提供了一种语音帧检测模型产品，包括：目标说话人特征提取部分、目标语音的说话人特征提取部分、注意力得分部分、和分类器部分；其中：所述目标说话人特征提取部分，用于获取目标说话人的语音帧数据对应的第一说话人特征；所述目标语音的说话人特征提取部分，用于获取目标语音数据中的当前语音帧对应的第二说话人特征；所述注意力得分部分，用于基于所述第一说话人特征，对所述第二说话人特征进行注意力计算，获得对应的特征权重；所述分类器部分，用于根据所述特征权重与所述第二说话人特征的处理结果，确定当前语音帧是否为目标说话人的语音帧。

6、根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述方法对应的操作。

7、根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的方法。

8、根据本申请实施例提供的方案，在进行目标说话人的语音帧检测时，一方面，无需借助于目标说话人的声纹特征，也无需额外的声纹提取模型，只需对目标说话人的语音帧数据进行特征提取，获得其对应的第一说话人特征即可；另一方面，使用目标说话人的第一说话人特征来对目标语音数据的当前语音帧的第二说话人特征进行注意力计算，可以有效增强第二说话人特征与第一说话人特征匹配时的特征值，更简单容易地识别出目标说话人的语音帧，无需复杂的特征对比和匹配。由此，既实现了针对目标说话人的语音帧检测，又降低了模型整体复杂度，以及数据处理能耗，进而也降低了模型对所在设备的资源要求，更易于在资源有限的设备中部署。

技术特征：

1.一种语音帧检测方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述第一说话人特征，对所述第二说话人特征进行注意力计算，获得对应的特征权重，包括：

3.根据权利要求1或2所述的方法，其中，所述基于所述特征权重，对所述第二说话人特征进行处理，根据处理结果确定当前语音帧是否为目标说话人的语音帧，包括：

4.根据权利要求1或2所述的方法，其中，所述获取目标语音数据中的当前语音帧对应的第二说话人特征，包括：

5.根据权利要求1或2所述的方法，其中，所述方法通过语音帧检测模型执行；所述语音帧检测模型包括：目标说话人特征提取部分、目标语音的说话人特征提取部分、注意力得分部分、和分类器部分；

6.一种语音帧检测模型训练方法，包括：

7.根据权利要求6所述的方法，其中，所述基于所述第一说话人样本特征对所述第二说话人样本特征进行注意力计算，获得对应的特征权重，包括：

8.根据权利要求6或7所述的方法，其中，所述根据所述特征权重、预测结果，和预设的损失函数，计算损失值，包括：

9.根据权利要求8所述的方法，其中，所述第一损失函数部分根据所述第二说话人样本特征中各特征对应的特征权重、及各特征对应的权重标签生成。

10.根据权利要求6或7所述的方法，其中，所述语音帧检测模型包括：目标说话人特征提取部分、目标语音的说话人特征提取部分、注意力得分部分、和分类器部分；

11.一种语音帧检测方法，包括：

12.根据权利要求11所述的方法，其中，所述对所述目标说话人的语音帧进行音频处理，包括：

13.一种语音帧检测模型产品，包括：目标说话人特征提取部分、目标语音的说话人特征提取部分、注意力得分部分、和分类器部分；

14.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

技术总结本申请实施例提供了一种语音帧检测及其模型训练方法、模型产品及电子设备，其中，语音帧检测方法包括：获取目标说话人的语音帧数据对应的第一说话人特征，以及，获取目标语音数据中的当前语音帧对应的第二说话人特征，所述目标语音数据为包含至少一个说话人的语音的语音数据；基于所述第一说话人特征，对所述第二说话人特征进行注意力计算，获得对应的特征权重；基于所述特征权重，对所述第二说话人特征进行处理，根据处理结果确定当前语音帧是否为目标说话人的语音帧。通过本申请实施例，既实现了针对目标说话人的语音帧检测，又降低了模型整体复杂度，进而也降低了模型对所在设备的资源要求，更易于在资源有限的设备中部署。技术研发人员：刘粉婷,熊飞飞,郝一亚,周柯辰颖,冯津伟受保护的技术使用者：钉钉（中国）信息技术有限公司技术研发日：技术公布日：2024/2/8