技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹识别模型训练数据生成方法、装置、电子设备及介质与流程 > 正文

声纹识别模型训练数据生成方法、装置、电子设备及介质与流程

国知局
2024-06-21 10:40:49

本发明涉及人工智能，尤其涉及一种声纹识别模型训练数据生成方法、装置、电子设备及介质。

背景技术：

1、声纹识别是一种通过分析和比较声音特征来验证个体身份的技术，在医疗健康行业中，声纹识别被广泛运用于客户的身份验证，通过验证客户的声纹，可以确保只有授权人员能够访问其个人医疗记录和敏感信息。

2、然而，声纹识别模型在跨信道识别方面面临着挑战，网络信道和电话信道在声音采集和传输方面存在较大差异，这导致了两种信道之间的声音特征差异，数据的缺乏是导致跨信道声纹识别模型开发困难的主要原因，缺乏足够的样本来代表不同信道下同一人的声音特征，会导致模型无法准确地捕捉信道间的差异，模型无法从充分的样本中学习到不同信道下声音特征的变化模式，因此如何提升声纹识别模型训练数据的完整性，成为了亟待解决的问题。

技术实现思路

1、本发明提供一种声纹识别模型训练数据生成方法、装置、电子设备及介质，其主要目的在于解决声纹识别模型训练数据的完整性较低的问题。

2、为实现上述目的，本发明提供的一种声纹识别模型训练数据生成方法，包括：

3、获取声纹识别模型的共享语音数据，对所述共享语音数据进行语音标识，得到所述共享语音数据的语音标识数据；

4、利用预设的信道录音设备生成所述语音标识数据的跨信道音频；

5、根据所述语音标识数据所对应的语音标识对所述跨信道音频进行音频分类，得到所述跨信道音频的跨信道分类音频；

6、根据所述跨信道分类音频生成所述声纹识别模型的训练数据。

7、可选地，所述获取声纹识别模型的共享语音数据，包括：

8、确定所述声纹识别模型的语音数据来源，根据所述语音数据来源生成所述声纹识别模型的语音下载数据；

9、利用预设的编写脚本对所述语音下载数据进行数据读取，得到所述语音下载数据的音频数据；

10、对所述音频数据进行数据串联，得到所述音频数据的串联数据，确定所述串联数据为所述声纹识别模型的共享语音数据。

11、可选地，所述对所述共享语音数据进行语音标识，得到所述共享语音数据的语音标识数据，包括：

12、逐个获取所述共享语音数据中语音片段的片段信息；

13、根据所述片段信息生成所述语音片段的片段标识；

14、利用所述片段标识与所述语音片段的关联关系生成所述共享语音数据的语音标识数据。

15、可选地，所述利用预设的信道录音设备生成所述语音标识数据的跨信道音频，包括：

16、逐个选取所述语音标识数据中子语音标识数据为目标标识数据；

17、利用预设的高保真音响设备对所述目标标识数据进行语音播放，得到所述目标标识数据的播放音频；

18、利用预设的信道录音设备对所述播放音频进行音频录制，得到所述播放音频的录制音频。

19、确定所述录制音频为所述语音标识数据的跨信道音频。

20、可选地，所述利用预设的信道录音设备对所述播放音频进行音频录制，得到所述播放音频的录制音频，包括：

21、利用预设的电话信道录音设备对所述播放音频进行电话音频录制，得到所述播放音频的电话录制音频；

22、利用预设的网络信道录音设备对所述播放音频进行网络音频录制，得到所述播放音频的网络录制音频；

23、汇集所述电话录制音频和所述网络录制音频为所述播放音频的录制音频。

24、可选地，所述根据所述语音标识数据所对应的语音标识对所述跨信道音频进行音频分类，得到所述跨信道音频的跨信道分类音频，包括：

25、确定所述跨信道音频的音频标签，计算所述音频标签与所述语音标识数据所对应的语音标识的标签相似性；

26、根据所述标签相似性确定所述跨信道音频的音频类别；

27、利用所述音频类别对所述跨信道音频进行音频分类，得到所述跨信道音频的跨信道分类音频。

28、可选地，所述根据所述跨信道分类音频生成所述声纹识别模型的训练数据，包括：

29、对所述跨信道分类音频进行特征提取，得到所述跨信道分类音频的音频特征；

30、对所述音频特征进行特征增强，得到所述音频特征的增强特征；

31、生成所述增强特征的特征标签，根据所述特征标签和所述增强特征生成所述声纹识别模型的训练数据。

32、为了解决上述问题，本发明还提供一种声纹识别模型训练数据生成装置，所述装置包括：

33、语音标识模块，用于获取声纹识别模型的共享语音数据，对所述共享语音数据进行语音标识，得到所述共享语音数据的语音标识数据；

34、跨信道音频生成模块，用于利用预设的信道录音设备生成所述语音标识数据的跨信道音频；

35、音频分类模块，用于根据所述语音标识数据所对应的语音标识对所述跨信道音频进行音频分类，得到所述跨信道音频的跨信道分类音频；

36、训练数据生成模块，用于根据所述跨信道分类音频生成所述声纹识别模型的训练数据。

37、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

38、至少一个处理器；以及，

39、与所述至少一个处理器通信连接的存储器；其中，

40、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的声纹识别模型训练数据生成方法。

41、为了解决上述问题，本发明还提供一种介质，所述介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的声纹识别模型训练数据生成方法。

42、本发明实施例通过获取声纹识别模型的共享语音数据，确保所述共享语音数据包含了广泛的代表性样本，对所述共享语音数据进行语音标识，将每段语音转换为对应的语音标识，确保语音标识的准确性和可靠性，利用预设的信道录音设备生成所述语音标识数据的跨信道音频，可以收集到不同型号录音设备采集到的录音数据，使用这种数据训练的声纹模型可以更好的克服掉不同收音设备带来的干扰，克服信道差异，通过对跨信道音频进行分类，可以将不同信道条件下的声纹样本分组，并根据语音标识数据的标签信息进行分类，这种分类可以帮助模型区分和学习不同信道条件下的声音特征，从而提高模型在真实场景中的鲁棒性和泛化能力，根据跨信道分类音频数据，生成用于训练声纹识别模型的数据集，在生成训练数据时，采用合适的特征提取方法，能够从音频中提取出与说话人身份相关的声学特征，可以帮助模型学习更准确和鲁棒的声学特征表达，因此本发明提出声纹识别模型训练数据生成方法、装置、电子设备及介质，可以解决声纹识别模型训练数据完整性较低的问题。

技术特征：

1.一种声纹识别模型训练数据生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的声纹识别模型训练数据生成方法，其特征在于，所述获取声纹识别模型的共享语音数据，包括：

3.如权利要求1所述的声纹识别模型训练数据生成方法，其特征在于，所述对所述共享语音数据进行语音标识，得到所述共享语音数据的语音标识数据，包括：

4.如权利要求1所述的声纹识别模型训练数据生成方法，其特征在于，所述利用预设的信道录音设备生成所述语音标识数据的跨信道音频，包括：

5.如权利要求4所述的声纹识别模型训练数据生成方法，其特征在于，所述利用预设的信道录音设备对所述播放音频进行音频录制，得到所述播放音频的录制音频，包括：

6.如权利要求1所述的声纹识别模型训练数据生成方法，其特征在于，所述根据所述语音标识数据所对应的语音标识对所述跨信道音频进行音频分类，得到所述跨信道音频的跨信道分类音频，包括：

7.如权利要求1至6中任一项所述的声纹识别模型训练数据生成方法，其特征在于，所述根据所述跨信道分类音频生成所述声纹识别模型的训练数据，包括：

8.一种声纹识别模型训练数据生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的声纹识别模型训练数据生成方法。

技术总结本发明涉及人工智能技术领域，揭露了一种声纹识别模型训练数据生成方法，包括：获取声纹识别模型的共享语音数据，对共享语音数据进行语音标识，得到共享语音数据的语音标识数据；利用预设的信道录音设备生成语音标识数据的跨信道音频；根据语音标识数据所对应的语音标识对跨信道音频进行音频分类，得到跨信道音频的跨信道分类音频；根据跨信道分类音频生成声纹识别模型的训练数据。此外，本发明还涉及区块链技术，共享语音数据可存储于区块链的节点。本发明还提出一种声纹识别模型训练数据生成装置、电子设备以及生成跨信道声纹识别模型训练数据。本发明可以应用于数字医疗领域，可以提高声纹识别模型的训练数据的完整性。技术研发人员：贺亚运,王健宗,彭俊清受保护的技术使用者：平安科技（上海）有限公司技术研发日：技术公布日：2024/1/22