技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹特征更新方法及装置、计算机可读存储介质、终端与流程 > 正文

声纹特征更新方法及装置、计算机可读存储介质、终端与流程

国知局
2024-06-21 11:28:53

本发明涉及声纹认证，具体地涉及一种声纹特征更新方法及装置、计算机可读存储介质、终端。

背景技术：

1、声纹识别系统主要包括声纹注册和声纹认证两个过程。在声纹注册阶段，需要采集来自同一目标用户的n段注册语音；然后利用声纹特征提取模型分别对所述n段注册语音进行声纹特征提取，得到对应的n个注册声纹特征，再进行特征融合，获得最终的注册声纹模板。在声纹认证阶段，需采集该目标用户的待认证语音，同样需对该待认证语音进行声纹特征提取，得到待认证声纹特征；然后根据待认证声纹特征与注册声纹模板的相似度大小，判断是否通过认证。

2、然而，在声纹注册阶段，目标用户录入的注册语音易受到周围环境(如环境噪声)和自身主客观因素(如生理或心理状况差异，主要表现为人在精神紧张时或随着年龄的增大，其声音会出现变化)的影响，导致部分注册声纹特征的质量不高，从而降低特征融合获得的注册声纹模板的质量。而如果后续声纹认证阶段均采用该注册声纹模板进行相似度计算，可能会导致认证结果的准确度和可信度降低。

3、针对上述问题，现有的一种常规解决方案是将目标用户的质量较差的注册声纹特征删除，并在确保周围环境或自身条件影响较低的情况下重新进行语音注册。这种方式不仅增加了注册流程和操作，且难以从客观上保证注册语音(对应于注册声纹特征)的质量。另一种解决方案是增加声纹特征提取模型的训练数据的多样性，比如采取对训练数据加噪、扰动等方式提高声纹特征提取模型的鲁棒性，降低环境等因素对提取的注册声纹特征的影响程度。然而，现实世界中影响注册声纹特征质量的主客观因素(例如，噪声类型)非常多样，难以穷尽各种可能情形，且训练数据集的前期处理以及模型重新训练也会增加成本。

技术实现思路

1、本发明实施例解决的技术问题是如何对注册声纹特征以及注册声纹模板进行持续有效地更新，提高注册声纹模板的质量，进而提高声纹认证结果的准确度和可信度。

2、为解决上述技术问题，本发明实施例提供一种声纹特征更新方法，包括以下步骤：响应于接收到声纹认证请求，确定待认证声纹特征及其与原始注册声纹模板之间的第一相似度，其中，所述原始注册声纹模板是基于n个注册声纹特征进行特征融合确定的，所述n个注册声纹特征是对同一目标用户的n段注册语音进行声纹特征提取得到的，n≥2且n为正整数；对所述第一相似度与第二相似度进行比较，其中，所述第二相似度是所述n个注册声纹特征与所述原始注册声纹模板之间的n个相似度中的最小相似度；如果所述第一相似度大于所述第二相似度，则采用所述待认证声纹特征替换所述第二相似度所属的注册声纹特征，得到n个更新后的注册声纹特征，并基于n个更新后的注册声纹特征进行特征融合处理，以确定更新后的注册声纹模板。

3、可选的，所述确定待认证声纹特征及其与原始注册声纹模板之间的第一相似度，包括：获取原始待认证语音，然后对所述原始待认证语音进行去噪处理，得到去噪后待认证语音；对所述原始待认证语音进行声纹特征提取，得到第一候选声纹特征，以及对所述去噪后待认证语音进行声纹特征提取，得到第二候选声纹特征；确定所述第一候选声纹特征与所述原始注册声纹模板的相似度，记为第一候选相似度，以及确定所述第二候选声纹特征与所述原始注册声纹模板的相似度，记为第二候选相似度；确定所述第一候选相似度和第二候选相似度中的较大相似度，并将该较大相似度所属的候选声纹特征作为所述待认证声纹特征，以及将该较大相似度作为所述第一相似度。

4、可选的，在对所述第一相似度与第二相似度进行比较之前，所述方法还包括：对所述待认证声纹特征进行认证，且确认声纹认证通过。

5、可选的，对所述待认证声纹特征进行认证，且确认声纹认证通过，包括：对所述第一相似度与预设的相似度阈值进行比较；如果所述第一相似度大于所述相似度阈值，则确认声纹认证通过。

6、可选的，所述方法还包括：如果所述第一相似度小于等于所述相似度阈值，则确认声纹认证失败，并保持所述n个注册声纹特征以及所述原始注册声纹模板不变。

7、可选的，所述方法还包括：如果所述第一相似度小于或等于所述第二相似度，则保持所述n个注册声纹特征以及所述原始注册声纹模板不变。

8、可选的，所述基于n个更新后的注册声纹特征进行特征融合处理，以确定更新后的注册声纹模板，包括：对所述n个更新后的注册声纹特征进行平均池化以及长度规整处理，得到所述更新后的注册声纹模板。

9、本发明实施例还提供一种声纹特征更新装置，包括：相似度确定模块，用于响应于接收到声纹认证请求，确定待认证声纹特征及其与原始注册声纹模板之间的第一相似度，其中，所述原始注册声纹模板是基于n个注册声纹特征进行特征融合确定的，所述n个注册声纹特征是对同一目标用户的n段注册语音进行声纹特征提取得到的，n≥2且n为正整数；相似度比较模块，用于对所述第一相似度与第二相似度进行比较，其中，所述第二相似度是所述n个注册声纹特征与所述原始注册声纹模板之间的n个相似度中的最小相似度；声纹特征更新模块，用于如果所述第一相似度大于所述第二相似度，则采用所述待认证声纹特征替换所述第二相似度所属的注册声纹特征，得到n个更新后的注册声纹特征，并基于n个更新后的注册声纹特征进行特征融合处理，以确定更新后的注册声纹模板。

10、本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述声纹特征更新方法的步骤。

11、本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述声纹特征更新方法的步骤。

12、与现有技术相比，本发明实施例的技术方案具有以下有益效果：

13、在实际应用中，由于n个注册声纹特征中，与原始注册声纹模板相似度最小(对应于第二相似度)的注册声纹特征，大概率是注册阶段受环境噪声或注册用户生理/心理影响最大的注册语音的声纹特征，该注册声纹特征通常被认为质量较差。本实施方案通过在声纹认证阶段评估待认证声纹特征与原始注册声纹模板的第一相似度，并在第一相似度大于第二相似度的情况下，采用待认证声纹特征替换掉n个注册声纹特征中与原始注册声纹模板的相似度最小的注册声纹特征，得到n个更新后的注册声纹特征，再融合获得更新后的注册声纹模板。由此，在终端设备的声纹认证功能的日常使用过程中，即可实现注册声纹模板持续有效更新，从而不断提高注册声纹模板的质量，提高声纹认证准确度和可信度。

14、进一步，由于对待认证语音进行去噪处理可能产生的正面和负面两种可能的效果，因此，在本发明实施例中，通过分别计算第一候选声纹特征以及第二候选声纹特征与所述原始注册声纹模板的相似度，选取计算得到的两个相似度中的较大一个，将较大相似度所属的候选声纹特征作为所述待认证声纹特征，以及将该较大相似度作为所述第一相似度。其中，候选声纹特征与所述原始注册声纹模板的相似度越大，则该候选声纹特征包含的声纹特征信息更加接近于用户的实际声纹特征信息，此种情况下，通常可以认为该候选声纹特征的质量越佳。之后在满足第一相似度大于第二相似度的情况下，可以采用该质量较佳的候选声纹特征替换掉与质量最差的注册声纹特征。由此，实现对注册声纹特征的有效更新。进一步，基于质量更佳的更新后注册声纹特征，有助于融合得到质量更佳的更新后注册声纹模板，从而提高声纹认证结果的准确度和可信度。