技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声纹处理方法、装置、设备、存储介质和程序产品与流程 > 正文

声纹处理方法、装置、设备、存储介质和程序产品与流程

国知局
2024-06-21 10:40:10

本技术实施例涉及音频检索，尤其涉及一种声纹处理方法、装置、设备、存储介质和程序产品。

背景技术：

1、目前的声纹识别技术在训练和实际应用时，使用的声音数据一般是说话人平常说话的声音数据。

2、然而，由于歌手平常说话的声音数据是较难获取的，因此，使用歌手平常说话的声音数据来确定歌手的声纹是具有较高成本的。对于音乐作品中歌手的声音数据，由于音乐作品中伴有大量的伴奏和音效等背景音乐声，而歌手平常说话的声音数据中除了人声部分之外只有较少的杂音，因此，音乐作品中歌手的声音数据会因为受到背景音乐声的影响，从而与歌手平常说话的声音数据具有较大差异。若直接使用目前的声纹识别技术对音乐作品中歌手的声音数据进行处理，来确定歌手的声纹，那么会导致确定的歌手声纹不准确的问题。

技术实现思路

1、本技术提供一种声纹处理方法、装置、设备、存储介质和程序产品，以提高确定歌手声纹的准确性，降低确定歌手声纹的成本。

2、第一方面，本技术提供一种声纹处理方法，该方法包括：获取目标歌手的目标歌曲；对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。

3、可选的，上述对多个第一人声向量进行处理，得到目标歌手的第一声纹信息，包括：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

4、可选的，上述根据多个均值向量，确定第一声纹信息，包括：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。

5、可选的，歌手声纹提取模型是通过以下步骤训练得到的：获取多个样本歌手各自独唱的多首样本歌曲；针对多个样本歌手中的任一目标样本歌手，确定目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识；针对多首样本歌曲中的任一目标样本歌曲，根据目标样本歌曲的歌词文本信息确定目标样本歌曲中的人声部分对应的时间段，根据人声部分对应的时间段，确定目标样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧，确定第一时间帧对应的数值为1，确定第二时间帧对应的数值为0，按照第一时间帧和第二时间帧在目标样本歌曲中由先至后的顺序，对第一时间帧对应的数值和第二时间帧对应的数值进行组合，得到目标样本歌曲对应的实际人声向量，其中，目标样本歌曲中时间帧的数量和目标样本歌曲对应的实际人声向量的维数一致；将目标样本歌曲的第二声学特征输入至歌手声纹提取模型，得到目标样本歌曲对应的预测人声向量和预测声纹信息；根据目标样本歌曲对应的实际人声向量和目标样本歌曲对应的预测人声向量，确定第一损失；将目标样本歌曲的预测声纹信息输入歌手分类模型，确定目标样本歌曲对应的预测歌手标识；根据目标样本歌曲对应的实际歌手标识和目标样本歌曲对应的预测歌手标识，确定第二损失；计算第一损失和第二损失之和，得到第三损失；根据第三损失训练歌手声纹提取模型。

6、可选的，上述方法还包括：获取曲库中多个已有歌手各自的多首已有歌曲；针对多个已有歌手中的任一目标已有歌手，对目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一目标第三声学特征，将目标第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否小于第一占比阈值；响应于第一数量大于或者等于第一占比阈值，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合。

7、可选的，上述多个第二声纹信息分别包括多个第二声纹向量；上述根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合，包括：针对目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；响应于第二数量占比大于第二占比阈值，将目标声纹向量添加至目标已有歌手的声纹信息集合。

8、可选的，上述目标声纹向量为多个第二声纹向量的聚类中心。

9、可选的，上述方法还包括：确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合。

10、可选的，目标已有歌手的声纹信息集合包括多个第三声纹向量，至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；上述确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度，包括：

11、针对多个第三声纹向量中的任一目标第三声纹向量，计算目标第三声纹向量与至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到至少一个其他已有歌手各自对应的多个第二距离；

12、针对至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为目标其他已有歌手对应的第一相似度。

13、可选的，上述对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合，包括：确定至少一个第一声纹信息集合和目标已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取目标第一声纹信息集合的第一审核结果，第一审核结果是基于目标第一声纹信息集合对应的歌手名称确定的；响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称相同，对目标第一声纹信息集合与目标已有歌手的声纹信息集合进行合并处理，得到目标已有歌手的更新声纹信息集合；或者，响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不同，将目标已有歌手的声纹信息集合确定为目标已有歌手的更新声纹信息集合。

14、可选的，上述方法，还包括：获取待入库歌手的待入库歌曲和待入库歌手名称；将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；响应于第三人声向量为空值，根据待入库歌手名称将待入库歌曲存入曲库；或者，响应于第三人声向量不为空值，根据第三人声向量确定是否将待入库歌曲存入曲库。

15、可选的，上述根据第三人声向量确定是否将待入库歌曲存入曲库，包括：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

16、可选的，上述将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；响应于全部已有歌手名称中包括第一已有歌手名称，将第一已有歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括第一已有歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

17、可选的，上述将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称，包括：确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的合作歌手名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；响应于全部已有歌手名称包括其他名称或者合作歌手名称，将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括其他名称和合作歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

18、可选的，上述根据至少一个第三距离确定是否将待入库歌曲存入曲库，包括：判断至少一个第三距离中最小的第三距离是否小于第三距离阈值；响应于最小的第三距离小于第三距离阈值，计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，根据第三相似度确定是否将待入库歌曲存入曲库；或者，响应于最小的第三距离大于或者等于第三距离阈值，确定按照由小至大的顺序排列的至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果是基于前第一数量个第三距离对应的候选歌手名称与待入库歌手名称所确定的。

19、可选的，上述根据第三相似度确定是否将待入库歌曲存入曲库，包括：判断第三相似度是否大于第三相似度阈值；响应于第三相似度大于第三相似度阈值，将待入库歌曲存入曲库；或者，响应于第三相似度小于或者等于第三相似度阈值，根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果是基于最小的第三距离对应的候选歌手名称与待入库歌手名称所确定的。

20、第二方面，本技术提供一种声纹处理装置，声纹处理装置包括：收发模块、处理模块，其中，收发模块，用于：获取目标歌手的目标歌曲；处理模块，用于：对目标歌曲进行特征提取，得到第一声学特征；将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息；其中，歌手声纹提取模型是基于歌曲数据训练得到。

21、可选的，处理模块，具体用于：对多个第一人声向量进行分组，得到至少一个人声向量组；针对至少一个人声向量组中的任一人声向量组，计算人声向量组的均值，得到均值向量；根据多个均值向量，确定第一声纹信息。

22、可选的，处理模块，具体用于：计算人声向量组的标准差，得到标准差向量；对均值向量和标准差向量进行拼接，得到第一声纹向量；对多个第一声纹向量进行组合，得到第一声纹信息。

23、可选的，歌手声纹提取模型是通过以下步骤训练得到的：获取多个样本歌手各自独唱的多首样本歌曲；针对多个样本歌手中的任一目标样本歌手，确定目标样本歌手的多首样本歌曲各自的第二声学特征、歌词文本信息以及实际歌手标识；针对多首样本歌曲中的任一目标样本歌曲，根据目标样本歌曲的歌词文本信息确定目标样本歌曲中的人声部分对应的时间段，根据人声部分对应的时间段，确定目标样本歌曲中人声部分对应的第一时间帧和非人声部分对应的第二时间帧，确定第一时间帧对应的数值为1，确定第二时间帧对应的数值为0，按照第一时间帧和第二时间帧在目标样本歌曲中由先至后的顺序，对第一时间帧对应的数值和第二时间帧对应的数值进行组合，得到目标样本歌曲对应的实际人声向量，其中，目标样本歌曲中时间帧的数量和目标样本歌曲对应的实际人声向量的维数一致；将目标样本歌曲的第二声学特征输入至歌手声纹提取模型，得到目标样本歌曲对应的预测人声向量和预测声纹信息；根据目标样本歌曲对应的实际人声向量和目标样本歌曲对应的预测人声向量，确定第一损失；将目标样本歌曲的预测声纹信息输入歌手分类模型，确定目标样本歌曲对应的预测歌手标识；根据目标样本歌曲对应的实际歌手标识和目标样本歌曲对应的预测歌手标识，确定第二损失；计算第一损失和第二损失之和，得到第三损失；根据第三损失训练歌手声纹提取模型。

24、可选的，收发模块，还用于：获取曲库中多个已有歌手各自的多首已有歌曲；处理模块，还用于：针对多个已有歌手中的任一目标已有歌手，对目标已有歌手的多首已有歌曲分别进行特征提取，得多个第三声学特征；针对多个第三声学特征中的任一目标第三声学特征，将目标第三声学特征输入至歌手声纹提取模型，得到多个第二特征向量和多个第二特征向量中的多个第二人声向量；计算多个第二特征向量中多个第二人声向量的第一数量占比；判断第一数量占比是否小于第一占比阈值；响应于第一数量大于或者等于第一占比阈值，根据歌手声纹提取模型对多个第二人声向量进行处理，得到第二声纹信息；根据目标已有歌手的多个第二声纹信息，确定目标已有歌手的声纹信息集合。

25、可选的，多个第二声纹信息分别包括多个第二声纹向量；处理模块，具体用于：针对目标已有歌手的多个第二声纹信息中的任一目标第二声纹信息，从目标第二声纹信息中的多个第二声纹向量中确定目标声纹向量；计算多个第二声纹向量中每个第二声纹向量分别与目标声纹向量的第一距离；确定多个第二声纹向量中第一距离小于第一距离阈值的第二声纹向量的第二数量占比；响应于第二数量占比大于第二占比阈值，将目标声纹向量添加至目标已有歌手的声纹信息集合。

26、可选的，上述目标声纹向量为多个第二声纹向量的聚类中心。

27、可选的，处理模块，还用于：确定多个已有歌手中除目标已有歌手之外的至少一个其他已有歌手的声纹信息集合分别与目标已有歌手的声纹信息集合的第一相似度；从至少一个其他已有歌手的声纹信息集合中，确定大于第一相似度阈值的第一相似度对应的至少一个第一声纹信息集合；对至少一个第一声纹信息集合和目标已有歌手的声纹信息集合进行处理，确定目标已有歌手的更新声纹信息集合。

28、可选的，目标已有歌手的声纹信息集合包括多个第三声纹向量，至少一个其他已有歌手的声纹信息集合分别包括多个第四声纹向量；处理模块，具体用于：针对多个第三声纹向量中的任一目标第三声纹向量，计算目标第三声纹向量与至少一个其他已有歌手的声纹信息集合各自对应的多个第四声纹向量中每个第四声纹向量的距离，得到至少一个其他已有歌手各自对应的多个第二距离；针对至少一个其他已有歌手中的任一目标其他已有歌手对应的多个第二距离，确定目标已有歌手对应的多个第二距离中小于第二距离阈值的第二距离的第三数量占比，将第三数量占比确定为目标其他已有歌手对应的第一相似度。

29、可选的，处理模块，具体用于：确定至少一个第一声纹信息集合和目标已有歌手的声纹信息集合分别对应的歌手名称；针对至少一个第一声纹信息集合中的任一目标第一声纹信息集合，获取目标第一声纹信息集合的第一审核结果，第一审核结果是基于目标第一声纹信息集合对应的歌手名称确定的；响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称相同，对目标第一声纹信息集合与目标已有歌手的声纹信息集合进行合并处理，得到目标已有歌手的更新声纹信息集合；或者，响应于第一审核结果为目标第一声纹信息集合对应的歌手名称与目标已有歌手的歌手名称不同，将目标已有歌手的声纹信息集合确定为目标已有歌手的更新声纹信息集合。

30、可选的，收发模块，还用于：获取待入库歌手的待入库歌曲和待入库歌手名称；处理模块，还用于：将待入库歌曲输入歌手声纹提取模型，得到第三人声向量；响应于第三人声向量为空值，根据待入库歌手名称将待入库歌曲存入曲库；或者，响应于第三人声向量不为空值，根据第三人声向量确定是否将待入库歌曲存入曲库。

31、可选的，处理模块，具体用于：根据歌手声纹提取模型对第三人声向量进行处理，得到第三声纹信息；将待入库歌手名称与曲库中的全部已有歌手名称进行匹配，确定至少一个候选歌手名称；计算至少一个候选歌手名称各自对应的第三声纹信息集合分别与第三声纹信息的距离，得到至少一个第三距离；根据至少一个第三距离确定是否将待入库歌曲存入曲库。

32、可选的，处理模块，具体用于：计算全部已有歌手名称分别与待入库歌手名称的第二相似度；判断全部已有歌手名称中是否包括第二相似度大于第二相似度阈值的第一已有歌手名称；响应于全部已有歌手名称中包括第一已有歌手名称，将第一已有歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括第一已有歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

33、可选的，处理模块，具体用于：确定待入库歌手的除待入库歌手名称之外的其他名称、与待入库歌手合作的合作歌手的合作歌手名称；判断全部已有歌手名称是否包括其他名称或者合作歌手名称；响应于全部已有歌手名称包括其他名称或者合作歌手名称，将其他名称和/或合作歌手名称确定为至少一个候选歌手名称；或者，响应于全部已有歌手名称中不包括其他名称和合作歌手名称，将全部已有歌手名称确定为至少一个候选歌手名称。

34、可选的，处理模块，具体用于：判断至少一个第三距离中最小的第三距离是否小于第三距离阈值；响应于最小的第三距离小于第三距离阈值，计算最小的第三距离对应的候选歌手名称与待入库歌手名称的第三相似度，根据第三相似度确定是否将待入库歌曲存入曲库；或者，响应于最小的第三距离大于或者等于第三距离阈值，确定按照由小至大的顺序排列的至少一个第三距离中前第一数量个第三距离对应的候选歌手名称，根据第二审核结果确定是否将待入库歌曲存入曲库，第二审核结果是基于前第一数量个第三距离对应的候选歌手名称与待入库歌手名称所确定的。

35、可选的，处理模块，具体用于：判断第三相似度是否大于第三相似度阈值；响应于第三相似度大于第三相似度阈值，将待入库歌曲存入曲库；或者，响应于第三相似度小于或者等于第三相似度阈值，根据第三审核结果确定是否将待入库歌曲存入曲库，第三审核结果是基于最小的第三距离对应的候选歌手名称与待入库歌手名称所确定的。

36、第三方面，本技术提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

37、第四方面，本技术提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

38、第五方面，本技术提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

39、第六方面，本技术提供一种计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

40、通过本技术技术方案，电子设备可以获取目标歌手的目标歌曲，对目标歌曲进行特征提取，得到第一声学特征，将第一声学特征输入至歌手声纹提取模型，以通过歌手声纹提取模型对第一声学特征进行特征提取，得到多个第一特征向量，对多个第一特征向量进行人声检测，确定多个第一特征向量中目标歌曲中人声部分对应的多个第一人声向量，对多个第一人声向量进行处理，得到目标歌手的第一声纹信息，其中，歌手声纹提取模型是基于歌曲数据训练得到。在上述过程中，由于是根据歌手的歌曲来确定歌手的声纹信息的，因此可以降低确定歌手声纹信息的成本，而且，由于在确定声纹信息时，使用的模型是基于歌曲数据训练得到的歌手声纹提取模型，因此可以更好地适应于根据歌曲提取声纹信息的场景，可以解决现有技术中由于受到歌曲背景音乐的影响而导致确定的声纹信息不准确的问题，从而提高声纹信息提取的准确性。另外，本技术可以通过歌手声纹提取模型对歌曲的声学特征进行进一步的提取、检测等处理，来确保得到的声纹信息更准确、更可靠。