技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声音相似性图的构建方法、设备及存储介质与流程 > 正文

声音相似性图的构建方法、设备及存储介质与流程

国知局
2024-06-21 11:48:11

本申请涉及音频处理，特别是涉及一种声音相似性图的构建方法、设备及存储介质。

背景技术：

1、在音频处理和分析的领域中，声音相似性一直是一个核心主题，通过对声音进行相似性分析，来捕捉和表示声音之间的相互关系。

2、传统分析声音相似性的方式主要依赖于手工设计的特征，如梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)、色度特征和谱质心等，以及基于这些特征的相似性度量方法，如利用欧氏距离和余弦距离来度量相似性。

3、然而，这些传统方法往往不能充分捕捉声音的复杂性和多样性，尤其是在大规模、多样的数据集中，不能对声音进行有效的分析和推理。

技术实现思路

1、本申请至少提供一种声音相似性图的构建方法、设备及存储介质。

2、本申请第一方面提供了一种声音相似性图的构建方法，方法包括：对音频数据进行场景识别，得到音频数据对应的场景标签；其中，音频数据由一个或多个声音组成；采用与场景标签匹配的权重分配策略，为音频数据中的每个声音分配权重，以及提取音频数据中每个声音对应的声音特征；基于每个声音的权重对每个声音的声音特征分别进行加权计算，得到每个声音对应的加权特征；利用每个声音对应的加权特征，计算每个声音之间的相似性评分；将每个声音作为节点，并基于每个声音之间的相似性评分确定边，以构建声音相似性图。

3、在一实施例中，对音频数据进行场景识别，得到音频数据对应的场景标签，包括：将音频数据划分为多个时间窗口，每个时间窗口对应一个音频片段；提取每个时间窗口中音频片段的声音特征；分析在时间维度上不同时间窗口中的声音特征变化，得到音频变化趋势；基于每个时间窗口对应的声音特征和音频变化趋势，为每个时间窗口生成一个或多个场景标签。

4、在一实施例中，基于每个时间窗口对应的声音特征和音频变化趋势，为每个时间窗口生成一个或多个场景标签，包括：获取场景模板集合，场景模板集合含有多个场景模板；对场景模板与每个时间窗口对应的声音特征和音频变化趋势进行匹配，从场景模板集合中确定匹配成功的场景模板；将匹配成功的场景模板作为每个时间窗口对应的场景标签。

5、在一实施例中，获取场景模板集合，包括：获取音频数据的数据采集信息，数据采集信息至少含有采集音频数据时的时间信息或天气信息中的一种或多种；基于数据采集信息，查询得到与数据采集信息匹配的场景模板集合。

6、在一实施例中，音频数据是从音频采集场所采集到的数据；在对音频数据进行场景识别，得到音频数据对应的场景标签的步骤之前，还包括：对音频采集场所进行关键事件检测；若检测到存在关键事件，则执行对音频数据进行场景识别，得到音频数据对应的场景标签的步骤。

7、在一实施例中，音频数据中的当前声音对应多个场景标签，每个场景标签匹配有一个权重分配策略；采用与场景标签匹配的权重分配策略，为音频数据中的每个声音分配权重，包括：基于当前声音对应的每个权重分配策略，获取当前声音对应的多个初始权重；对多个初始权重进行融合，将融合后的权重作为当前声音最终对应的权重。

8、在一实施例中，提取每个声音对应的声音特征，包括：获取与场景标签匹配的特征提取策略；采用特征提取策略，提取每个声音对应的声音特征。

9、在一实施例中，基于每个声音之间的相似性评分确定边，包括：获取音频数据对应的相似性评分阈值；若两个声音之间的相似性评分超过相似性评分阈值，则在两个声音对应的节点之间进行边连接。

10、本申请第二方面提供了一种声音相似性图的构建装置，装置包括：场景识别模块，用于对音频数据进行场景识别，得到音频数据对应的场景标签；其中，音频数据由一个或多个声音组成；权重分配及特征提取模块，用于采用与场景标签匹配的权重分配策略，为音频数据中的每个声音分配权重，以及提取音频数据中每个声音对应的声音特征；加权模块，用于基于每个声音的权重对每个声音的声音特征分别进行加权计算，得到每个声音对应的加权特征；相似性计算模块，用于利用每个声音对应的加权特征，计算每个声音之间的相似性评分；图构建模块，用于将每个声音作为节点，并基于每个声音之间的相似性评分确定边，以构建声音相似性图。

11、本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述声音相似性图的构建方法。

12、本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述声音相似性图的构建方法。

13、上述方案，通过对音频数据进行场景识别，得到音频数据对应的场景标签；采用与场景标签匹配的权重分配策略，为音频数据中的每个声音分配权重，以及提取音频数据中每个声音对应的声音特征；基于每个声音的权重对每个声音的声音特征分别进行加权计算，得到每个声音对应的加权特征；利用每个声音对应的加权特征，计算每个声音之间的相似性评分；将每个声音作为节点，并基于每个声音之间的相似性评分确定边，以构建声音相似性图，可以对不同场景灵活调整不同的权重分配策略，从而能够实时适用和识别不断变化的声音场景，提高声音相似性图的边计算的准确性，准确地捕捉和识别声音之间的关联关系。

14、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

技术特征：

1.一种声音相似性图的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对音频数据进行场景识别，得到所述音频数据对应的场景标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述每个时间窗口对应的声音特征和所述音频变化趋势，为所述每个时间窗口生成一个或多个场景标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取场景模板集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述音频数据是从音频采集场所采集到的数据；在所述对音频数据进行场景识别，得到所述音频数据对应的场景标签的步骤之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述音频数据中的当前声音对应多个场景标签，每个场景标签匹配有一个权重分配策略；所述采用与所述场景标签匹配的权重分配策略，为所述音频数据中的每个声音分配权重，包括：

7.根据权利要求1所述的方法，其特征在于，所述提取所述音频数据中每个声音对应的声音特征，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述每个声音之间的相似性评分确定边，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-8任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。

技术总结本申请公开了一种声音相似性图的构建方法、设备及存储介质，该声音相似性图的构建方法包括：对音频数据进行场景识别，得到音频数据对应的场景标签；采用与场景标签匹配的权重分配策略，为音频数据中的每个声音分配权重，以及提取音频数据中每个声音对应的声音特征；基于每个声音的权重对每个声音的声音特征分别进行加权计算，得到每个声音对应的加权特征；利用每个声音对应的加权特征，计算每个声音之间的相似性评分；将每个声音作为节点，并基于每个声音之间的相似性评分确定边，以构建声音相似性图。可以对不同场景灵活调整不同的权重分配策略，从而能够实时适用和识别不断变化的声音场景，提高声音相似性图的边计算的准确性。技术研发人员：吕少卿,俞鸣园,王克彦,孙俊伟,费敏健受保护的技术使用者：浙江华创视讯科技有限公司技术研发日：技术公布日：2024/4/29