技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于可变粒度特征的音频检索方法和装置与流程 > 正文

一种基于可变粒度特征的音频检索方法和装置与流程

国知局
2024-06-21 11:44:37

本发明涉及音频检索，尤其涉及一种基于可变粒度特征的音频检索方法和装置。

背景技术：

1、近年来，随着多媒体数据的快速增长，丰富多元的数据充斥着人们的生活，图像、文本、音频和视频等多媒体数据已经成为了人们认识世界的主要方式。随着多媒体与互联网的广泛应用，多媒体数据量正在呈指数增长，音频数据作为多媒体数据的重要组成部分，其信息量也在迅速膨胀，如何快速、准确的检索到所需要的信息已经成为现代信息检索领域的一个重点问题。

2、传统的音频检索方案通常是在海量语音里检索包含固定音频内容信息的目标语音，通过给定一个语音模板，在待检索语音里检索包含该音频内容的目标语音，这好比给定一段文本，在批量文章中检索包含该段文本的文章。

3、但由于音频内容和文本内容有巨大的差别，音频带有背景噪音，音量大小变化，音频失真等因素干扰，若是直接使用“比特位”的方式对比语音的相似度来检索语音，其对比语音的效率较低，且由于受到音频干扰的影响，导致音频匹配的可靠性无法得到保证。

技术实现思路

1、本发明提供了一种基于可变粒度特征的音频检索方法和装置，解决了由于音频内容和文本内容有巨大的差别，音频带有背景噪音，音量大小变化，音频失真等因素干扰，若是直接使用“比特位”的方式对比语音的相似度来检索语音，其对比语音的效率较低，且由于受到音频干扰的影响，导致音频匹配的可靠性无法得到保证的技术问题。

2、本发明提供的一种基于可变粒度特征的音频检索方法，包括：

3、当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频；

4、响应接收到的多个语音模板，构建对应的特征查找地图；

5、根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频；

6、对所述中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

7、根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音。

8、可选地，所述当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频，包括：

9、当接收到待检索音频时，以预设采样点数为单位，按照第一帧移对所述待检索音频进行分帧，得到多个语音帧信号；

10、对各所述语音帧进行频域变换，分别生成多个频域简谐波信号；

11、根据多个所述频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列；

12、从所述音频能量值序列中筛除小于所述预设能量阈值的音频能量值，得到多个更新能量值；

13、从所述音频特征值序列中选取全部所述更新能量值对应的第一音频特征值，构建第一粒度的第一音频特征序列；

14、从所述待检索音频选取全部所述更新能量值对应的语音帧信号，构建初始音频。

15、可选地，所述对各所述语音帧进行频域变换，分别生成多个频域简谐波信号，包括：

16、调用窗函数对各所述语音帧信号分别进行加窗操作，得到加窗信号；

17、对每个所述加窗信号执行快速傅里叶变换，分别生成对应的多个频域简谐波信号。

18、可选地，所述根据多个所述频域简谐波信号的拆分提取结果，构建音频特征值序列和音频能量值序列，包括：

19、按照频率从低至高对多个所述频域简谐波信号进行排序后，按照预设拆分数量拆分为多组中间简谐波；

20、计算每组所述中间简谐波中各个频域简谐波信号的振幅平方值；

21、计算全部所述振幅平方值的和值作为所述语音帧信号对应的音频能量值；

22、选取各组所述振幅平方值中最大值对应的简谐波下标，结合所述拆分数量和所述中间简谐波的组别编号，确定所述语音帧信号对应的音频特征值；

23、采用全部所述音频特征值构建音频特征值序列，采用全部所述音频能量值构建音频能量值序列。

24、可选地，所述响应接收到的多个语音模板，构建对应的特征查找地图，包括：

25、响应接收到的多个语音模板，从各所述语音模板分别提取语音特征序列和模板标识；所述语音特征序列包括多个语音特征值；

26、采用各所述语音特征值在所述语音特征序列中所处序列位置和所述模板标识，并关联所述语音特征值，生成特征查找地图。

27、可选地，所述根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频，包括：

28、遍历所述第一音频特征序列内的第一音频特征值，在所述特征查找地图确定所述第一音频特征值对应的第一目标模板标识和第一目标序列位置；

29、根据所述第一目标模板标识、第一目标序列位置和所述第一音频特征值在所述初始音频中的初始音频帧位置，确定第一匹配度；

30、从所述初始音频中筛除所述第一匹配度小于第一匹配度阈值的音频，得到中间音频。

31、可选地，所述根据所述第一目标模板标识、第一目标序列位置和所述第一音频特征值在所述初始音频中的初始音频帧位置，确定第一匹配度，包括：

32、计算所述第一音频特征值在所述初始音频中的初始音频帧位置和所述第一目标序列位置之间的差值，得到第一相对位置，并按预设步长累计第一帧匹配次数；

33、当所述第一音频特征值遍历完成后，按照最大的第一帧匹配次数关联的第一目标模板标识确定目标语音模板；

34、获取所述目标语音模板对应的模板帧数；

35、计算最大的第一帧匹配次数和所述模板帧数之间的比值，得到所述第一相对位置和所述目标语音模板之间的第一匹配度。

36、可选地，所述根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音，包括：

37、遍历所述第二音频特征序列内的第二音频特征值，在所述特征查找地图确定所述第二音频特征值对应的第二目标模板标识和第二目标序列位置；

38、计算所述第二音频特征值在所述中间音频中的第二音频帧位置和所述第二目标序列位置之间的差值，得到第二相对位置，并按预设步长累计第二帧匹配次数；

39、根据所述第二帧匹配次数和所述第二音频帧位置，确定第二匹配度；

40、从所述中间音频中选取所述第二匹配度大于第二匹配度阈值的音频，得到待定音频；

41、根据所述第二相对位置和所述第二粒度，从所述待定音频中定位所述语音模板对应的目标语音。

42、可选地，所述根据所述匹配相对位置偏移量和所述第二粒度，从所述待定音频中定位所述语音模板对应的目标语音，包括：

43、计算所述第二相对位置和所述第二粒度对应的时间之间的乘值，得到开始位置时刻；

44、基于所述语音模板的模板帧数和所述开始位置时刻，确定结束位置时刻；

45、按照所述开始位置时刻和所述结束位置时刻从所述中间音频定位所述语音模板对应的目标语音。

46、本发明还提供了一种基于可变粒度特征的音频检索装置，包括：

47、粗粒度特征序列生成模块，用于当接收到待检索音频时，对所述待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从所述待检索音频中筛选初始音频；

48、地图构建模块，用于响应接收到的多个语音模板，构建对应的特征查找地图；

49、音频检索模块，用于根据所述特征查找地图检索所述第一音频特征序列，根据第一检索结果从所述初始音频中选取中间音频；

50、细粒度特征序列生成模块，用于对所述中间音频执行分帧提取，生成第二粒度的第二音频特征序列；

51、语音定位模块，用于根据所述特征查找地图检索所述第二音频特征序列，根据第二检索结果定位目标语音。

52、从以上技术方案可以看出，本发明具有以下优点：

53、当接收到待检索音频时，对待检索音频执行分帧提取，生成第一粒度的第一音频特征序列，并从待检索音频中筛选初始音频，响应接收到的多个语音模板，构建对应的特征查找地图，根据特征查找地图检索第一音频特征序列，根据第一检索结果从初始音频中选取中间音频，对中间音频执行分帧提取，生成第二粒度的第二音频特征序列，根据特征查找地图检索第二音频特征序列，根据第二检索结果定位目标语音。从而通过不同粒度的音频特征序列匹配语音模板的方式，以粗粒度排除海量非目标语音，细粒度完全匹配目标语音的方式，有效提高音频匹配的可靠性和准确度。