一种音频识别方法、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:33:11
本技术涉及音频数据处理领域,具体涉及一种音频识别方法、电子设备及存储介质。
背景技术:
1、歌声识别有很广泛的应用场景,例如歌曲信息检索,无需完全准确地识别歌词,只需根据匹配度就可以确定某段音频中识别出来的歌词属于哪一首歌曲。特别是在听歌识曲中,尽管歌声识别无法完全准确地识别用户录音的歌词内容,但将大致的识别结果和检索库内的歌词进行匹配,也可以识别到歌曲。
2、歌声识别技术和语音识别技术相似,不同之处在于歌词没有固定的声调、歌词文本会比日常说话文本更加复杂、歌声会因演唱风格的多样性而出现不同程度的拖音、字内变调等且歌声往往混合在伴奏中。
3、现有的歌声识别技术是直接识别待匹配音频的歌词以进行匹配,在待匹配音频对应的歌词文本过短时,容易导致误召回。如果长片段的音频可以识别出更多歌词信息,错误匹配的概率则更低,而音频清晰可以保证识别出来的结果更加稳定可靠。但在实际应用中,例如听歌识曲场景,用户等待的时间往往在15秒以内,且录音环境可能包含复杂的噪声。此种场景下,仅依靠歌词识别进行检索并不可靠,容易因为噪声、无关人声等导致检索系统误召回。
4、因此,现有单一的歌声识别技术存在识别结果易受噪音影响,识别准确率低的技术问题。
5、本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种音频识别方法、电子设备及存储介质,具体方案如下:
2、第一方面,本技术实施例提供了一种音频识别方法,其特征在于,所述音频识别方法包括:
3、对待识别音频进行文本识别,得到待识别文本;
4、计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与所述待识别文本之间的文本相似度,将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集,并将所述目标文本集中多个文本对应的多个音频确定为目标音频集;
5、将所述待识别音频和所述目标音频集进行旋律检测,得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度;
6、分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理,得到多个目标相似度,并召回大于融合相似度阈值的目标相似度对应的目标音频,其中,所述融合相似度处理包括加权和取最大值。
7、根据本技术公开的一种具体实施方式,基于待识别音频的频谱特征进行文本识别,得到待识别文本的步骤,包括:
8、将所述待识别音频的频谱特征作为预设文本识别模型的输入,得到状态序列;
9、将所述状态序列转换成音素序列,并将所述音素序列转换成待识别文本。
10、根据本技术公开的一种具体实施方式,构建所述预设数据库的步骤,包括:
11、获取预设数量的歌曲音频以及各所述歌曲音频对应的歌曲文本;
12、若所述当前歌词语句对应的音频时长大于预设时间,则为单句结构;
13、若所述当前歌词语句对应的音频时长小于预设时间,则为多句结构,并将下一歌词语句合并到所述多句结构中直至所述多句结构对应的音频时间大于预设时间。
14、根据本技术公开的一种具体实施方式,所述音频识别方法包括:
15、将所述单句结构确定为所述预设数据库中的文本;
16、将所述多句结构转换为复合文本,将所述复合文本确定为所述预设数据库中的文本。
17、根据本技术公开的一种具体实施方式,构建所述预设数据库的步骤,包括:
18、对各所述歌词文本进行语句切分,划分成多个歌词语句;
19、提取对应的音频时长大于等于预设时间的歌词语句作为所述预设数据库中的文本。
20、根据本技术公开的一种具体实施方式,构建所述预设数据库的步骤,还包括:
21、组合未提取的相邻歌词语句;
22、将对应的音频时长大于等于预设时间的组合歌词语句作为所述预设数据库中的文本。
23、根据本技术公开的一种具体实施方式,构建所述预设数据库的步骤,还包括:
24、根据所述歌词文本所包含的时间标签,确定各歌词语句对应的音频时长。
25、根据本技术公开的一种具体实施方式,计算预设数据库中的各文本与所述待识别文本之间的文本相似度的步骤,包括:
26、计算预设数据库中各文本与所述待识别文本之间的编辑距离;
27、将所述编辑距离转换为所述文本相似度。
28、根据本技术公开的一种具体实施方式,将满足文本相似度阈值条件的数据库中的文本确定为目标文本集的步骤,包括:
29、若任一所述文本相似度大于参考阈值,将所述文本相似度对应的数据库中的文本确定为目标文本集中的文本;
30、和/或,将全部所述文本相似度由大到小以依次排列为参考序列,选取排列在前的参考数量个文本相似度对应的数据库中的文本为目标文本集。
31、根据本技术公开的一种具体实施方式,将所述待识别音频和所述目标音频集进行旋律检测,得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度的步骤,包括:
32、分别基于所述待识别音频的频谱特征和所述目标音频的频谱特征进行旋律检测,得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值;
33、计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度。
34、根据本技术公开的一种具体实施方式,分别基于所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征进行旋律检测,得到所述待识别音频对应的第一旋律属性值以及所述目标音频集中各音频对应的第二旋律属性值的步骤,包括:
35、将所述待识别音频的频谱特征和所述目标音频集中各音频的频谱特征作为预设旋律检测模型的输入,得到各帧频谱特征属于拍点的参考概率,其中,所述预设旋律检测模型包括循环神经网络模型;
36、基于所述参考概率及动态贝叶斯网络得到所述待识别音频对应的第一拍点数以及各所述目标音频对应的第二拍点数;
37、将所述第一拍点数确定为第一旋律属性值以及将所述第二拍点数确定为第二旋律属性值。
38、根据本技术公开的一种具体实施方式,所述第一旋律属性值和所述第二旋律属性值均包括拍点数,计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度的步骤,包括:
39、判断预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值是否小于或等于目标阈值,其中,所述预设倍数为正数;
40、若预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值小于或等于目标阈值,计算所述第一旋律属性值和所述第二旋律属性值之间的旋律相似度;
41、若预设倍数的所述第一旋律属性值与所述第二旋律属性值的差值大于目标阈值,将所述旋律相似度置零。
42、根据本技术公开的一种具体实施方式,所述预设数据库包括多首歌曲、各歌曲对应多个音频以及各所述音频对应的文本,召回大于融合相似度阈值的目标相似度对应的目标音频的步骤,包括:
43、将大于融合相似度阈值的目标相似度对应的目标音频所属歌曲确定为目标歌曲;
44、召回所述目标歌曲。
45、第二方面,本技术实施例提供了一种音频识别装置,包括:
46、初始识别单元,用于对待识别音频的进行文本识别,得到待识别文本;
47、文本检测单元,用于计算包括多个音频以及各所述音频对应的文本的预设数据库中的各文本与所述待识别文本之间的文本相似度,将满足文本相似度阈值条件的所述数据库中的多个文本确定为目标文本集,并将所述目标文本集中多个文本对应的多个音频确定为目标音频集;
48、旋律检测单元,用于将所述待识别音频和所述目标音频集进行旋律检测,得到所述待识别音频与所述目标音频集中各音频之间的旋律相似度;
49、音频召回单元,用于分别将对应同一所述目标文本的文本相似度及旋律相似度进行融合相似度处理,得到多个目标相似度,并召回大于融合相似度阈值的目标相似度对应的目标音频,其中,所述融合相似度处理包括加权和取最大值。
50、第三方面,本技术实施例提供了一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时实现第一方面中任一项实施例所述的音频识别方法。
51、第四方面,本技术实施例提供了一种存储介质,其上存储有计算机程序,其中,所述程序被处理器运行时实现第一方面中任一项实施例所述的音频识别方法。
52、相对于现有技术而言,本技术具有以下有益效果:
53、本技术提供的音频识别方法,通过对识别音频进行文本识别,得到待识别文本;计算包括多个音频以及各所述音频对应的文本的预设数据库中各文本与待识别文本之间的文本相似度,将所述数据库中的满足文本相似度阈值条件的多个文本确定为目标文本集,以及将目标文本集对应的多个音频确定为目标音频;将待识别音频和目标音频集进行旋律检测,得到待识别音频与目标音频集之间的旋律相似度;分别将对应同一目标文本的文本相似度及旋律相似度进行融合相似度处理,得到多个目标相似度,并召回大于于融合相似度阈值的目标相似度对应的目标音频。本技术结合文本相似度识别和旋律相似度识别,有效避免因噪声引起的误召回,提高音频识别召回的精确性。
54、本技术实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22200.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表