音频处理方法及装置、电子设备及计算机可读存储介质与流程
- 国知局
- 2024-06-21 11:40:36
本技术涉及音频处理,尤其涉及一种音频处理方法及装置、电子设备及计算机可读存储介质。
背景技术:
1、为提高音频的质量,通常需要对音频进行增强处理,但考虑到声音为音乐的音乐音频与声音非音乐的非音乐音频所需的增强处理不同,因此在对音频进行增强处理之前,需确定音频是否为音乐音频,即识别音频是否为音乐音频具有非常重要的意义。
技术实现思路
1、本技术提供一种音频处理方法及装置、电子设备及计算机可读存储介质。
2、第一方面,提供了一种音频处理方法,所述方法包括:
3、获取第一音频的第一特征数据;
4、将所述第一特征数据分为n段第一特征帧;所述n为大于1的整数;
5、根据音乐特征帧在所述n段第一特征帧中的第一占比,确定所述第一音频为音乐音频;所述音乐特征帧所对应的音频帧的声音为音乐。
6、在该方面中,音频处理装置在获取第一音频的第一特征数据的情况下,将第一特征数据分为n段第一特征帧,进而可在根据音乐音频帧在n段第一特征帧中的第一占比,确定第一音频中声音为音乐的音频帧的占比高的情况下,确定第一音频为音乐音频。
7、结合本技术任一实施方式,所述第一特征帧包括第二特征帧和第三特征帧,所述第二特征帧的第一时间戳与所述第三特征帧的第二时间戳相邻,且所述第一时间戳小于所述第二时间戳;
8、所述根据音乐特征帧在所述n段第一特征帧中的第一占比,确定所述第一音频为音乐音频之前,所述方法还包括:
9、根据所述第二特征帧的第一特征值和所述第三特征帧的第二特征值,得到第三特征值;所述第三特征值携带所述第二特征帧与所述第三特征帧的相关信息;
10、根据所述第一特征值、所述第二特征值和所述第三特征值,得到所述第一特征帧的第一类别;
11、根据所述第一类别和n-1个第二类别,得到所述第一占比;所述n-1个第二类别为所述n段第一特征帧中除所述第一特征帧之外的特征帧的类别。
12、在该种实施方式中,音频处理装置根据第一特征值和第二特征值得到第三特征值,再根据第一特征值、第二特征值和第三特征值得到第一类别,既可利用第三特征帧的当前音频信息,又可利用第三特征帧的历史音频信息,由此可提高第一类别的准确度。
13、而通过将第一特征数据分为n段第一特征帧,可以并行的方式确定各段第一特征帧的类别得到第一类别和n-1个第二类别,再根据第一类别和n-1个第二类别,得到第一占比,并根据第一占比确定第一音频为音乐音频或非音乐音频,可提高处理速度。
14、此外,由于一段第一特征帧的时长通常较短,根据一段第一特征帧所携带的音频信息识别第一音频是音乐音频还是非音乐音频,会降低识别准确度。而在该种实施方式中,音频处理装置根据不同的第一特征帧所携带的音频信息,识别第一音频是音乐音频还是非音乐音频,会降低识别准确度,可提高识别准确度。
15、结合本技术任一实施方式,所述根据所述第二特征帧的第一特征值和所述第三特征帧的第二特征值,得到第三特征值,包括:
16、计算所述第二特征值与所述第一特征值的差,得到所述第三特征值。
17、结合本技术任一实施方式,所述根据所述第一特征值、所述第二特征值和所述第三特征值,得到所述第一特征帧的第一类别,包括:
18、对所述第二特征值与所述第三特征值进行拼接,得到所述第三特征帧的优化特征值;
19、在根据所述第一特征值和所述第三特征帧的优化特征值确定所述第一特征帧的能量小于或等于第一阈值的情况下,确定所述第一类别为无效帧。
20、在该种实施方式中,在根据第一特征值和第三特征帧的优化特征值确定第一特征帧的能量小于或等于第一阈值的情况下,确定第一特征帧为无效帧,进而无需进一步确定第一特征帧为音乐特征帧还是非音乐特征帧,从而减少数据处理量。
21、结合本技术任一实施方式,在得到所述第三特征帧的优化特征值后,所述方法还包括:
22、在根据所述第一特征值和所述第三特征帧的优化特征值确定所述第一特征帧的能量大于所述第一阈值的情况下,根据所述第一特征值和所述第三特征帧的优化特征值,确定所述第一类别为所述音乐特征帧或非音乐特征帧。
23、在该种实施方式中,音频处理装置通过对第二特征值和第三特征值进行拼接,得到第三特征帧的优化特征值,可使第三特征帧的优化特征值既携带第三特征帧的当前音频信息又携带第三特征帧的历史音频信息。这样,在第一特征帧的能量大于第一阈值的情况下,根据第一特征值和第三特征帧的优化特征值确定第一类别,可提高第一类别的准确度。
24、结合本技术任一实施方式,所述根据所述第一类别和n-1个第二类别,得到所述第一占比,包括:
25、确定所述第一类别和所述n-1个第二类别中的第三类别的第一数量;所述第三类别为能量大于所述第一阈值的特征帧的类别;
26、确定所述第三类别中的所述音乐特征帧的第二数量;
27、计算所述第二数量与所述第一数量的比值,得到所述第一占比。
28、在该种实施方式中,由于无效帧所携带的音频信息少,音频处理装置通过计算音乐特征帧在有效帧中的占比得到第一占比,可使第一占比能更好的表征第一音频中声音为音乐的音频帧的占比,进而根据第一占比识别第一音频是音乐音频还是非音乐音频,可提高识别准确度。
29、结合本技术任一实施方式,所述第一特征数据包括第二音频的第二特征数据和第三音频的第三特征数据,所述第二音频和所述第三音频分属所述第一音频的不同通道;
30、所述将所述第一特征数据分为n段第一特征帧,包括:
31、将所述第二特征数据分为所述n段第一特征帧;
32、所述根据音乐特征帧在所述n段第一特征帧中的第一占比,确定所述第一音频为音乐音频,包括:
33、根据所述第一占比和第二占比,得到所述音乐特征帧在所述第一特征数据中的第三占比;所述第二占比为所述音乐特征帧在所述n段第四特征帧中的占比,所述n段第四特征帧通过将所述第三音频的特征数据分为n段特征帧得到;
34、在所述第三占比大于或等于第二阈值的情况下,确定所述第一音频为音乐音频。
35、在该种实施方式中,音频处理装置在第一音频包括至少两个通道的情况下,根据不同通道中音乐特征帧的占比,确定音乐特征帧在第一特征数据中的第三占比,即确定声音为音乐的音频帧在第一音频中的占比,可提高第三占比的准确度。由此根据第三占比识别第一音频为音乐音频,可提高识别结果的准确度。
36、结合本技术任一实施方式,所述根据所述第一占比和第二占比,得到所述音乐特征帧在所述第一音频中的第三占比,包括:
37、在所述第一占比与所述第二占比的差大于或等于第三阈值的情况下,确定所述第三占比为所述第一占比和所述第二占比中的最大值;
38、在所述第一占比与所述第二占比的差小于所述第三阈值的情况下,对所述第一占比和所述第二占比进行平滑处理,得到所述第三占比。
39、结合本技术任一实施方式,所述通过平滑所述第一占比和所述第二占比的误差,得到所述第三占比,包括:
40、计算所述第一占比和所述第二占比的平均值,得到所述第三占比。
41、结合本技术任一实施方式,在确定所述第三占比后,所述方法还包括:
42、在所述第三占比小于所述第二阈值的情况下,确定所述第一音频为非音乐音频。
43、结合本技术任一实施方式,在所述第一音频的通道数为1的情况下,所述根据所述n段第一特征帧中音乐特征帧的第一占比,确定所述第一音频为音乐音频,包括:
44、在所述第一占比大于或等于第二阈值的情况下,确定所述第一音频为音乐音频。
45、结合本技术任一实施方式,所述方法还包括:在无效帧在所述n段第一特征帧中的第四占比大于或等于第四阈值的情况下,确定所述第一音频为非音乐音频;所述无效帧为能量小于或等于第一阈值的特征帧。
46、第二方面,提供了一种音频处理装置,所述装置包括:
47、获取单元,用于获取第一音频的第一特征数据;
48、第一处理单元,用于将所述第一特征数据分为n段第一特征帧;所述n为大于1的整数;
49、第二处理单元,用于根据音乐特征帧在所述n段第一特征帧中的第一占比,确定所述第一音频为音乐音频;所述音乐特征帧所对应的音频帧的声音为音乐。
50、结合本技术任一实施方式,所述第一特征帧包括第二特征帧和第三特征帧,所述第二特征帧的第一时间戳与所述第三特征帧的第二时间戳相邻,且所述第一时间戳小于所述第二时间戳;
51、所述第二处理单元,还用于:
52、根据所述第二特征帧的第一特征值和所述第三特征帧的第二特征值,得到第三特征值;所述第三特征值携带所述第二特征帧与所述第三特征帧的相关信息;
53、根据所述第一特征值、所述第二特征值和所述第三特征值,得到所述第一特征帧的第一类别;
54、根据所述第一类别和n-1个第二类别,得到所述第一占比;所述n-1个第二类别为所述n段第一特征帧中除所述第一特征帧之外的特征帧的类别。
55、结合本技术任一实施方式,所述第二处理单元,用于:
56、计算所述第二特征值与所述第一特征值的差,得到所述第三特征值。
57、结合本技术任一实施方式,所述第二处理单元,用于:
58、对所述第二特征值与所述第三特征值进行拼接,得到所述第三特征帧的优化特征值;
59、在根据所述第一特征值和所述第三特征帧的优化特征值确定所述第一特征帧的能量小于或等于第一阈值的情况下,确定所述第一类别为无效帧。
60、结合本技术任一实施方式,所述第二处理单元,还用于:
61、在根据所述第一特征值和所述第三特征帧的优化特征值确定所述第一特征帧的能量大于所述第一阈值的情况下,根据所述第一特征值和所述第三特征帧的优化特征值,确定所述第一类别为所述音乐特征帧或非音乐特征帧。
62、结合本技术任一实施方式,所述第二处理单元,用于:
63、确定所述第一类别和所述n-1个第二类别中的第三类别的第一数量;所述第三类别为能量大于所述第一阈值的特征帧的类别;
64、确定所述第三类别中的所述音乐特征帧的第二数量;
65、计算所述第二数量与所述第一数量的比值,得到所述第一占比。
66、结合本技术任一实施方式,所述第一特征数据包括第二音频的第二特征数据和第三音频的第三特征数据,所述第二音频和所述第三音频分属所述第一音频的不同通道;
67、所述第一处理单元,用于:
68、将所述第二特征数据分为所述n段第一特征帧;
69、所述第二处理单元,用于:
70、根据所述第一占比和第二占比,得到所述音乐特征帧在所述第一特征数据中的第三占比;所述第二占比为所述音乐特征帧在所述n段第四特征帧中的占比,所述n段第四特征帧通过将所述第三音频的特征数据分为n段特征帧得到;
71、在所述第三占比大于或等于第二阈值的情况下,确定所述第一音频为音乐音频。
72、结合本技术任一实施方式,所述第二处理单元,用于:
73、在所述第一占比与所述第二占比的差大于或等于第三阈值的情况下,确定所述第三占比为所述第一占比和所述第二占比中的最大值;
74、在所述第一占比与所述第二占比的差小于所述第三阈值的情况下,对所述第一占比和所述第二占比进行平滑处理,得到所述第三占比。
75、结合本技术任一实施方式,所述第二处理单元,用于计算所述第一占比和所述第二占比的平均值,得到所述第三占比。
76、结合本技术任一实施方式,所述第二处理单元,还用于:
77、在所述第三占比小于所述第二阈值的情况下,确定所述第一音频为非音乐音频。
78、结合本技术任一实施方式,在所述第一音频的通道数为1的情况下,所述第二处理单元,用于在所述第一占比大于或等于第二阈值的情况下,确定所述第一音频为音乐音频。
79、结合本技术任一实施方式,所述第二处理单元,还用于在无效帧在所述n段第一特征帧中的第四占比大于或等于第四阈值的情况下,确定所述第一音频为非音乐音频;所述无效帧为能量小于或等于第一阈值的特征帧。
80、在该种实施方式中,音频处理装置在无效帧在n段第一特征帧中的占比大的情况下,识别第一音频为非音乐音频,可提高识别准确度。
81、第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
82、第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
83、第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
84、第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
85、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22839.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表