一种终端设备及音频定位方法与流程
- 国知局
- 2024-06-21 11:41:47
本技术涉及音频处理领域,尤其涉及一种终端设备及音频定位方法。
背景技术:
1、音频数据是存储或传输音频信号的数字表示,音频信号是指声音的电流或电压的模拟表示,音频信号的变化可以表达发出源的声音,例如,人声、音乐等。针对于一些音频处理领域,例如,字幕断句、音频数据集整理、音频压缩存储等领域,需要对音频数据进行有效音频定位,进而提取出有效音频。其中,有效音频是指在一段音频数据中非静音的音频部分。有效音频定位是指在一段音频数据中标记出有效音频信号的起始时间点和结束时间点,进而可以从音频数据中提取有效音频。
2、由于音频数据中静音部分可能包括不同程度的热噪声,进而影响有效音频的定位效果,例如,对于录音文件,静音部分中会包含人耳听上去表现为“嘶嘶”的声音。因此,有效音频定位方法可以通过设置一个固定阈值,在音频信号的幅值高于该阈值时,定位有效音频信号的起始时间点,但该方法仅适用于热噪声较小,有效音频清晰的音频数据。当热噪声高于阈值,或有效音频信号的幅值低于阈值时,会导致有效音频定位存在偏差。因此,可以采用低通滤波的方法先滤除音频数据中的热噪声,再进行有效音频定位,但低通滤波的方法并不能完全滤除热噪声,残存的热噪声仍会影响有效音频的定位效果。
技术实现思路
1、本技术提供了一种终端设备及音频定位方法,以解决有效音频定位准确性低的问题。
2、第一方面,本技术一些实施例提供一种终端设备,包括音频接口和控制器,其中,所述音频接口被配置为获取音频信号,所述控制器被配置为执行以下程序步骤:
3、获取待定位音频信号;
4、计算所述待定位音频信号的动态阈值,所述动态阈值用于表征所述待定位音频信号中有效音频信号的信号幅值;
5、对所述待定位音频信号执行平滑处理,以生成平滑信号;
6、基于预设时长窗口在所述平滑信号上定位有效音频信号的位置坐标,所述位置坐标包括起始坐标和结束坐标,所述起始坐标为所述时长窗口内所述平滑信号的信号幅值均大于所述动态阈值时的窗口起始位置坐标,所述结束坐标为所述时长窗口内所述平滑信号的信号幅值均小于所述动态阈值时的窗口起始位置坐标。
7、可选的,所述控制器还被配置为执行以下程序步骤:复制所述待定位音频信号,以生成第一音频信号和第二音频信号;
8、基于所述第一音频信号计算所述动态阈值;
9、基于所述第二音频信号生成所述平滑信号。
10、可选的,所述控制器执行计算所述待定位音频信号的动态阈值,还被配置为执行以下程序步骤:
11、在所述待定位音频信号中提取噪声信号;
12、对所述噪声信号执行绝对值平均运算,以得到噪声标量,所述噪声标量用于表征所述待定位音频信号中的底噪值;
13、将所述噪声标量增大预设底噪倍率,以得到所述动态阈值。
14、可选的,所述控制器执行对所述噪声信号执行绝对值平均运算,还被配置为执行以下程序步骤:
15、将所述噪声信号转换成噪声数字信号,所述噪声数字信号为所述噪声信号对应的数字信号;
16、获取所述待定位音频信号的音频时长,以及根据所述音频时长和所述噪声数字信号计算所述噪声标量。
17、可选的,所述控制器执行对所述待定位音频信号执行平滑处理,还被配置为执行以下程序步骤:
18、过滤所述待定位音频信号中的低频分量和高频分量,以得到滤波信号,所述低频分量为所述待定位音频信号中频率低于第一频率阈值的信号;所述高频分量为所述待定位音频信号中频率高于第二频率阈值的信号,所述第二频率阈值大于所述第一频率阈值;
19、对所述滤波信号取绝对值,以得到正信号;
20、对所述正信号执行移动平均运算,以得到平滑信号。
21、可选的,所述控制器执行对取绝对值后的所述正信号执行移动平均运算,还被配置为执行以下程序步骤:
22、获取音频总长度和预设移动平均长度,所述音频总长度为所述待定位音频信号的音频长度;
23、计算所述正信号中每个时刻信号的平滑信号值,所述平滑信号值为所述信号前后目标数量个信号的平均幅值,所述目标数量根据所述音频总长度和所述移动平均长度计算得到。
24、可选的,所述控制器还被配置为执行以下程序步骤:
25、基于预设时长窗口按照预设滑动方向在所述平滑信号上滑动,以及对比所述时长窗口内所述平滑信号的信号幅值和所述动态阈值;
26、定位所述时长窗口内所述平滑信号的信号幅值均大于所述动态阈值时的窗口起始位置坐标,以获取有效音频信号的起始坐标;
27、定位所述时长窗口内所述平滑信号的信号幅值均小于所述动态阈值时的窗口起始位置坐标,以获取有效音频信号的结束坐标。
28、可选的,所述控制器还被配置为执行以下程序步骤:
29、将所述时长窗口内所述平滑信号的信号幅值均大于所述动态阈值时的窗口起始位置坐标向前扩展预设时间偏置,以获取所述起始坐标;
30、将所述时长窗口内所述平滑信号的信号幅值均小于所述动态阈值时的窗口起始位置坐标向后扩展预设时间偏置,以获取所述结束坐标。
31、可选的,还包括存储器,所述控制器还被配置为执行以下程序步骤:
32、获取平滑信号的平滑数字信号;
33、将所述平滑数字信号的幅值依次存储至存储器,以及计算每存储一个幅值时所述存储器中数值的平均值,所述存储器的存储数据长度用于表征预设移动平均长度;
34、对比所述平均值和所述动态阈值,以更新计数器,其中,如果所述平均值大于所述动态阈值,控制所述计数器的数值加1,如果所述平均值小于或等于所述动态阈值,控制所述计数器的数值置0;
35、对比所述计数器的数值和所述时长窗口的窗口长度,以及在所述计数器的数值大于所述窗口长度时,定位所述起始坐标。
36、第二方面,本技术还提供一种音频定位方法,包括:
37、获取待定位音频信号;
38、计算所述待定位音频信号的动态阈值,所述动态阈值用于表征所述待定位音频信号中有效音频信号的信号幅值;
39、对所述待定位音频信号执行平滑处理,以生成平滑信号;
40、基于预设时长窗口在所述平滑信号上定位有效音频信号的位置坐标,所述位置坐标包括起始坐标和结束坐标,所述起始坐标为所述时长窗口内所述平滑信号的信号幅值均大于所述动态阈值时的窗口起始位置坐标,所述结束坐标为所述时长窗口内所述平滑信号的信号幅值均小于所述动态阈值时的窗口起始位置坐标。
41、由以上技术方案可知,本技术提供一种终端设备及音频定位方法,所述方法可以在获取到待定位音频信号后,计算待定位音频信号的动态阈值,以及对待定位音频信号执行平滑处理,以生成平滑信号,并基于预设时长窗口在平滑信号上定位有效音频信号的位置坐标,其中,动态阈值用于表征待定位音频信号中有效音频信号的信号幅值,有效音频信号的位置坐标包括起始坐标和结束坐标,起始坐标为时长窗口内平滑信号的信号幅值均大于动态阈值时的窗口起始位置坐标,结束坐标为时长窗口内平滑信号的信号幅值均小于动态阈值时的窗口起始位置坐标。所述方法可以通过计算待定位音频信号中有效音频的触发阈值,以定位具有不同噪声的音频数据,并且可以通过时长窗口直接在时域信号上定位有效音频,进而规避频率的限制,提高有效音频的定位准确性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22971.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表