基于广义互相关的音频数据处理方法、装置及存储介质
- 国知局
- 2024-06-21 11:32:22
本发明涉及音频,更为具体地,涉及一种基于广义互相关的音频数据处理方法、装置及存储介质。
背景技术:
1、广播电台在节目播出过程中,由于设备故障、非法信号干扰等原因,存在着插播、错播等安全事故。为了及时发现安全播出事故,减轻值班员工作压力,通常采用音频节目内容一致性比对技术,对播出环节中各个节点的音频节目进行实时监测,以保证全天后安全播出的要求。
2、音频节目内容一致性比对,是对广播电台同一节目不同传输节点的音频信号,进行节目内容的一致性比对,实时监测节目内容的正确性。音频节目传输通常采用卫星信号传输、有线网络传输、数字音频光传输、互联网宽带传输等方式,不同传输方式的信号延迟各不相同,并且存在实时的延迟抖动。在音频节目内容一致性比对处理之前,音频数据的精确对齐是音频比对处理的前提。
技术实现思路
1、鉴于上述问题,本发明的目的是提供一种基于广义互相关的音频数据处理方法、装置及存储介质,以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
2、本发明提供一种基于广义互相关的音频数据处理方法,包括:
3、通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
4、采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
5、采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
6、根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
7、通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
8、此外,优选的方案是,所述采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理包括:
9、读取所述两路音频片段缓冲区的一帧数据;
10、通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取;
11、将提取的短时平均能量特征与设定的阈值进行比较;
12、若所述短时平均能量特征大于阈值,则此音频片段进行延迟估计处理,否则滑动至下一个计算窗口直到所述短时平均能量特征值大于阈值。
13、此外,优选的方案是,所述通过短时平均能量特征公式对读取的一帧数据进行短时平均能量特征提取包括:
14、第i帧音频满足公式为:
15、,
16、其中,表示第i帧音频,表示音频信号;表示窗函数,表示帧移,表示第i帧的起始点数值,n表示第n个样值,表示第i帧的第n个音频样值;
17、第i帧音频信号的短时平均能量计算公式为:,
18、其中,l为每帧信号的数据长度。
19、此外,优选的方案是,所述采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值包括:
20、对两路音频信号进行fft变换,获取两路信号的互功率谱;
21、对所述互功率谱、加权函数进行加权滤波处理,得到互功率谱密度;
22、对所述互功率谱密度经过ifft逆变换处理,获取广义互相关函数;
23、对所述广义互相关函数进行峰值检测处理,获取两路音频数据之间的延迟估计值。
24、此外,优选的方案是,所述两路信号的互功率谱的公式为:
25、,
26、其中,表示两路信号的互功率谱,表示第一路音频信号,表示第二路音频信号;
27、所述互功率谱密度的公式为:
28、,
29、其中,表示互功率谱密度,表示对信号x1加权滤波函数,表示对信号x2的加权滤波函数;
30、所述广义互相关函数的公式为:
31、,
32、,
33、其中,表示延迟值;表示加权滤波函数。
34、此外,优选的方案是,所述根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决包括:
35、根据所述两路音频数据之间的延迟估计值,将所述两路音频片段缓冲区的音频对齐;
36、采用皮尔森相关系数对从两路音频片段缓冲区对齐后的音频数据进行处理,获取皮尔森系数值;
37、将所述皮尔森系数值与预设的阈值进行比较;
38、若所述皮尔森系数值大于预设的阈值,则判定成功,否则滑动到下一个计算窗口重新进行延迟估计处理。
39、此外,优选的方案是,所述皮尔森相关系数的公式为:
40、,
41、其中,x、y为两个变量,表示x和y的协方差,表示变量x的方差,表示变量y的方差,表示变量x的均值,表示变量y的均值。
42、此外,优选的方案是,所述通过状态机对延迟估计处理以及门限判决进行控制调控包括:
43、开始运行时,所述状态机处于初始化状态,进行所述大窗口音频数据处理;
44、如果大窗口音频数据处理状态门限判决成功,则所述状态机进入小窗口音频数据处理状态;
45、对所述小窗口音频数据处理状态进行处理,如果所述小窗口音频数据处理状态门限判决成功,则所述状态机进入跟踪保持状态;
46、对所述跟踪保持状态进行处理,如果所述跟踪保持状态判决成功则保持在所述跟踪保持状态,如果所述跟踪保持状态判决失败则返回所述初始化状态;其中,在所述跟踪保持状态中,实时进行小窗口音频数据对齐。
47、本发明还提供一种基于广义互相关的音频数据处理装置,包括:
48、预处理模块,用于通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;
49、静音段处理模块,用于采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;
50、延迟估计模块,用于采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;
51、门限判决模块,用于根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;
52、状态机控制模块,用于通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐。
53、本发明还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述基于广义互相关的音频数据处理方法。
54、从上面的技术方案可知,本发明提供的基于广义互相关的音频数据处理方法、装置及存储介质,通过计算窗口取出两路音频流的当前处理数据,并分别放入到两路音频片段缓冲区;采用短时平均能量特征对所述两路音频片段缓冲区的数据进行静音段处理;采用广义互相关延迟算法对经过静音段处理的数据进行延迟估计处理,获取两路音频数据之间的延迟估计值;根据所述两路音频数据之间的延迟估计值,采用皮尔森相关系数对所述两路音频片段缓冲区的数据进行门限判决;通过状态机对延迟估计处理以及门限判决进行控制调控,实现两路音频数据对齐;以解决各路音频传输延迟不确定、音频延迟实时变化的问题,从而实现各路音频数据实时精确对齐。
55、为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22095.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表