一种基于频率补偿的音频质量改进方法、系统及对讲设备与流程
- 国知局
- 2024-06-21 11:52:47
本发明涉及音频处理,特别涉及一种速度快、边缘处理较好的基于频率补偿的音频质量改进方法、系统及对讲设备。
背景技术:
1、在对讲系统中,语音信号经过设备时,由于设备自身的缺陷,会受到不同程度的衰减和干扰,导致失真,从而影响音频质量。
2、现有对语音信号进行补偿的方法均存在一定的缺陷,比如基于相位谱的补偿方法,采用固定的相位补偿因子,且算法的性能易受噪声估计准确性的影响;比如基于时域滤波的补偿方法,在边缘提取上处理较好,但速度较慢;再比如基于频率滤波的补偿方法,速度较快,但在边缘提取上较差,具有一定时延。现有的语音补偿方式在实际对讲系统中应用效果均不理想。
技术实现思路
1、本发明要解决的技术问题,在于提供一种基于频率补偿的音频质量改进方法、系统和对讲设备,解决现有音频补偿时计算速度慢,边缘提取差和精度不足导致的音频失真等问题。
2、第一方面,本发明提供了一种基于频率补偿的音频质量改进方法,所述方法包括:
3、步骤s1、获取设备待测音频数据;
4、步骤s2、对待测音频数据应用fft并将其转化为能量值,计算平均能量值作为中间标准值,将能量值点数平均划分复数段,并取每段中位数作为该段能量代表值,将中间标准值与每段能量代表值之间的差值作为每段对应的增益值,对每段的增益值进行平滑滤波处理输出每段对应的补偿参数;
5、步骤s3、获取输入的待补偿的语音信号以及对应的补偿参数,对所述语音信号进行分帧,应用fft将语音信号从时域转换到频域,利用滤波器根据划分的各个频段所需的补偿参数对各个频段数据进行补偿,再应用ifft将语音信号从频域重新转换到时域,将数据进行拼接处理,输出经过补偿处理后的语音信号。
6、进一步的,所述步骤s1具体包括:
7、当需要对设备麦克风缺陷进行补偿时,使用一高保真音频播放设备播放8k标准扫频信号音频,并使用待测设备中的录音工具进行音频录制获取由于麦克风缺陷导致失真的信号音频作为待测音频数据;
8、当需要对设备扬声器缺陷进行补偿时,使用待测设备中的播放音频工具对8k标准扫频信号音频进行播放,并使用一高保真音频录制设备对其进行录制得到由于扬声器缺陷导致失真的信号音频作为待测音频数据。
9、进一步的,所述步骤s2具体包括:
10、步骤s21、读取待测音频数据;
11、步骤s22、对所述待测音频数据应用fft,并计算得到各数据点对应的能量值,只取fft输出的前一半有效值参与后续计算;
12、步骤s23、计算平均能量值,并将其作为中间标准值;
13、步骤s24、通过采样率和对讲系统中每帧语音信号时间长度,计算出每帧有效信号数据个数m,并基于fft的周期性和对称性,将距离每帧有效信号数据个数m最近的2n的一半设置为划分的频段总数x,将参与计算的全部能量值划分为x份,每份和上面所划分的频段对应,其中m≤2n;
14、步骤s25、取每份能量值点数的中位数作为对应频段的能量代表值,获取平均能量值,将平均能量值与每段能量代表值之间的差值作为每段补偿所需增益值;
15、步骤s26、对每段对应所需增益值进行平滑滤波,输出各段对应的补偿参数,其中,所述平滑滤波的具体方法如下:对每相邻三个频段取平均值,来作为最中间的频段的最终增益值,对两边缘部分不足三个频段的,进行补零凑齐三个数后再取平均值计算。
16、进一步的,所述步骤s3具体包括:
17、步骤s31、获取输入的待补偿的语音信号,对所述语音信号数据进行分帧,并对每帧添加重叠得到每一个新的帧,将一个新的帧定义为一个窗口;
18、步骤s32、对每个窗口中的数据应用fft将语音信号从时域转换到频域;
19、步骤s33、通过一滤波器根据各个频段的补偿参数对各个频段内所有数据进行补偿;
20、步骤s34、对应用补偿后的每个窗口数据应用ifft将语音信号从频域重新转换到时域;
21、步骤s35、对每一窗口提取有效区域,从第一个窗口获取输入有效值作为输出有效值,之后从每一窗口重叠长度的1/2处为起始点开始取值,往后取有效值长度数目个有效值点作为有效区域,将各个窗口有效区域数据进行拼接组合,输出最终补偿后的语音信号。
22、进一步的,所述步骤s31具体包括:
23、获取输入的待补偿的语音信号,对所述语音信号数据进行分帧,根据输入语音信号的采样率和每帧时间长度计算出每帧有效数据个数m,所述m=采样率×每帧时间长度;
24、对每帧添加重叠得到每一个新的帧,将新的帧定义成窗口,定义新的帧的帧长即窗口长度为距离有效数据个数m值最近的2n,且m≤2n;每一窗口内的重叠长度等于窗口长度减去每帧有效数据个数m,其中第一个窗口的重叠部分设置在窗口尾部位置且采取补零方式填充,之后每个窗口的重叠部分设置在窗口头部位置,且采用前一窗口的尾部数据填充。
25、第二方面,本发明提供了一种基于频率补偿的音频质量改进系统,所述系统包括音频采集模块、补偿参数自动计算模块和补偿参数应用模块:
26、所述音频采集模块用于获取设备待测音频数据;
27、所述补偿参数自动计算模块用于对待测音频数据应用fft并将其转化为能量值,计算平均能量值作为中间标准值,将能量值点数平均划分复数段,并取每段中位数作为该段能量代表值,将中间标准值与每段能量代表值之间的差值作为每段对应的增益值,对每段的增益值进行平滑滤波处理输出每段对应的补偿参数;
28、所述补偿参数应用模块用于获取输入的待补偿的语音信号以及对应的补偿参数,对所述语音信号进行分帧,应用fft将语音信号从时域转换到频域,利用滤波器根据划分的各个频段所需的补偿参数对各个频段数据进行补偿,再应用ifft将语音信号从频域重新转换到时域,将数据进行拼接处理,输出经过补偿处理后的语音信号。
29、进一步的,所述音频采集模块具体包括:
30、当需要对设备麦克风缺陷进行补偿时,使用一高保真音频播放设备播放8k标准扫频信号音频,并使用待测设备中的录音工具进行音频录制获取由于麦克风缺陷导致失真的信号音频作为待测音频数据;
31、当需要对设备扬声器缺陷进行补偿时,使用待测设备中的播放音频工具对8k标准扫频信号音频进行播放,并使用一高保真音频录制设备对其进行录制得到由于扬声器缺陷导致失真的信号音频作为待测音频数据。
32、进一步的,所述补偿参数自动计算模块具体包括:
33、数据读取模块,用于读取待测音频数据;
34、能量值计算模块,用于对所述待测音频数据应用fft,并计算各数据点对应的能量值,只取fft输出的前一半有效值参与后续计算;
35、标准值计算模块,用于计算平均能量值,并将其作为中间标准值;
36、频段划分模块,用于通过采样率和对讲系统中每帧语音信号时间长度,计算出每帧有效信号数据个数m,并基于fft的周期性和对称性,将距离每帧有效信号数据个数m最近的2n的一半设置为划分的频段总数x,将参与计算的全部能量值划分为x份,每份和上面所划分的频段对应,其中m≤2n;
37、增益计算模块,用于取每份能量值点数的中位数作为对应频段的能量代表值,获取平均能量值,将平均能量值与每段能量代表值之间的差值作为每段补偿所需增益值;
38、平滑滤波模块,用于对每段对应所需增益值进行平滑滤波,输出各段对应的补偿参数,其中,所述平滑滤波的具体方法如下:对每相邻三个频段取平均值,来作为最中间的频段的最终增益值,对两边缘部分不足三个频段的,进行补零凑齐三个数后再取平均值计算。
39、进一步的,所述补偿参数应用模块具体包括:
40、窗口设置模块,用于获取输入的待补偿的语音信号,对所述语音信号数据进行分帧,并对每帧添加重叠得到每一个新的帧,将一个新的帧定义为一个窗口;
41、fft模块,用于对每个窗口中的数据应用fft将语音信号从时域转换到频域;
42、分频段补偿模块,用于通过一滤波器根据各个频段的补偿参数对各个频段内所有数据进行补偿;
43、ifft模块,用于对应用补偿后的每个窗口数据应用ifft将语音信号从频域重新转换到时域;
44、窗口拼接与数据输出模块,用于对每一窗口提取有效区域,从第一个窗口获取输入有效值作为输出有效值,之后从每一窗口重叠长度的1/2处为起始点开始取值,往后取有效值长度数目个有效值点作为有效区域,将各个窗口有效区域数据进行拼接组合,输出最终补偿后的语音信号。
45、进一步的,所述窗口设置模块具体包括:
46、数据分帧模块,用于获取输入的待补偿的语音信号,对所述语音信号数据进行分帧,根据输入语音信号的采样率和每帧时间长度计算出每帧有效数据个数m,所述m=采样率×每帧时间长度;
47、窗口生成模块,用于对每帧添加重叠得到每一个新的帧,将新的帧定义成窗口,定义新的帧的帧长即窗口长度为距离有效数据个数m值最近的2n,且m≤2n;每一窗口内的重叠长度等于窗口长度减去每帧有效数据个数m,其中第一个窗口的重叠部分设置在窗口尾部位置且采取补零方式填充,之后每个窗口的重叠部分设置在窗口头部位置,且采用前一窗口的尾部数据填充。
48、第三方面,本发明提供了一种对讲设备,包括麦克风、扬声器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该程序被处理器执行时对所述麦克风和/或扬声器采用第一方面所述的方法,对所述麦克风和/或扬声器采用如上所述的方法对音频进行补偿。
49、本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
50、1、通过对8k标准扫频信号音频分别通过设备麦克风和扬声器的输出信号音频进行补偿,其测得的补偿参数应用于该设备能较好的对其他通过此设备的语音信号进行还原,从而较大程度弥补设备缺陷;
51、2、计算补偿参数时选取能量平均值作为测量自动补偿参数的中间标准,以及对各频段增益值应用自定义的平滑滤波方式,不仅补偿效果较好,还能防止频谱变化过大导致频谱泄漏,同时减少饱和失真等问题;
52、3、在频域中进行滤波处理,相比于其他算法,速度更快;且在分帧时添加重叠,并对ifft输出从1/2重叠处开始进行有效值取值,可较好地减少了因分帧引起的边缘削弱的影响;同时基于fft的对称性,采用将分帧并添加重叠部分计算出的窗口长度的一半设置为划分的频段个数n,直接对有效区域平均划分为n段的频段划分方式,进一步提高了补偿的准确性,提高音频保真度。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24208.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。