技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频信号的融合方法及装置、计算机存储介质及终端与流程  >  正文

音频信号的融合方法及装置、计算机存储介质及终端与流程

  • 国知局
  • 2024-06-21 10:39:23

本技术涉及音频处理,尤其涉及一种音频信号的融合方法及装置、计算机可读存储介质及终端。

背景技术:

1、在多人会议场景中,通过会议终端一体机(一般安装在靠墙的位置)上的阵列麦克风进行远距离拾音所得到的拾音信号的质量通常不佳。为了提高麦克风拾音效果,一种可行的方案是在更靠近说话人的位置布置一个或多个无线麦克风,并将无线麦克风的拾音信号和会议终端一体机的拾音信号进行联合处理。通常情况下,距离说话人更近的麦克风拾音信号的质量更好,而距离说话人较远的麦克风拾音信号的信噪比和信混比都比较低,质量较差。因此,为了发挥多个无线麦克风的作用,需要将多路拾音信号进行融合。

2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本技术的目的在于提供一种音频信号的融合方法及装置、计算机可读存储介质及设备,至少能够在一定程度上提高融合音频信号的质量。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术的第一个方面,提供一种音频信号的融合方法,该方法包括:确定多个设备对应的各路音频信号的短时频域表示;根据上述各路音频信号的短时频域表示,确定上述各路音频信号的时变线性预测误差滤波器的频率响应,并根据上述短时频域表示和上述时变线性预测误差滤波器的频率响应计算上述各路音频信号的线性预测误差的短时频谱;从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述各路音频信号对应的线性预测误差包络的短时频谱,并根据上述线性预测误差包络的短时频谱确定上述各路音频信号的线性预测误差包络;对上述线性预测误差包络进行非线性压缩处理,得到上述各路音频信号的非线性压缩信号;根据上述非线性压缩信号的方差确定上述各路音频信号对应的权重,并根据上述权重对上述各路音频信号进行融合。

4、在本技术一个实施例中,上述确定多个设备对应的各路音频信号的短时频域表示,包括:对上述各路音频信号进行分帧,得到上述各路音频信号对应的时域分帧信号;对上述时域分帧信号进行加窗和快速傅里叶变换,得到上述各路音频信号的短时频域表示。

5、在本技术一个实施例中,上述根据上述各路音频信号的短时频域表示,确定上述各路音频信号的时变线性预测误差滤波器的频率响应,包括:在上述短时频域表示的目标帧中确定各频点的实部和虚部的平方和,得到上述各路音频信号在上述目标帧的功率谱;对上述功率谱进行逆向快速傅里叶变换,得到上述各路音频信号在上述目标帧的自相关函数;根据上述自相关函数确定上述各路音频信号的时变线性预测误差滤波器系数;对上述时变线性预测误差滤波器系数进行快速傅里叶变换,得到上述各路音频信号的时变线性预测误差滤波器的频率响应。

6、在本技术一个实施例中,上述根据上述自相关函数确定上述各路音频信号的时变线性预测误差滤波器系数,包括:选取上述各路音频信号在上述目标帧的自相关函数的前p+1个值,并根据上述自相关函数的前p+1个值确定上述各路音频信号的p阶线性预测系数,其中,p为正整数;取上述p阶线性预测系数的相反数并增加首项1,得到上述各路音频信号的长度为p+1的时变线性预测误差滤波器系数。

7、在本技术一个实施例中,上述根据上述短时频域表示和上述时变线性预测误差滤波器的频率响应计算上述各路音频信号的线性预测误差的短时频谱,包括:将上述频域表示中各频点的复数系数与上述时变线性预测误差滤波器的频率响应中各频点的复数系数对应相乘,得到上述各路音频信号的线性预测误差的短时频谱。

8、在本技术一个实施例中,上述从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述各路音频信号对应的线性预测误差包络的短时频谱,包括:确定近似包络所需的下采样率,并根据上述线性预测误差的短时频谱的频点数和上述下采样率,确定上述线性预测误差的短时频谱中待抽取频点的下标;根据上述待抽取频点的下标,从上述线性预测误差的短时频谱中抽取对应频点的系数,并重新组合出上述线性预测误差包络的短时频谱。

9、在本技术一个实施例中,上述根据上述线性预测误差包络的短时频谱确定上述各路音频信号的线性预测误差包络,包括:对上述线性预测误差包络的短时频谱进行逆向快速傅里叶变换,得到上述线性预测误差包络。

10、在本技术一个实施例中,上述对上述线性预测误差包络进行非线性压缩处理,得到上述各路音频信号的非线性压缩信号,包括:逐帧计算上述线性预测误差包络的平均能量,并对上述线性预测误差包络的平均能量进行指数平滑,得到更新后的当前帧平均能量;从上述线性预测误差包络信号当前帧的对数变换中减去上述更新后的当前帧平均能量,得到相减结果,并计算上述相减结果的指数函数,得到幅度补偿的线性预测误差包络;计算上述幅度补偿的线性预测误差包络的三次方根,得到上述非线性压缩信号。

11、在本技术一个实施例中,上述根据上述非线性压缩信号的方差确定上述各路音频信号对应的权重,并根据上述权重对上述各路音频信号进行融合,包括:计算上述非线性压缩信号的方差,得到上述各路音频信号的方差;将上述各路音频信号的方差输入权重调整器中,并根据上述权重调整器所输出的权重对上述各路音频信号进行融合。

12、在本技术一个实施例中,上述方法还包括:将上述非线性压缩信号的方差作为上述各路音频信号的特征;上述权重调整器用于:根据上述各路音频信号的特征在上述各路音频信号中的分布情况,对上述各路音频信号赋予相应的权重;限制上述各路音频信号的权重的变化速率。

13、根据本技术的第二个方面,提供一种音频信号的融合装置,上述装置包括:第一确定模块,用于:确定多个设备对应的各路音频信号的短时频域表示;第二确定模块,用于:根据上述各路音频信号的短时频域表示,确定上述各路音频信号的时变线性预测误差滤波器的频率响应,并根据上述短时频域表示和上述时变线性预测误差滤波器的频率响应计算上述各路音频信号的线性预测误差的短时频谱;第三确定模块,用于:从上述线性预测误差的短时频谱中抽取低频系数并重新组合,以确定上述各路音频信号对应的线性预测误差包络的短时频谱,并根据上述线性预测误差包络的短时频谱确定上述各路音频信号的线性预测误差包络;非线性压缩模块,用于:对上述线性预测误差包络进行非线性压缩处理,得到上述各路音频信号的非线性压缩信号;融合模块,用于:根据上述非线性压缩信号的方差确定上述各路音频信号对应的权重,并根据上述权重对上述各路音频信号进行融合。

14、根据本技术的第三个方面,提供一种终端,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述第一个方面所述的音频信号的融合方法。

15、根据本技术的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述第一个方面所述的音频信号的融合方法。

16、本技术的实施例所提供的音频信号的融合方法及装置、计算机存储介质及终端,具备以下技术效果:确定多个设备对应的各路音频信号的短时频域表示。根据各路音频信号的短时频域表示,确定各路音频信号的时变线性预测误差滤波器的频率响应,并根据短时频域表示和时变线性预测误差滤波器的频率响应计算各路音频信号的线性预测误差的短时频谱。从线性预测误差的短时频谱中抽取低频系数并重新组合,以确定各路音频信号对应的线性预测误差包络的短时频谱,并根据线性预测误差包络的短时频谱确定各路音频信号的线性预测误差包络。对线性预测误差包络进行非线性压缩处理,得到各路音频信号的非线性压缩信号。根据非线性压缩信号的方差确定各路音频信号对应的权重,并根据权重对各路音频信号进行融合。本方案能够在混响较强的环境中通过确定多通道音频的权重改善融合音频信号的质量,提高语音的清晰度和可懂度。

17、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20979.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。