非负矩阵分解的蓝牙发射端降噪方法、装置、介质及设备与流程
- 国知局
- 2024-12-06 12:42:43
本申请属于蓝牙音频,特别是涉及一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法、装置、存储介质及设备。
背景技术:
1、目前主流的蓝牙音频编码器包括:sbc:a2dp协议强制要求,使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;aac-lc:音质较好且应用较为广泛,很多主流的手机都支持,但与sbc相比,内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限,而且,其专利费较高;aptx系列:音质较好,但码率很高,aptx需要码率384kbps,而aptx-hd的码率为576kbps,且为高通独有的技术,较为封闭;ldac:音质较好,但码率也很高,分别是330kbps,660kbps和990kbps,由于蓝牙设备所处的无线环境特别复杂,稳定支持如此高的码率有一定的困难,且为索尼独有的技术,也很封闭;lhdc:音质较好,但码率也很高,典型的包括400kbps,600kbps和900kbps,如此高的码率,对于蓝牙的基带/射频设计提出了很高的要求。基于上述原因,蓝牙国际联盟bluetooth sig联合众多厂商推出了lc3,主要面向低功耗蓝牙,也可以用于经典蓝牙,其具有较低延迟、较高的音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
2、在很多蓝牙应用中,如蓝牙通话、蓝牙麦克风以及录音等,都需要进行降噪。
3、非负矩阵分解(nonnegative matrix factorization),简称nmf,使分解后的所有矩阵分量均为非负值,同时实现非线性的降维。nmf已逐渐成为信号处理、生物医学工程、模式识别、计算机视觉和图像工程等研究领域中最受欢迎的多维数据处理工具之一。
4、非负矩阵分解在语音降噪中有一定的应用,但其在较低信噪比时性能一般,会引起失真。
5、深度学习在语音降噪中得到了广泛的关注,目前有很多成熟的算法在服务器及pc端成功部署且效果良好,但由于网络模型复杂且权重占据较大内存空间,在嵌入式系统部署较为困难,通常需要npu的协助,而蓝牙相关设备很多都是基于嵌入式系统,具备npu的较少。
技术实现思路
1、针对现有技术中存在的上述技术问题,本申请提供了一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法、装置、存储介质及设备,在蓝牙发射端,基于mdct谱系数,通过在子带上执行非负矩阵分解生成降噪增益,再基于深度学习修正降噪增益,从而实现语音降噪,不但能够保证音质,还能减小矩阵的尺寸,既避免了非负矩阵分解的不足,又避免了深度学习使用过于复杂的网络模型。
2、为了实现上述目的,本申请采用的第一个技术方案是:提供一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,包括:在蓝牙发射端,输入单声道语音pcm数据,并执行低延迟改进型离散余弦变换,得到mdct谱系数;根据mdct谱系数计算子带能量,并构建子带能量观察矩阵;对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值;根据语音子带能量值和噪声子带能量值,计算第一子带降噪增益;将第一子带降噪增益输入预训练的深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益执行插值,得到所有的频仓增益;根据频仓增益和mdct谱系数,得到降噪谱系数;以及对降噪谱系数继续执行编码过程,输出降噪语音码流。
3、本申请采用的第二个技术方案是:提供一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪装置,包括:用于在蓝牙发射端,输入单声道语音pcm数据,并执行低延迟改进型离散余弦变换,得到mdct谱系数的模块;用于根据mdct谱系数计算子带能量,并构建子带能量观察矩阵的模块;用于对子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值的模块;用于根据语音子带能量值和噪声子带能量值,计算第一子带降噪增益的模块;用于将第一子带降噪增益输入预训练的深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益执行插值,得到所有的频仓增益的模块;用于根据频仓增益和mdct谱系数,得到降噪谱系数的模块;用于对降噪谱系数继续执行编码过程,输出降噪语音码流的模块。
4、本申请采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法。
5、本申请采用的第四个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法。
6、本申请技术方案可以达到的有益效果是:本申请的技术方案既可以应用于经典蓝牙(br、edr),也可以应用于低功耗蓝牙(le、le audio),在蓝牙发射端,基于mdct谱系数,通过在子带上执行非负矩阵分解生成降噪增益,再基于深度学习修正降噪增益,从而实现语音降噪,保证了音质,既避免了非负矩阵分解的不足,又避免了深度学习使用过于复杂的网络模型。基于离散余弦变换的处理,在逆变换时不需要相位谱,与传统的傅里叶变换需要相位谱相比,避免了因纯净语音的相位谱无法获得而只能使用带噪语音相位谱对重建语音的损伤;在子带上执行非负矩阵分解,与传统的幅度谱相比,矩阵的尺寸极大降低,运算量和存储量都相应的降低;深度学习模型主要用来修正非负矩阵分解的降噪增益,与传统的端到端的基于幅度谱的深度学习降噪模型相比,网络结构更简单,运算量和存储量都相应的降低。
技术特征:1.一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,包括:
2.根据权利要求1所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述输入单声道语音pcm数据,并执行低延迟改进型离散余弦变换,得到mdct谱系数,包括:
3.根据权利要求1所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述根据所述mdct谱系数计算子带能量,包括:
4.根据权利要求1所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述对所述子带能量观察矩阵执行非负矩阵分解,并计算语音子带能量值和噪声子带能量值,包括:
5.根据权利要求1所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述根据所述频仓增益和所述mdct谱系数,得到降噪谱系数,包括:
6.根据权利要求3所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述对所述第二子带降噪增益执行插值,得到所有的频仓增益,包括:
7.根据权利要求1所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法,其特征在于,所述对所述降噪谱系数继续执行编码过程,包括:
8.一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪装置,其特征在于,包括:
9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法。
技术总结本申请公开了一种基于非负矩阵分解与深度学习的蓝牙发射端语音降噪方法、装置、存储介质及设备,属于蓝牙音频技术领域,该方法包括在蓝牙发射端输入单声道语音PCM,执行低延迟改进型离散余弦变换,得到MDCT谱系数;根据MDCT谱系数计算子带能量,构建子带能量观察矩阵;执行非负矩阵分解,并计算语音和噪声子带能量值;根据语音和噪声子带能量值,计算第一子带降噪增益;将第一子带降噪增益输入预训练深度神经网络中,输出第二子带降噪增益,并对第二子带降噪增益插值,得到频仓增益;根据频仓增益和MDCT谱系数,得到降噪谱系数;对降噪谱系数继续执行编码过程输出降噪语音码流。本申请在蓝牙发射端结合非负矩阵分解与深度学习实现语音降噪,保证了音质。技术研发人员:李强,叶东翔,朱勇受保护的技术使用者:深圳百瑞互联技术有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/342599.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。