一种语音信号处理方法及相关设备与流程
- 国知局
- 2024-06-21 11:49:20
本技术涉及终端,尤其涉及一种语音信号处理方法及相关设备。
背景技术:
1、语音作为人与人、人与机器之间沟通交流的原始且重要的载体,传达着各种各样的信息,广泛作用于日常生活和生产的各种场景。然而,周围环境中经常充斥着各种噪声,人或机器在接收语音信号的过程中,难免会受到环境噪声的干扰。
2、语音增强技术,通过运用预测估计的方法,尽可能地从被噪声干扰的语音信号中提取干净语音信号。因此,语音增强技术对于实际生活、生产有着重要的价值。
技术实现思路
1、本技术提供了一种语音信号处理方法及相关设备,可以使得增强后的语音信号的语音质量和可懂度均明显提升,从而提升用户体验。
2、第一方面,提供一种语音信号处理方法,应用于电子设备,方法包括:基于气导麦克风获取气导语音信号;基于骨导麦克风获取骨导语音信号;基于条件扩散模型,对所述气导语音信号和所述骨导语音信号进行语音增强处理,得到目标语音信号,其中,所述目标语音信号是以所述骨导语音信号作为所述条件扩散模型的条件,基于所述气导语音信号生成的干净的语音信号。
3、上述方案,由于骨导语音信号几乎不受噪声的影响,用骨导语音信号辅助对气导语音信号进行语音增强,能够提升语音增强的效果。一方面,预测干净的语音信号能够降低噪声的干扰,提升语音质量;另一方面,预测干净的语音信号也能使得语音的可懂度大幅提升。从而,(特别是在信噪比极低的环境下)极大地提升用户体验。
4、相比于只利用骨导语音信号进行语音增强,本技术增强后的语音信号具有高频成分,在听感上更加自然饱满。
5、相比于只利用气导语音信号进行语音增强,参考骨导语音信号中未受噪声干扰的中低频成分,有助于抑制气导语音信号中的中低频的噪声并提取干净的语音信号,提升语音增强的效果。并且,获取准确的中低频的时频点的分布,也有助于条件扩散模型基于气导语音信号中的高频成分,更加准确地预测干净语音信号中的高频成分。从而本技术提供的语音信号处理方法在信噪比极低(例如信噪比<-5db或信噪比<-10db)的情况下也能取得良好的语音增强效果。
6、其中,气导语音信号和骨导语音信号分别是由气导麦克风和骨导麦克风针对同一声源发出的同一段声音录制得到的。
7、或者,第一方面,提供一种语音信号处理方法,应用于电子设备,方法包括:在低信噪比环境(例如信噪比<-5db或信噪比<-10db)下,分别针对同一声音发出的同一段声音获取带噪的气导语音信号和骨导语音信号,骨导语音信号不携带噪声;基于条件扩散模型,对所述气导语音信号和所述骨导语音信号进行语音增强处理,得到目标语音信号,其中,所述目标语音信号是以所述骨导语音信号作为所述条件扩散模型的条件,基于所述气导语音信号生成的干净的语音信号;将所述目标语音信号传输给其他设备。
8、示例性的,电子设备包括气导麦克风和骨导麦克风,分别基于气导麦克风和骨导麦克风获取气导语音信号和骨导语音信号。或者,电子设备从包括气导麦克风和骨导麦克风的其他设备获取气导语音信号和骨导语音信号。
9、在一种可能的实施例中,基于条件扩散模型对气导语音信号和骨导语音信号进行语音增强处理,包括:根据骨导语音信号和气导语音信号,计算气导语音信号的梯度,梯度用于表征目标语音信号的概率分布,目标语音信号的概率分布与目标语音信号的语谱图中的时频点的分布对应;对气导语音信号的梯度进行采样处理,得到目标语音信号。
10、上述方案使用的扩散模型并不关注气导语音信号中的噪声,也不区分噪声与干净语音信号的差异,而是关注气导语音信号中干净语音信号的概率分布,从而,本技术提供的语音信号处理方法不受信噪比的高低的影响,也不受噪声类型的影响,稳定性和泛化性能更好。进而,即使在极低信噪比情况下,也能取得良好的语音增强的效果,特别是针对气导语音信号的高频成分准确地语音增强。
11、可理解,上述考虑目标语音信号的概率分布,也就是考虑目标语音信号的时频点的分布的整体性,整体性包括时频点与时频点之间的关系。
12、还可理解,上述考虑目标语音信号的概率分布,也就是考虑目标语音信号的时频点的分布的整体性,整体性包括时频点与时频点之间的关系。
13、还可理解,相关技术,不考虑概率分布,属于不考虑整体性而逐个时频点进行分析的方法,即使语音增强处理后的信号的时频点与理想的干净信号(理想情况下气导语音信号除去所有噪声后的信号)对应的时频点的总的误差(例如第一误差值)非常小,也很有可能出现以下情况:小部分时频点相对于理想的干净信号的对应时频点的误差很大(例如明显大于第一误差值),大部分时频点的误差很小(例如明显小于第一误差值)。从而误差很大的小部分时频点,从原理上使得降噪后的语音存在一定程度的损伤,频谱连续性不好,听感也会较差。
14、相比于不考虑时频点的分布整体性的方案,本技术在考虑时频点的分布整体性的基础上,如果将总的误差控制在同样小的数值(例如第一误差值),则会使得几乎所有时频点的误差较为均衡也都较小,从而能在原理上减少降噪处理对语音信号的损伤。相比于相关技术,频率连续性好,听感也更好。
15、本技术中的总的误差可以理解为,用于计算待采样梯度或待校正梯度的神经网络,在训练过程中使用的损失函数值。
16、在一种可能的实施例中,根据骨导语音信号和气导语音信号,计算气导语音信号的梯度,包括:将骨导语音信号和气导语音信号输入神经网络,得到气导语音信号的待采样梯度,待采样梯度用于表征目标语音信号的概率分布;对气导语音信号的梯度进行采样处理,包括:根据第一高斯噪声值和待采样梯度,预测采样信号,第一高斯噪声值是基于第一随机种子生成的,采样信号用于生成目标语音信号。
17、可理解,由于随机种子在不同的时间生成的随机数不同,因此本技术提供的语音信号处理方法在不同的时间针对同一段待处理的语音信号进行处理,分别生成的第一高斯噪声值不同,从而分别输出的目标语音信号不同或不完全相同。
18、在一种可能的实施例中,在预测采样信号之后,根据骨导语音信号和气导语音信号,计算气导语音信号的梯度,还包括:将采样信号、骨导语音信号以及气导语音信号输入神经网络,得到采样信号的待校正梯度,待校正梯度用于表征目标语音信号的概率分布;对气导语音信号的梯度进行采样处理,还包括:根据待校正梯度,对采样信号进行校正,得到校正信号,校正信号用于生成目标语音信号。
19、上述方案,通过对基于待采样梯度预测得到的采样信号继续计算待校正梯度,并基于待校正梯度对采样信号进行校正,相比于只计算一次梯度的扩散模型,或者,相比于只预测不校正的扩散模型,语音增强效果更好。
20、也就是说,根据梯度进行采样,包括预测和校正两个子步骤。示例性的,预测步骤采用祖先采样;校正步骤采用朗之万动力学采样或退火朗之万动力学采样,校正步骤用于校正预测步骤的预测结果。本技术中的预测和采样步骤均可以参照这里的示例,在此进行统一说明,下不赘述。
21、在一种可能的实施例中,根据第一高斯噪声值和待采样梯度,预测采样信号,包括:基于扩散模型的随机微分方程,根据气导语音信号计算漂移系数;根据漂移系数和待采样梯度,计算逆漂移系数;根据逆漂移系数、气导语音信号以及第一高斯噪声值,预测得到采样信号。
22、可理解,逆漂移系数可以用于描述采样过程中,带噪的语音信号趋向于干净语音信号的路径。即,减少不服从目标语音信号的概率分布的时频点的过程,以及借助于第一高斯噪声生成服从目标语音信号的概率分布的时频点的过程。也就是说,该过程一方面能够降噪,另一方面能够突出干净的语音信号。
23、在一种可能的实施例中,神经网络是基于输入数据和目标数据训练得到的,其中,输入数据包括样本带噪气导语音信号、样本骨导语音信号以及样本气导采样信号,样本带噪气导语音信号是由样本噪声气导信号和样本干净气导语音信号生成的,样本骨导语音信号与样本干净语音信号相匹配,样本气导采样信号是基于样本干净气导语音信号和样本带噪气导语音信号生成的,目标数据用于表征第二样本干净气导语音信号的概率分布。
24、上述方案,通过目标数据表征包含于样本带噪气导语音信号的样本干净气导语音信号的概率分布,来训练神经网络模型,以使得训练好的神经网络模型输出的梯度能够表征目标语音信号的概率分布。
25、另外,由于样本骨导语音信号中包括的中低频成分未受噪声干扰,将样本骨导语音信号作为输入数据,来训练神经网络得到干净的气导语音信号,能够加快模型的收敛速度,提高模型训练效率。
26、在一种可能的实施例中,样本气导采样信号是第二高斯噪声值,第二高斯噪声值是根据样本带噪气导语音信号、样本干净气导语音信号以及服从标准正态分布的第三高斯噪声值生成的,目标数据是基于第二高斯噪声值的标准差和第三高斯噪声值生成的,第三高斯噪声值是基于第二随机种子生成的。
27、可理解,由于随机种子在不同的时间生成的随机数不同,因此本技术提供的语音信号处理方法在不同的时间针对同一段待处理的语音信号进行处理,分别输出的目标语音信号不同或不完全相同。
28、在一种可能的实施例中,将骨导语音信号和气导语音信号输入神经网络,得到气导语音信号的待采样梯度,包括:将骨导语音信号和气导语音信号输入神经网络,得到气导语音信号的第1个待采样梯度;基于扩散模型的随机微分方程,根据气导语音信号计算漂移系数,包括:基于扩散模型的随机微分方程,根据气导语音信号计算第1个漂移系数;根据漂移系数和待采样梯度,计算逆漂移系数,包括:根据第1个漂移系数和第1个待采样梯度,计算第1个逆漂移系数;根据逆漂移系数、气导语音信号以及第一高斯噪声值,预测得到采样信号,包括:根据第1个逆漂移系数、气导语音信号以及第1个第一高斯噪声值,预测得到第1个采样信号;将采样信号、骨导语音信号以及气导语音信号输入神经网络,得到采样信号的待校正梯度,包括:将第1个采样信号、骨导语音信号以及气导语音信号输入神经网络,得到第1个采样信号的第1个待校正梯度;根据待校正梯度,对采样信号进行校正,得到校正信号,包括:根据第1个待校正梯度,对第1个采样信号进行校正,得到第1个校正信号。
29、或者,将骨导语音信号和气导语音信号输入神经网络,得到气导语音信号的待采样梯度,包括:将第n-1个校正信号、骨导语音信号和气导语音信号输入神经网络,得到气导语音信号的第n个待采样梯度;基于扩散模型的随机微分方程,根据气导语音信号计算漂移系数,包括:基于扩散模型的随机微分方程,根据第n-1个校正信号以及气导语音信号计算第n个漂移系数;根据漂移系数和待采样梯度,计算逆漂移系数,包括:根据第n个漂移系数和第n个待采样梯度,计算第n个逆漂移系数;根据逆漂移系数、气导语音信号以及第一高斯噪声值,预测得到采样信号,包括:根据第n个逆漂移系数、第n-1个校正信号以及第n个第一高斯噪声值,预测得到第n个采样信号;将采样信号、骨导语音信号以及气导语音信号输入神经网络,得到采样信号的待校正梯度,包括:将第n个采样信号、骨导语音信号以及气导语音信号输入神经网络,得到第n个采样信号的第n个待校正梯度;根据待校正梯度,对采样信号进行校正,得到校正信号,包括:根据第n个待校正梯度,对第n个采样信号进行校正,得到第n个校正信号,2≤n≤n,n和n均为正整数,其中,在n=n的情况下,将第n个校正信号作为目标语音信号。
30、上述方案,将计算梯度、预测和校正的步骤迭代n次,以达到更好的降噪效果。
31、第二方面,本技术提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器;其中,一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
32、第三方面,本技术实施例提供了一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
33、第四方面,本技术提供一种计算机可读存储介质,包括指令,当上述指令在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
34、第五方面,本技术提供一种包含指令的计算机程序产品,当上述计算机程序产品在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
35、可以理解地,上述第二方面提供的电子设备、第三方面提供的芯片系统、第四方面提供的计算机存储介质、第五方面提供的计算机程序产品均用于执行本技术所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23760.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表