用于语音信号去混响的方法和系统与流程
- 国知局
- 2024-06-21 11:37:48
本公开总体上涉及音频信号处理,并且更特别地,涉及用于语音信号去混响(dereverberation)的方法和系统。
背景技术:
1、通常,在封闭的房间中,音频信号(例如,语音)的混响发生在诸如电话会议以及与智能装置(诸如智能音箱中的麦克风)的交互之类的现代免提语音通信中。在这种封闭的房间中,语音信号在空气中传播并且可以在被麦克风捕获之前被房间中的墙壁、地板、天花板、以及任何其它物体反射。混响是语音信号从源或说话者(speaker)到诸如麦克风之类的接收端的多路径传播。这种语音混响发生在声音从环境中的表面反射的时候。所述声音中的一些可能被表面吸收,由于该吸收,因此发生语音信号的多次衰减。表面对声音的反射和吸收可以生成语音信号的多个经衰减副本和经延迟副本。多个经衰减副本和经延迟副本使语音的质量降级,这可能妨碍自动语音识别(asr)系统或任何语音/音频处理系统的性能。例如,asr可能因语音质量降级的音频输入而生成不准确的输出。
2、可以通过从声音中去除混响效果来减轻语音混响。这种混响效果的去除被称为去混响。去混响可以包括从经衰减副本和经延迟副本中标识和区分直接路径信号。直接路径信号对应于当源和麦克风处于视线中时声音行进的信号。然而,从副本中标识和区分直接路径信号可能是困难的,尤其是当混响很高且存在非平稳(non-stationary)源的噪声时。例如,诸如具有非平稳源(诸如空调系统)的封闭房间的环境可能具有高的房间混响。减少因来自空调系统的噪声或任何多源环境噪声而造成的混响可能是具有挑战性的。多源环境噪声还可以对应于环境中多个人说话时的场景。
技术实现思路
1、技术问题
2、因此,需要克服上面所提及的问题。更具体地,需要开发一种用于在克服有混响环境中的混响状况和非平稳噪声的同时进行语音信号去混响的方法和系统。
3、技术方案
4、一些实施方式的目的是,开发一种用于语音信号去混响的方法和系统。一些实施方式的另一目的是,使用深度学习技术来执行语音信号去混响。可以将语音信号去混响扩展用于诸如混响减少、语音增强、说话者分离等任务。
5、一些实施方式基于这样的理解,即,干净的语音呈现频谱-时间模式。这种频谱-时间模式是在时频(time-frequency)域中呈现的独特模式,并且可以提供用于减少混响的信息提示。虽然所述模式中一些模式源自语音信号本身的结构,但是一些模式也可以对应于混响(即,声波的反射)的线性滤波器结构,该线性滤波器结构的特征是其中进行记录的物理空间,包括该空间中存在的所有物体、结构、或实体,以及源语音信号和诸如记录该信号的麦克风的接收器的位置。在麦克风位置处由源信号及其在空间中的墙壁以及物体或人的表面上的反射所产生的信号可以使用该线性滤波器结构来描述,从而将混响对输入信号的影响表达为输入信号和房间脉冲响应(room impulse response,rir)的线性卷积。输入信号是也被称为干源信号的原始源信号。房间脉冲响应是空间及其内部一切事物对输入信号的影响的表示。可以在诸如房间的物理空间中记录对源位置与接收器位置之间的rir的估计,例如,通过在房间中的源位置处播放作为短持续时间时域信号(例如,空手枪或气球爆炸)的冲击声并且在接收器位置处记录后续信号。该脉冲激励房间并产生可以被用于估计rir的经混响的脉冲信号。然后可以通过卷积干源信号和所估计的rir,来模拟将在同一源位置播放并且在同一接收器位置记录的干源声信号的混响。为此,一些实施方式的目的还在于估计用于近似或建模rir的底层滤波器。在一些示例实施方式中,可以基于在时频域中每频率求解的线性回归问题来估计rir。可以将对rir进行建模的滤波器估计用于标识输入信号的经延迟副本和经衰减副本以用于语音信号去混响。
6、此外,可以将这种线性滤波器用作用于改善去混响过程的正则化。例如,作为正则化的线性滤波器防止将用于去混响过程的模型过度拟合至训练数据。一些实施方式基于这样的实现,即,可以将线性滤波器结构用于针对单通道以及多通道混响说话者分离和去混响任务的线性预测和深度学习的组合。为此,可以将以卷积预测来支持的深度学习技术用于具有噪声信号、音频信号混响等的环境中的去混响。卷积预测是一种用于混响状况下的语音去混响的线性预测方法,其依赖于通过深度神经网络(deep neural network,dnn)获得的源估计,并且利用源估计与所观测到的输入信号内的源信号的混响版本之间的线性滤波器结构。
7、为了获得源估计,在时频域或时间域中训练dnn,以根据混响语音来预测目标语音。目标语音对应于源与接收器(诸如麦克风)之间的目标直接路径信号。该方法可以利用语音模式的先验知识。
8、之前的工作还试图利用某种形式的线性滤波器结构来执行去混响。例如,可以将经加权的预测误差(weighted prediction error,wpe)用于语音信号去混响。wpe方法基于方差归一化延迟线性预测来计算逆线性滤波器。将所计算的线性滤波器应用于混响和潜在有噪声的混合输入信号的过去观测,以根据用于去混响的过去混响观测,来估计混合输入信号内的目标源信号的后期混响。从不同源所接收的声学信号混合体(mixture)中减去所估计的后期混响,以估计声学信号混合体中的目标语音信号。在一些实施方式中,还可以利用目标语音信号的时变功率谱密度(psd)来估计滤波器。psd是信号的功率在信号的频率范围上的分布。这种线性滤波器可以以无监督的方式使用wpe来迭代地估计。然而,用于滤波器估计的wpe的迭代过程可能导致次优结果并且在计算上是昂贵的。
9、为了克服wpe的前述缺陷,可以如在基于dnn的wpe(dnn-wpe)方法中那样替换用于滤波器估计的迭代过程。dnn-wpe使用经dnn估计的幅度来作为用于滤波器估计的目标语音信号的psd。然而,dnn-wpe可能不会减少早期反射,这是因为它需要严格的非零帧延迟来避免平凡解(trivial solution),并且可能不具有将经dnn估计的相位用于滤波器估计的机制。dnn-wpe也可能因噪声信号而缺乏对干扰的鲁棒性。例如,dnn-wpe可以估计将过去的有噪声观测与当前的有噪声的观测相关的滤波器,由此限制了滤波器估计准确度。另外,dnn-wpe可以直接使用线性预测结果来作为其输出,从而导致混响的部分或最小减少。
10、为此,一些实施方式的另一目的是,去除用于去混响的早期反射和后期混响。可以使用卷积预测方法来去除早期反射和后期混响。卷积预测方法利用由dnn估计的幅度和相位来进行滤波器估计。卷积预测方法还为线性滤波器提供了闭合形式解(正如先前所提及的dnn-wpe方法),该卷积预测方法可以适用于在线实时处理应用并且能够与诸如声学模型的其它dnn模块联合训练。
11、在一些实施方式中,基于卷积预测方法来为语音信号去混响训练两个dnn。最初,这两个dnn中的第一dnn根据输入(即,包括说话者的话语的声学信号混合体)来输出目标源(诸如在下文中被称为说话者的人员)的直接路径信号的第一估计。目标源的直接路径信号在下文中称为目标直接路径信号。使用目标直接路径信号的第一估计以利用卷积预测方法来确定滤波器,其中,该滤波器使得将滤波器应用于目标直接路径估计在某个经加权的距离函数下,尽可能接近于通过从混合体中减去目标直接路径估计而获得的残差。此外,滤波器是以时频域来应用于目标直接路径信号的第一估计的。当将滤波器应用于目标直接路径信号的第一估计时,获得从声学信号混合体中标识所估计的目标直接路径信号的经延迟副本和经衰减副本的结果。经延迟副本和经衰减副本在这里是由于混响而在多个路径中反射的目标直接路径信号的导数信号。例如,由诸如房间的环境中的不同物体沿不同的方向反射目标直接路径信号。从用于去混响的声学信号混合体中去除这种标识的经延迟副本和经衰减副本。经延迟副本和经衰减副本的去除生成具有减少的混响的混合体。
12、在将滤波器应用于目标直接路径信号的第一估计时所获得的结果就上述构造而言,根据距离函数最接近于声学信号混合体与目标直接路径信号的第一估计之间的残差。距离函数是经滤波的目标直接路径信号与通过从混合体中减去目标直接路径估计而获得的残差之间的经加权的距离,该经加权的距离在时频域中的各个时频点具有权重,该权重是根据声学信号混合体和目标直接路径信号的第一估计中的一个或组合来确定的。在一些实施方式中,距离函数是基于最小二乘距离的。此外,从声学信号混合体中去除将滤波器应用于目标直接路径信号的第一估计的结果,以获得目标直接路径信号的具有减少的混响的混合体。在一些实施方式中,将这种具有减少的混响的混合体输入至所述两个dnn中的第二dnn。第二dnn输出目标直接路径信号的第二估计,该第二估计与目标直接路径信号的第一估计相比,可以是目标直接路径信号的改善的估计。第二dnn也可以执行与第一dnn的步骤类似的步骤。然而,在一些实施方式中,第二dnn可以将不同的信号集作为输入,诸如声学信号混合体、具有减少的混响的混合体、以及目标直接路径信号的第一估计中的一个或组合。
13、在一些实施方式中,可以利用说话者分离的目标来训练第一dnn。为此,第一dnn生成与针对所述多个说话者中的说话者的目标直接路径信号的第一估计相对应的多个输出。此外,针对所述多个说话者中的各个说话者,重复估计滤波器以及获得具有减少的混响的混合体,以生成针对所述多个说话者中的各个说话者的对应滤波器以及具有减少的混响的对应混合体。然后,将所述多个说话者中的各个说话者的具有减少的混响的对应混合体进行组合,并且将所述多个说话者中的各个说话者的具有减少的混响的组合混合体提交给第二dnn。然后,第二dnn生成针对所述多个说话者中的各个说话者的目标直接路径信号的第二估计。
14、另外或者另选地,可以将具有减少的混响的混合体(即,经延迟副本和经衰减副本)用作第二dnn的附加特征,以确定目标直接路径信号的第二估计,这改善了去混响。另外或者另选地,也可以将与经延迟副本和经衰减副本相对应的特征用于说话者分离任务。在一些示例实施方式中,可以基于线性回归问题来标识经延迟副本和经衰减副本。在一些实施方式中,可以将声学信号混合体和目标直接路径信号的第一估计中的一个或组合作为输入提供给第二dnn,以生成目标直接路径信号的第二估计。在一些实施方式中,将声学信号混合体、第一估计以及具有减少的混响的混合体作为输入提供给第二dnn,以确定目标直接路径信号的第二估计。
15、一些实施方式还基于这样的理解,即,单独说话者或多个说话者中的各个说话者与不同的rir卷积。wpe方法估计单个滤波器以减少所有源的混响。然而,当噪声或者争相(competing)说话者比目标源声大时,计算单个滤波器来使混合体去混响可能是不可行的。以这种方式计算的滤波器偏向于抑制较高能量源的混响。为此,可能需要估计各个源的去混响滤波器,因为各个源与不同的rir卷积。dnn-wpe的方法可以计算各个源的不同滤波器,但是它只能通过使用各个源的所估计的psd作为距离函数(该距离函数是dnn-wpe用来估计线性预测滤波器的)中的权重来这样做,而这可能限制不同滤波器的准确度和多样性。
16、一些实施方式基于这样的实现,即,在房间中存在多个说话者的情况下,估计各个单独说话者的对应滤波器以用于去混响。在所述多个说话者的情况下,声学信号混合体包括来自所述多个说话者的语音信号。在这样的情况下,第一dnn生成针对所述多个说话者中的各个说话者的目标直接路径信号的对应第一估计。为了生成针对所述多个说话者中的各个说话者的具有减少的混响的混合体,可以将用于确定针对各个说话者的第一估计的步骤、确定各个说话者的滤波器的步骤以及提交针对各个说话者的第一估计和具有减少的混响的混合体中的一个或组合的步骤进行组合并且提交给第二dnn,以用于生成针对所述多个说话者中的各个说话者的目标直接路径信号的第二估计。
17、在一些情况下,可以从单个通道(诸如单个麦克风)或从多个通道(诸如麦克风阵列)接收声学信号混合体。各个不同的通道测量声学信号混合体的不同版本。可以训练dnn以估计参考通道或各个通道处的目标直接路径信号。训练可以基于一个或更多个通道处的复频谱映射,其中,对dnn进行训练,以输出一个或更多个通道处的目标直接路径信号的在时频域中的估计,使得所述一个或更多个通道处的目标直接路径信号的时频域中的参考和估计之间的距离被最小化。在麦克风阵列的情况下,可以获得波束成形输出。波束成形输出可以基于这样的统计来获得,即,该统计是根据麦克风阵列中的各个麦克风处的目标直接路径信号的第一估计以及目标直接路径信号的具有减少的混响的混合体中的一个或组合来计算的。可以将波束成形输出输入至第二dnn,以生成针对所述多个说话者中的各个说话者的目标直接路径信号的第二估计。另外或者另选地,可以将波束成形输出和去混响结果用作第二dnn的附加特征,以执行更好的分离和去混响任务。
18、在一些实施方式中,可以对第一dnn进行预训练,以根据所观测到的声学信号混合体来获得目标直接路径信号的第一估计。可以使用声学信号混合体的训练数据集以及该训练数据集中的对应参考目标直接路径信号,来执行对第一dnn的预训练。特别地,对第一dnn的预训练可以通过最小化损失函数来执行。损失函数可以包括基于在复(complex)时频域中目标直接路径信号的第一估计的实部和虚部(real and imaginary,ri)分量、以及对应参考目标直接路径信号的ri分量定义的距离函数中的一个或组合。距离函数还可以基于根据在复时频域中目标直接路径信号的第一估计的ri分量获得的幅度以及参考目标直接路径信号的对应幅度定义。
19、另外或者另选地,距离函数可以基于根据目标直接路径信号的第一估计的ri分量通过在时频域中重构而获得的经重构的波形、以及参考目标直接路径信号的对应波形定义。
20、在一些另选实施方式中,距离函数可以基于在第二复时频域中第一估计的ri分量以及在第二时频域中参考目标直接路径信号的对应ri分量来定义,在第二复时频域中第一估计的ri分量是通过在该第二时频域中进一步变换经重构的波形而获得的。
21、在一些另选实施方式中,距离函数可以基于根据在第二复时频域中第一估计的ri分量而获得的幅度以及在第二时频域中参考目标直接路径信号的对应幅度来定义,在第二复时频域中第一估计的ri分量是通过在第二时频域中进一步变换经重构的波形而获得的。
22、在一些示例实施方式中,可以将目标直接路径信号的第一估计替换成目标直接路径信号的第二估计,以获得目标直接路径信号的经更新的第一估计。可以针对目标直接路径信号的经更新的第一估计,来迭代获得第一估计的步骤、获得滤波器的步骤以及提交第一估计和具有减少的混响的混合体的步骤,以获得目标直接路径信号的经更新的第二估计。
23、在一些示例中,在多说话者场景中,针对所述多个说话者中的各个说话者重复上面所提及的步骤,以生成针对所述多个说话者中的各个说话者的对应滤波器。此外,可以通过从声学信号混合体中去除所述多个说话者中的其他说话者的混响语音,来提取所接收到的声学信号混合体中的与所述多个说话者中的说话者相对应的一部分。所述多个说话者中的另一说话者的混响语音的估计是通过将针对所述另一说话者的目标直接路径信号的第一估计添加至如下结果来获得的,即,将针对所述另一说话者的对应滤波器应用于针对所述另一说话者的目标直接路径信号的第一估计的结果。在提取之后,可以基于所接收到的混合体的所述部分,来针对所述多个说话者中的各个说话者,估计用于估计具有减少的混响的混合体的滤波器。
24、一些实施方式提供关于语音去混响和说话者分离的评估结果,该评估结果显示基于卷积预测方法的语音信号去混响的有效性。
25、因此,本公开的一个实施方式公开了一种由计算机执行的用于语音信号去混响的方法。所述方法包括以下步骤:经由输入接口接收包括目标直接路径信号和该目标直接路径信号的多个混响的声学信号混合体。所述方法包括以下步骤:将所接收到的声学信号混合体提交给第一dnn,以生成目标直接路径信号的第一估计。所述方法包括以下步骤:估计对目标直接路径信号的第一估计的房间脉冲响应(rir)进行建模的滤波器,其中,该滤波器在被应用于目标直接路径信号的第一估计时,生成根据距离函数最接近于声学信号混合体与目标直接路径信号的第一估计之间的残差的结果。所述方法包括以下步骤:通过从声学信号混合体中去除将滤波器应用于目标直接路径信号的第一估计的结果,来获得目标直接路径信号的具有减少的混响的混合体。所述方法包括以下步骤:将具有减少的混响的混合体提交给第二dnn,以生成目标直接路径信号的第二估计。所述方法还包括以下步骤:经由输出接口输出目标直接路径信号的第二估计。
26、因此,本公开的另一实施方式公开了一种用于语音信号去混响的系统。该系统包括输入接口,该输入接口被配置成接收包括目标直接路径信号和该目标直接路径信号的混响的声学信号混合体。该系统包括存储第一深度神经网络(dnn)和第二dnn的存储器。该系统包括处理器,该处理器被配置成将所接收到的混合体提交给第一dnn,以生成目标直接路径信号的第一估计;估计对目标直接路径信号的第一估计的房间脉冲响应(rir)进行建模的滤波器,其中,滤波器在被应用于目标直接路径信号的第一估计时,生成根据距离函数最接近于声学信号混合体与目标直接路径信号的第一估计之间的残差的结果;通过从所接收到的混合体中去除将滤波器应用于目标直接路径信号的第一估计的结果,来获得目标直接路径信号的具有减少的混响的混合体;以及将具有减少的混响的混合体提交给第二dnn,以生成目标直接路径信号的第二估计。该系统还包括输出接口,该输出接口被配置成输出目标直接路径信号的第二估计。
27、根据下面结合附图进行的详细描述,进一步的特征和优点将变得更为显而易见。
28、通过本公开的示例性实施方式的非限制性示例,参照所提到的多个附图,在以下详细描述中进一步描述本公开,其中,贯穿附图的多个视图,相同的标号表示相似的部件。所示附图不一定按比例绘制,而通常是将重点放在例示当前公开的实施方式的原理上。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22537.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表