技术新讯 > 乐器声学设备的制造及制作,分析技术 > 延迟减少的音频信号增强方法及系统与流程  >  正文

延迟减少的音频信号增强方法及系统与流程

  • 国知局
  • 2024-11-06 14:40:30

本公开总体上涉及音频信号处理,并且更具体地涉及用于音频信号的低延迟增强的方法和系统。

背景技术:

1、音频信号处理是一种具有各种应用的技术概念,其中每种应用都具有其独特的一组要求。在一个应用领域成功的音频信号处理技术可能无法在不同的应用领域成功运行。例如,在封闭环境中,使用音频信号处理来减轻音频信号的混响的影响可能是重要的,而在类似助听器的应用中,减少音频信号处理的延迟比混响缓解更重要。这是因为在封闭房间中,诸如语音信号之类的音频信号在空气中传播,并且在被麦克风捕获之前可能被房间中的墙壁、地板、天花板和任何其他对象反射。混响是语音信号从源或说话者到诸如麦克风之类的接收端的多路径传播。当声音从环境中的表面反射时,就会发生这种语音混响。一些声音可能被表面吸收,因此语音信号会发生多次衰减。表面对声音的反射和吸收可能生成语音信号的多个衰减副本和延迟副本。多个衰减副本和延迟副本降低了语音的质量,这可能妨碍自动语音识别(asr)系统或任何语音/音频处理系统的性能。例如,由于语音质量下降的音频输入,asr可能生成不准确的输出。

2、另一方面,在诸如电话会议和助听器之类的许多应用场景中,低延迟语音增强和说话者分离更重要。在基于现代学习的音频信号处理系统中,这是通过使用诸如单向长短期记忆(lstm)、因果卷积、因果注意力层和因果归一化层之类的因果神经网络块来管理的。尽管这些系统被认为是因果性和实时性的,其核心是因果性的深度神经网络(dnn),但更准确地说,这些系统是帧在线的,并且前瞻的量取决于音频信号处理中使用的帧长。一种可能实现样本级因果处理的主要方法是使用本质上是原始音频波形的深度生成模型的类似wave net的模型。

3、然而,这些已知系统在处理样本因果设置中的噪声和混响方面的有效性并不清楚。另外,在运行时,此类模型需要在每个样本处执行前馈,从而导致极大且可能不必要的计算量。

4、一些音频信号处理方法(如短时傅立叶变换(stft)和时域方法)通常在处理之前将音频信号分成重叠帧。在这些方法中,音频信号乘以具有与预定义长度或宽度的处理窗口相关联的窗口函数,以将其转换为多个重叠帧。由于在信号重合成中使用重叠相加,这些方法中的处理延迟等于窗口长度加上处理一帧的运行时间。然而,这些方法的缺点在于,对于像助听器和电话会议应用之类的实时应用,处理延迟很高。例如,对于具有32毫秒(ms)窗口和8ms跳变大小的典型的基于stft的系统,因为每8ms会有一个新帧进行处理,所以如果每个帧的处理可以在指定处理器上的8ms内完成,则基于帧在线dnn的系统满足延迟要求。在这个例子中,总延迟为40ms,这并不理想。事实上,对于类似助听器设计的应用,所需的算法延迟最大为5ms,这远低于该示例性延迟。这种低延迟约束需要新的设计和对现有音频处理算法的显著修改。

5、为了克服在助听器的情况下上述问题,一些已知的解决方案在一些基于stft的助听器研究中使用4ms窗口用于窗口函数和1ms跳变大小。然而,使用4ms窗口会导致比32ms窗口低得多的频率分辨率。在基于深度学习的t-f掩蔽中,众所周知,给定相同的跳变大小,较长的窗口(因此频率分辨率更高)通常比较短窗口导致更好的理想(oracle)分离。另外,对于多麦克风处理,使用短窗口可能不是特别擅长可靠地捕获通道间相位模式,因为窗口信号可能太短而不能表现出显著的信号延迟。但是在这些现有解决方案中已经观察到短的窗口长度和因而低的分辨率不会导致基于stft的准确音频信号处理。

6、然而,在诸如使用线性编码器来生成针对分离单个说话者而优化的语音波形表示的conv-tasnet之类的一些时域信号处理方法中,明显短的窗口和跳变大小可以用于极低延迟分离。此外,conv-tasnet能够利用基于dnn的端到端优化来分别为其编码器和解码器学习样本的小窗口的基础集以替换常规的stft和逆stft(istft)操作。然后在编码空间中执行分离,并且解码器用于基于重叠相加的信号重合成。尽管在单通道消声说话者分离任务中实现良好的分离性能,但是它们在混响条件和在多麦克风场景中的表现远不如频域方法令人印象深刻。另外,tasnet的学习基础不是窄带的。如何直接将tasnet与诸如波束成形和加权预测误差(wpe)之类的常规的stft域分离算法相结合并不简单,这些算法依赖于窄带假设并且可以通过其每频处理而产生可靠的分离和去混响。组合它们的一种方式是通过迭代tasnet(其使用明显较短的窗口)和stft域波束成形(其使用常规的较长窗口。为了使用tasnet输出来计算用于stft域波束成形的信号统计,在提取stft频谱进行波束成形之前,必须首先重合成时域信号。

7、类似地,为了将tasnet应用于波束成形结果进行后置滤波,必须在将时域信号馈送到tasnet之前应用istft来获得时域信号。然而,因为在tasnet和istft中重叠相加算法被多次使用,所以这种迭代过程将逐渐增加算法延迟。使用常规大窗口大小(如32ms)的其它时域方法与基于stft的系统存在相同的问题。

8、因此,需要克服上述问题。更具体地,需要开发一种用于音频信号的低延迟处理,同时克服环境中的混响条件和非平稳噪声的方法和系统。

技术实现思路

1、一些实施方式的目的是开发一种用于基于高效、准确和低延迟的音频信号处理等的方法和系统。

2、一些实施方式基于以下理解:用于音频信号处理的stft域方法(诸如说话者分离的任务)通常使用诸如32ms的大窗口长度和连续帧之间的75%重叠。然而,这会导致至少32ms的延迟,因为在逆stft(istft)中使用的重叠相加算法也基于32ms窗口大小来执行。然而,对于需要延迟低至5ms的类似于助听器设计的应用,需要降低这种固有延迟。为了减少这种固有延迟,本公开的一些实施方式提供了用于stft域低延迟音频信号处理的新颖双窗口大小方法,诸如用于助听器设计或说话者分离的任务。

3、一些实施方式基于以下认识:常规窗口大小用于stft提取,但小得多的窗口大小用于istft中的重叠相加。这种方法可以利用合理的高频分辨率来进行分离,同时保持低延迟。基于这种新颖的stft表示,音频信号的单麦克风或多麦克风复频谱映射被应用于帧在线分离,其中一个或更多个dnn被训练以从诸如信号的输入声学混合之类的接收到的音频信号的ri分量预测目标语音的实部和虚部(ri)分量。由于stft方法是自然窄带的,因此使用第一dnn预测的ri分量进行诸如波束成形和基于卷积预测的去混响之类的每频帧在线频域线性因果滤波。波束成形和去混响结果随后被用作第二dnn的额外特征以用于后置滤波。在这两种dnn之间包括频域线性因果滤波(在这种情况下是波束成形和去混响)显著地改进了性能,并且可以容易地与复杂的频谱映射集成,而在不引起处理延迟的情况下,这种包括对于时域方法而言是不可能的。用于语音分离的基准数据集sms-wsj的评估结果证明了所提出的方法的有效性。

4、本文公开的一些实施方式提供了将音频处理的算法延迟减少到低至4ms和2ms,同时仍然实现强性能。

5、一些实施方式基于理解音频信号可以与展现频谱-时间模式的清晰语音相对应。这种频谱-时间模式是在时频域中展现的独特模式,并且可以提供用于减少混响的信息提示。虽然一些模式源于语音信号本身的结构,但是一些模式还可以与其中进行记录的物理空间的特性的混响(即,声波的反射)的线性滤波器结构相对应,包括该空间中存在的所有对象、结构或实体,以及源语音信号和诸如录制信号的麦克风之类的接收器的位置。可以使用这种线性滤波器结构来描述在来自源信号的麦克风位置处产生的信号及其在空间中的对象或人的墙壁和表面上的反射,将混响对输入信号的影响表达为输入信号和房间脉冲响应(rir)的线性卷积。输入信号是也被称为干源信号的原始源信号。房间脉冲响应是空间和其内部的一切对输入信号的影响的表示。可以在诸如房间之类的物理空间中记录源位置与接收器位置之间的rir的估计,例如通过在源位置的房间中播放短持续时间时域信号(例如,空包弹或气球爆炸)的脉冲声音,并且在接收器位置处记录后续信号。脉冲激励房间并产生可用于估计rir的混响脉冲信号。

6、然后,可以通过对干源信号和估计的rir进行卷积对将在同一源位置处播放并在同一接收器位置处记录的干源声音信号的混响进行建模。

7、此外,这种线性滤波器可以用作正则化以改进去混响过程。例如,作为正则化的线性滤波器防止用于去混响过程的模型对训练数据的过拟合。一些实施方式基于以下认识:线性滤波器结构可以用于针对单通道和多通道混响说话者分离和去混响任务的线性预测和深度学习的组合。为此,用卷积预测支持的深度学习技术可以用于在有噪声信号、音频信号的混响等的环境中的去混响。卷积预测是一种用于混响条件下语音去混响的线性预测方法,其依赖于由dnn获得的源估计并且利用源估计与观察到的输入信号内的源信号的混响版本之间的线性滤波器结构。

8、为了获得源估计,在时频或时域中训练dnn以从混响语音中预测目标语音。目标语音与源和诸如麦克风之类的接收器之间的目标直接路径信号相对应。该方法可以利用语音模式的先验知识。

9、先前技术还试图利用某种形式的线性滤波器结构来执行去混响。例如,加权预测误差(wpe)可以用于语音信号的去混响。wpe方法基于方差归一化延迟线性预测来计算逆线性滤波器。将计算出的线性滤波器应用于混响和潜在有噪声的混合输入信号的过去观察,以根据过去的混响观察来估计混合输入信号内的目标源信号的后期混响,从而进行去混响。从不同源接收的声学信号的混合中减去估计的晚期混响,以估计声学信号混合中的目标语音信号。在一些实施方式中,还可以用目标语音信号的时变功率谱密度(psd)来估计滤波器。psd是信号的功率在信号频率范围上的分布。可以以无监督方式使用wpe来迭代地估计这种线性滤波器。然而,用于滤波器估计的wpe迭代过程可能导致次优结果并且计算成本高。

10、为了克服上述wpe的缺陷,可以像基于dnn的wpe(dnn-wpe)方法一样替代滤波器估计的迭代过程。dnn-wpe使用dnn估计的振幅作为用于滤波器估计的目标语音信号的psd。然而,dnn-wpe可能无法减少早期反射,因为它需要严格的非零帧延迟来避免微不足道的解决方案,并且可能不具有利用dnn估计相位来进行滤波器估计的机制。dnn-wpe还可能缺乏对噪声信号干扰的鲁棒性。例如,dnn-wpe可以估计将过去的噪声观察与当前的噪声观察相关联的滤波器,由此限制滤波器估计精度。另外,dnn-wpe可以直接使用线性预测结果作为其输出,导致部分或最小程度地减少混响。

11、为此,一些实施例的另一目的是估计用于近似或建模rir的底层滤波器。在一些示例实施方式中,可以基于在时频域中按频率求解的线性回归问题来估计rir。对rir进行建模的滤波器估计可以用于识别输入信号的延迟和衰减副本以进行语音信号的去混响。

12、在一些情况下,可从诸如单个麦克风之类的单个通道或从诸如麦克风阵列之类的多个通道接收声学信号的混合。每个不同的通道测量声学信号的混合的不同版本。在这种情况下,可以训练一个以上的dnn以估计参考通道或每个通道处的接收信号的目标直接路径信号。每个dnn的训练可以基于一个或更多个通道处的复频谱映射,其中,dnn被训练为在一个或更多个通道处输出目标直接路径信号的时频域中的估计,使得该估计与一个或更多个通道处的目标直接路径信号的时频域中的参考之间的距离被最小化。

13、在麦克风阵列的情况下,可以获得波束成形输出。可以基于从麦克风阵列的每个麦克风处的目标直接路径信号的第一估计和具有目标直接路径信号的混响减少的混合中的一个或组合计算的统计数据来获得波束成形输出。可以将波束成形输出输入到第二dnn以产生针对多个说话者中每一个的目标直接路径信号的第二估计。附加地或可替代地,波束成形输出和去混响结果可以用作第二dnn的附加特征以执行更好的分离和去混响任务,这些任务可以被认为是与音频信号增强处理或语音增强处理相关的任务。

14、为此,一些实施方式提供了一种使用不同的窗口大小进行输入(stft)分析和输出(istft)合成的用于音频信号增强处理的系统和方法。例如,一些实施方式提供用于stft的32ms窗口和1ms跳变大小,而4ms窗口和1ms跳变大小用于istft中的重叠相加。用于stft的32ms窗口向前查看4ms并且向后查看28ms。

15、为此,使用两个dnn(在其间具有线性滤波模块)以及在输入(分析)和输出(或合成)侧具有不同窗口大小的非对称窗口方法在帧在线配置中处理音频信号。在一个示例中,通过执行离散傅里叶逆变换(idft)来合成音频信号,并且此后丢弃音频信号的前28ms波形,然后应用合成窗口以基于每帧的最后4ms波形来执行重叠相加。对stft和重叠相加使用不同窗口大小的这种双窗口大小方法具有若干优点。首先,对stft使用较长窗口导致更高的频率分辨率,因此每帧提供更多估计滤波器(或掩码值)以获得更细粒度音频信号分离。此外,更高的频率分辨率可以更好地利用t-f域中的语音稀疏性特性进行分离。第二,对stft使用较长窗口可以在每个帧捕获更多的混响,潜在地导致更好的去混响。第三,对stft使用较大窗口可能导致更好的空间处理,因为通道间相位模式对于较长信号可能更稳定和更显著。第四,stft基底本质上是窄带的,因此使得能够使用dnn输出(即,所估计的目标ri分量)来计算用于常规频域波束成形和去混响的信号统计,其结果可以用作另一个dnn的额外特征以更好地预测目标语音。

16、因此,一些实施方式提供了一种由计算机执行的用于处理音频信号的输入混合的信号增强方法。该信号增强方法包括经由输入接口接收可以是单通道音频信号或多通道音频信号的音频信号的输入混合。然后,使用具有第一窗口函数的第一滑动窗口方法将音频信号的输入混合分割成输入重叠帧序列,该第一窗口函数具有与对应帧的窗口相关联的第一宽度和与第一滑动窗口方法的窗口的移位相关联的移位长度。在一些实施方式中,第一宽度与窗口长度相对应并且移位长度与滑动窗口方法的跳变大小相对应。移位长度等于或小于与窗口相关联的第一宽度的百分之二十。然后,使用第一深度神经网络(dnn)对经分割的重叠帧中的每个帧进行处理以生成包括重叠帧中的每个处理帧的对应增强帧的增强重叠帧。此外,为增强重叠帧的每个帧生成频域滤波输出。然后,使用第二dnn来处理频域滤波输出以针对增强重叠帧中的每个帧生成对应的最终增强帧。然后,使用与具有比第一宽度小的第二宽度的第二窗口函数相关联的第二滑动方法来组合最终增强重叠帧。为此,较高的第一宽度在音频信号处理的输入侧提供高频分辨率,而较小或较短的第二宽度在输出侧提供低延迟。

17、为此,一些实施方式设定第二宽度是第一宽度的倍数。另外,第二滑动窗口方法还与可以与第一滑动窗口方法的移位长度相同的滑动窗口跳变大小或移位长度相关联。

18、在一些实施方式中,第二宽度至少等于移位长度的两倍。

19、在一些实施方式中,第一窗口函数和第二窗口函数各自为非对称窗口函数。

20、一些实施方式设定第一宽度至少等于32毫秒(ms),第二宽度至少等于4ms,并且移位宽度至少等于2ms。

21、在一些实施方式中,针对增强重叠帧的每个帧的频域滤波输出是由因果线性滤波器生成的因果线性滤波输出。在一些实施方式中,因果线性滤波器是多通道weiner滤波器(mcwf)。

22、在一些实施方式中,为增强重叠帧的每个帧生成频域滤波输出包括生成波束成形输出作为增强重叠帧的每个帧的频域滤波输出。此外,将波束成形输出提交给第二dnn以针对增强重叠帧中的每个帧生成对应的最终增强帧。

23、为此,一些实施方式使用第一dnn为每个帧提供产生中间表示的第一估计。此外,完成对每个帧的中间表示的第一估计的房间脉冲响应(rir)进行建模的滤波器的估计。该滤波器用于通过从接收到的音频信号的混合中去除将滤波器应用于每个帧的中间表示的结果来获得每个帧的中间表示的具有减少的混响的混合。然后,将具有减少的混响的混合提交给第二dnn以产生每个帧的中间表示的第二估计。然后,经由输出接口输出每个帧的中间表示的第二估计。

24、在一些实施方式中,滤波器包括基于卷积预测技术的线性滤波器。

25、在一些实施方式中,接收到的多通道音频信号包括来自多个说话者的语音信号,并且第一dnn产生多个输出,多个输出中的每个输出包括来自多个说话者的说话者的每个帧的中间表示的第一估计。为此,从连接到输入接口的麦克风阵列接收与音频信号的输入混合相对应的多通道信号。

26、在一些实施方式中,从麦克风阵列接收多通道音频信号还包括:基于从麦克风阵列的每个麦克风处的每个帧的中间表示的第一估计和具有每个帧的中间表示的减少的混响的混合中的一个或组合计算的统计数据来获得波束成形输出;以及将波束成形输出提交给第二dnn以产生每个帧的中间表示的第二估计。

27、在一些实施方式中,对第一dnn进行预训练(离线)以从观察到的声学信号的混合中获得每个帧的中间表示的第一估计。使用声学信号的混合的训练数据集和该训练数据集中的对应的参考目标直接路径信号来通过使损失函数最小化来执行第一dnn的预训练。该损失函数包括以下之一或组合:基于第一时频域中的每个帧的中间表示的第一估计的实部和虚部(ri)分量以及在所述第一时频域中所述对应参考目标直接路径信号的ri分量定义的距离函数;基于从所述第一时频域中的每个帧的中间表示的第一估计的ri分量获得的振幅以及在所述第一时频域中所述参考目标直接路径信号的对应振幅定义的距离函数;基于通过在时域中重构从在所述第一时频域中每个帧的中间表示的第一估计的ri分量获得的重构波形以及所述参考目标直接路径信号的波形定义的距离函数;基于通过在第二时频域中进一步变换所述重构波形而获得的在所述第二时频域中所述第一估计的ri分量以及在所述第二时频域中所述参考目标直接路径信号的ri分量定义的距离函数;以及基于通过在所述第二时频域中进一步变换所述重构波形而获得在所述第二时频域中每个帧的中间表示的第一估计的ri分量获得的振幅以及在所述第二时频域中所述参考目标直接路径信号的对应振幅定义的距离函数。

28、各种实施方式提供了一种用于处理音频信号的输入混合的信号增强系统,该信号增强系统包括被配置为接收音频信号的输入混合的输入接口,其中音频信号的输入混合是多通道音频信号或单通道音频信号中的至少一个。该信号增强系统还包括存储计算机可执行指令的存储器,以及被配置为执行计算机可执行指令的处理器。计算机可执行指令被配置为:使用第一滑动窗口方法将接收到的音频信号的输入混合分割成输入重叠帧序列,第一滑动窗口方法包括第一窗口函数,该第一窗口函数具有与对应帧的窗口相关联的第一宽度和与第一滑动窗口协议的窗口的移位相关联的移位长度,使得移位长度等于或小于与窗口相关联的第一宽度的百分之二十。计算机可执行指令还被配置为使用第一深度神经网络(dnn)处理重叠帧的分割序列以生成增强重叠帧,增强重叠帧包括输入重叠帧中的每个处理帧的对应增强帧。计算机可执行指令还被配置为:为增强重叠帧的每个帧生成频域滤波输出;使用第二dnn为增强重叠帧的每个帧处理频域滤波输出,以生成针对增强重叠帧的每个帧的对应最终增强帧;以及使用与第二窗口函数相关联的第二滑动窗口方法来组合最终增强重叠帧,所述第二窗口函数具有比第一宽度小的第二宽度和与第一滑动窗口方法相同的移位长度。

29、当结合附图时,从以下详细描述中,进一步的特征和优点将变得更加明显。

30、在下面的详细描述中,通过本公开的示例实施方式的非限制性示例,参照所提及的多个附图,进一步描述了本公开,其中贯穿附图的多个视图,相似的附图标记表示相似的部件。所示的附图不一定按比例绘制,重点通常放在例示本公开的实施方式的原理上。

本文地址:https://www.jishuxx.com/zhuanli/20241106/323490.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。