技术新讯 > 乐器声学设备的制造及制作,分析技术 > 利用生成神经网络的通用语音增强的制作方法  >  正文

利用生成神经网络的通用语音增强的制作方法

  • 国知局
  • 2024-06-21 11:52:49

本公开涉及基于神经网络的音频信号语音增强技术,以及基于神经网络的语音增强系统的训练。特别是,本公开涉及如下这样的技术:除了能对音频信号去噪之外,还能从包含语音的含噪声频信号中去除各种伪影(artifact),这些技术可能涉及生成模型或生成网络(或总体而言,生成技术)。

背景技术:

1、语音录音或语音流,特别是由非专业人员或使用低端设备制作的录音或语音流,都含有背景噪声,背景噪声会严重影响录音质量,最终妨碍人们理解语音内容。因此,人们有动机开发了语音去噪或增强算法,尝试在不危及语音自然度的前提下过滤掉噪声分量。在这种情况下(尤其当讲话者在房间内时)可能会出现的另一种伪影就是混响。因此,语音增强算法能够从简单的去噪转向解决背景噪声和混响两者将是有利的。此外,除了噪声和混响之外,语音录音或语音流还可能包含其他伪影,例如,可能包括削波、无声间隙、均衡、错误电平、和编解码器伪影。

2、因此,需要一种改进的(例如,通用的)能在单个步骤中消除任何或所有这些伪影的语音增强技术。

技术实现思路

1、鉴于此,本公开提供了用于语音增强的基于神经网络的系统、使用基于神经网络的系统处理音频信号以便语音增强的方法、训练基于神经网络的系统的方法、计算机程序、以及计算机可读存储介质,它们都具有各独立权利要求的特征。

2、本公开的一个方面涉及一种用于音频信号语音增强的基于神经网络的系统。例如,基于神经网络的系统可以由计算机实现。该系统可包括用于生成增强音频信号的生成网络和用于生成用于生成网络的调节信息的调节网络。调节网络可包括多个层(例如卷积层)。此外,调节网络可被配置为接收音频信号作为输入。调节网络可进一步被配置为通过所述多个层传播音频信号。调节网络可进一步被配置为提供音频信号的一个或多个第一内部表示(或该一个或多个第一内部表示的处理后版本)作为调节信息。音频信号的一个或多个第一内部表示可在调节网络的各层被提取。生成网络可被配置为接收噪声矢量和调节信息作为输入。生成网络可进一步被配置为基于噪声矢量和调节信息生成增强音频信号。

3、通过被如上所述的配置,包括处理随机矢量的生成网络以及处理音频信号并为生成网络生成调节信息的调节网络,本公开提出的系统通过不仅对语音信号进行去噪处理,而且消除语音信号中可能存在的各种伪影,包括削波、间隙、均衡、错误电平和编解码器伪影,能够增强语音。

4、在一些实施例中,调节信息的第一内部表示可与不同时间分辨率下音频信号的表示的层次结构有关。这样允许将不同粒度下音频信号的特性的相关信息传递给生成网络,以确保增强音频信号的自然效果。

5、在一些实施例中,调节信息的每个第一内部表示(或其处理后版本)都可与生成网络中的相应第二内部表示相组合。在这里和下文中,组合内部表示(例如,为了调节)可以包括加法、乘法和拼接等中的一种或多种。在一些实施例中,内部表示的组合可以使用加法和乘法。

6、在一些实施例中,调节网络可进一步配置为接收第一边信息(side information)作为输入。然后,调节网络对音频信号的处理可依赖于第一边信息。

7、第一边信息可为调节网络提供关于要被增强的音频信号的附加信息,从而使系统对不同类型的音频信号具有更强的适应性。

8、在一些实施例中,第一边信息可包括以下中的一者或多者的数字或文本描述:音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。例如,音频信号的特性可包括讲话者身份、语言信息、房间特性和麦克风特性中的一个或多个。

9、在一些实施例中,生成网络可进一步配置为接收第二边信息作为输入。然后,生成网络对噪声矢量的处理可依赖于第二边信息。

10、第二边信息可为生成网络提供关于要增强的音频信号的附加信息,从而使系统对不同类型的音频信号具有更强的适应性。

11、在一些实施例中,第二边信息可包括以下中的一者或多者的数字或文本描述:音频信号中存在的伪影的类型、音频信号中存在的噪声的电平、要对音频信号执行的增强操作、以及关于音频信号的特性的信息。例如,音频信号的特性可包括讲话者身份、语言信息、房间特性和麦克风特性中的一个或多个。

12、在一些实施例中,调节网络的多个层可包括一个或多个中间层。此外,音频信号的一个或多个第一内部表示可以从该一个或多个中间层中提取。

13、在一些实施例中,调节网络可以基于编码器-解码器结构。可选地,编码器-解码器结构可使用resnets。附加地或可替代地,编码器-解码器结构的编码器部分可包括一个或多个跳跃连接。

14、在一些实施例中,生成网络可以基于编码器-解码器结构。可选地,编码器-解码器结构可使用resnets。附加地或可替代地,编码器-解码器结构的编码器部分可包括一个或多个跳跃连接。例如,生成网络可以基于unet结构。可选地,unet结构可包括内层中的跳跃连接、内层中的残差连接(residual connection)、和递归神经网络中的一者或多者。

15、在一些实施例中,生成网络可以基于以下中的一者:基于扩散的模型、变分自编码器、自回归模型、以及生成对抗网络方案。

16、在一些实施例中,系统可在推断之前已使用数据对被训练,每一数据对包含一个干净音频信号和一个失真音频信号,该失真音频信号与该干净音频信号相对应或从该干净音频信号得出。这里,失真音频信号包括噪声和/或伪影。

17、在一些实施例中,数据对中的一个或多个数据对可包括相应干净音频信号和相应失真音频信号,失真音频信号已通过干净音频信号的编程变换和/或噪声添加被生成。例如,编程变换可引入与以下中的任一者或全部相关的伪影或失真:频带限制、编解码器伪影、信号失真、动态、均衡、录制噪声、混响/延时、频谱处理、合成噪声和传输伪影。

18、使用以这种方式生成的数据对允许训练系统来去除特定噪声和/或编程变换相对应的特定伪影。

19、在一些实施例中,调节网络可进一步配置为提供音频信号的一个或多个第三内部表示以用于训练。其中,音频信号的一个或多个第三内部表示可在调节网络的各层提取。此外,对于每个数据对,系统可在失真音频信号作为音频信号输入到调节网络时,基于干净音频信号与系统输出的比较被训练,以及在通过相应辅助神经网络对第三内部表示进行处理之后,进一步基于干净音频信号的表示或从干净音频信号得出的音频特征与第三内部表示的比较被训练。

20、在一些实施例中,比较可以基于相应的损失函数。这些损失函数可能与负对数似然、lp范数、最大均值差异、对抗损失和特征损失中的一者或多者有关。

21、在一些实施例中,音频特征可包括mel(梅尔)带频谱表示、响度、音高、谐度/周期性、语音活动检测、过零率、来自编码器的自监督特征、来自wave2vec模型的自监督特征和来自hubert模型的自监督特征中的至少一种。

22、在一些实施例中,对于从调节网络中提取的每个第三内部表示,可以有一个相应的辅助神经网络。

23、在一些实施例中,一个或多个辅助神经网络可基于混合密度网络。

24、在一些实施例中,调节网络和生成网络可已被联合训练。

25、本公开的另一方面涉及一种使用基于神经网络的系统处理音频信号以增强语音的方法。例如,该方法可以通过计算机实现。该系统可包括用于生成增强音频信号的生成网络和用于为生成网络生成调节信息的调节网络。该方法可包括将音频信号输入调节网络。该方法可进一步包括通过调节网络的多个层(例如卷积层)传播音频信号。该方法可进一步包括在调节网络的各层提取音频信号的一个或多个第一内部表示,并提供音频信号的一个或多个第一内部表示(或一个或多个第一内部表示的处理后版本)作为调节信息。该方法可进一步包括向生成网络输入噪声矢量和调节信息。该方法还可进一步包括基于噪声矢量和调节信息生成增强音频信号。

26、在一些实施例中,调节信息的第一内部表示可与不同时间分辨率下音频信号的表示的层次结构有关。

27、在一些实施例中,该方法可进一步包括将调节信息的每个第一内部表示(或其处理后版本)与生成网络中相应的第二内部表示进行组合。例如,组合内部表示可以包括加法、乘法和拼接中的一种或多种。

28、在一些实施例中,该方法还可进一步包括向调节网络输入第一边信息和/或向生成网络输入第二边信息。

29、本公开的另一个方面涉及对上述第一方面或其任何实施例的基于神经网络的系统进行训练的方法。训练可以基于数据对进行,每一数据对包含一个干净音频信号和一个失真音频信号,该失真音频信号与该干净音频信号相对应或从该干净音频信号得出。这里,失真音频信号包括噪声和/或伪影。

30、在一些实施例中,数据对中的一个或多个数据对可包括相应干净音频信号和相应失真音频信号,失真音频信号已通过干净音频信号的编程变换和/或噪声添加被生成。在某些情况下,对干净音频信号的编程变换可对应于添加伪影。

31、在一些实施例中,该方法可进一步包括,对于每个数据对,将失真音频信号作为音频信号输入到调节网络。该方法可进一步包括,对于每个数据对,通过调节网络的多个层传播音频信号。该方法可进一步包括,对于每个数据对,在调节网络的各层提取音频信号的一个或多个第一内部表示,并提供音频信号的一个或多个第一内部表示(或一个或多个第一内部表示的处理后版本)作为调节信息。该方法可进一步包括,对于每个数据对,在调节网络的各层提取音频信号的一个或多个第三内部表示。该方法可进一步包括,对于每个数据对,通过相应的辅助神经网络处理每个第三内部表示。该方法可进一步包括,对于每个数据对,将噪声矢量和调节信息输入生成网络。该方法可进一步包括,对于每个数据对,使用生成网络基于噪声矢量和调节信息来生成系统的输出。该方法可进一步包括,对于每个数据对,将系统的输出与干净音频信号进行比较。该方法还可进一步包括,对于每个数据对,将辅助神经网络处理后的第三内部表示与干净音频信号的表示或从干净音频信号得出的音频特征进行比较。

32、在一些实施例中,将系统的输出与干净音频信号进行比较,以及将第三内部表示与干净音频信号的表示或从干净音频信号得出的音频特征进行比较,都可基于相应的损失函数。这些损失函数可与负对数似然、lp范数、最大均值差异、对抗损失和特征损失中的一者或多者有关。

33、在一些实施例中,音频特征可包括mel带频谱表示、响度、音高、谐度/周期性、语音活动检测、过零率、来自编码器的自监督特征、来自wave2vec模型的自监督特征和来自hubert模型的自监督特征中的至少一种。

34、在一些实施例中,一个或多个辅助神经网络可基于混合密度网络。

35、在一些实施例中,调节网络、生成网络和一个或多个辅助神经网络可联合训练。

36、根据另一个方面,提供了一种用于音频信号语音增强的装置。该设备可包括处理器和存储器,该存储器与处理器耦合并存储用于处理器的指令。处理器可配置为执行根据前述方面及其实施例的方法的所有步骤。

37、根据另一个方面,描述了一种计算机程序。计算机程序可以包括可执行指令,该可执行指令在由计算设备(例如处理器)执行时实行贯穿本公开概述的方法或方法步骤。

38、根据另一个方面,描述了一种计算机可读存储介质。存储介质可存储计算机程序,该程序适于在计算设备(例如处理器)上执行,并当在计算设备上执行时用于执行贯穿本公开概述的方法或方法步骤。

39、应指出,本公开内容中概述的方法和系统(包括其优选实施例)可单独使用,也可与本文公开的其他方法和系统组合使用。此外,本公开中概述的方法和系统的所有方面均可任意组合。特别地,权利要求中的特征可被以任意方式相互组合。

40、应理解,装置特征和方法步骤可被多种方式互换。特别地,如技术人员可理解的,所公开方法的细节可以通过相应的装置来实现,反之亦然。此外,上述任何关于方法(以及,例如,其步骤)的陈述均理解为同样适用于相应的装置(以及,例如,其块、阶段、单元),反之亦然。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24212.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。