技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频数据处理方法、装置以及可读存储介质与流程  >  正文

一种音频数据处理方法、装置以及可读存储介质与流程

  • 国知局
  • 2024-06-21 11:38:46

本技术涉及计算机,尤其涉及一种音频数据处理方法、装置以及可读存储介质。

背景技术:

1、目前,在一些音视频采集业务场景(例如,音视频会议场景)下,需要对音频数据进行采集,然而,在采集到的这些音频数据中,极易存在对当前音频数据中的目标语音造成干扰的非平稳噪声(non-stationary noise),以至于在当前采集到的音频数据中降低了目标语音的采集质量。

2、然而,在这些非平稳噪声中,还可能存在一种由多个说话人的交谈声组成的babble noise,这里的babble noise是一种极易对当前音频数据中的目标语音造成语音干扰的非平稳背景噪声。由于这种非平稳背景噪声的噪声数据的成分与该目标语音的语音数据的成分类似,容易在对并存有该非平稳背景噪声的目标语音进行语音增强处理时,将该目标语音中与该非平稳背景噪声具有相似语音成分的语音数据进行误消,从而会降低对音频数据进行噪声抑制后的语音保真度。

技术实现思路

1、本技术实施例提供了一种音频数据处理方法、装置以及可读存储介质,可以有效抑制音频数据中的噪声数据,且提升语音保真度。

2、本技术实施例一方面提供了一种音频数据处理方法,包括:

3、获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧;目标音频数据帧和k个历史音频数据帧均为频谱帧,且k个历史音频数据帧中的每个历史音频数据帧均为目标音频数据帧之前的频谱帧,k为正整数;

4、在获取到目标音频数据帧的n个目标倒频谱系数时,基于n个目标倒频谱系数,获取与目标音频数据帧相关联的m个一阶时间导数和m个二阶时间导数;n为大于1的正整数,m为小于n的正整数;

5、获取每个历史音频数据帧分别对应的n个历史倒频谱系数,基于获取到的k*n个历史倒频谱系数确定与目标音频数据帧相关联的频谱动态特征;

6、将n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征输入至目标掩码估计模型,由目标掩码估计模型输出目标音频数据帧对应的目标掩码;目标掩码用于抑制原始音频数据中的噪声数据,以得到原始音频数据对应的增强音频数据。

7、本技术实施例一方面提供了一种音频数据处理方法,包括:

8、获取与样本音频数据相关联的目标样本音频数据帧和k个历史样本音频数据,且获取目标样本音频数据帧对应的样本掩码;目标样本音频数据帧和k个历史样本音频数据帧均为频谱帧,且k个历史样本音频数据帧中的每个历史样本音频数据帧均为目标样本音频数据帧之前的频谱帧,k为正整数;

9、在获取到目标样本音频数据帧的n个目标样本倒频谱系数时,基于n个目标样本倒频谱系数,获取与目标样本音频数据帧相关联的m个样本一阶时间导数和m个样本二阶时间导数;n为大于1的正整数,m为小于n的正整数;

10、获取每个历史样本音频数据帧分别对应的n个历史样本倒频谱系数,基于获取到的k*n个历史样本倒频谱系数确定与目标样本音频数据帧相关联的样本频谱动态特征;

11、将n个目标样本倒频谱系数、m个样本一阶时间导数、m个样本二阶时间导数以及样本频谱动态特征输入至初始掩码估计模型,由初始掩码估计模型输出目标样本音频数据帧对应的预测掩码;

12、基于预测掩码和样本掩码对初始掩码估计模型进行迭代训练,得到用于输出与原始音频数据相关联的目标音频数据帧所对应的目标掩码的目标掩码估计模型;目标掩码用于抑制原始音频数据中的噪声数据,以得到原始音频数据对应的增强音频数据。

13、本技术实施例一方面提供了一种音频数据处理装置,包括:

14、第一获取模块,用于获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧;目标音频数据帧和k个历史音频数据帧均为频谱帧,且k个历史音频数据帧中的每个历史音频数据帧均为目标音频数据帧之前的频谱帧,k为正整数;

15、第二获取模块,用于在获取到目标音频数据帧的n个目标倒频谱系数时,基于n个目标倒频谱系数,获取与目标音频数据帧相关联的m个一阶时间导数和m个二阶时间导数;n为大于1的正整数,m为小于n的正整数;

16、第三获取模块,用于获取每个历史音频数据帧分别对应的n个历史倒频谱系数,基于获取到的k*n个历史倒频谱系数确定与目标音频数据帧相关联的频谱动态特征;

17、掩码估计模块,用于将n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征输入至目标掩码估计模型,由目标掩码估计模型输出目标音频数据帧对应的目标掩码;目标掩码用于抑制原始音频数据中的噪声数据,以得到原始音频数据对应的增强音频数据。

18、其中,上述第一获取模块包括:

19、音频预处理单元,用于对原始音频数据进行分帧加窗预处理,得到h个音频数据段;h为大于1的正整数;

20、时频变换单元,用于分别对每个音频数据段进行时频变换,得到每个音频数据段分别对应的音频数据帧;

21、数据帧确定单元,用于在h个音频数据帧中确定目标音频数据帧以及目标音频数据帧之前的k个历史音频数据帧;k小于h。

22、其中,h个音频数据段包括音频数据段i,i为小于或等于h的正整数;

23、上述时频变换单元,具体用于对音频数据段i进行傅立叶变换,得到音频数据段i在频域中的直流分量频点和2s个频点;2s个频点包括与第一频点类型相关的s个频点和与第二频点类型相关的s个频点;s为正整数;在2s个频点中获取与第一频点类型相关的s个频点,基于与第一频点类型相关的s个频点和直流分量频点确定音频数据段i对应的音频数据帧。

24、其中,目标音频数据帧包含有s1个频点,s1个频点包括一个直流分量频点以及与频点类型相关的s2个频点,s1和s2均为正整数;

25、上述装置还包括:

26、频带映射模块,用于将s1个频点映射到n个声学频带上;s1大于或等于n;

27、倒谱处理模块,用于分别对每个声学频带进行倒谱处理,得到每个声学频带分别对应的目标倒频谱系数。

28、其中,n个声学频带包括声学频带j,j为小于或等于n的正整数;

29、上述倒谱处理模块包括:

30、能量获取单元,用于获取声学频带j的频带能量,对声学频带j的频带能量进行对数变换,得到声学频带j的对数频带能量;

31、余弦变换单元,用于对声学频带j的对数频带能量进行离散余弦变换,得到声学频带j对应的目标倒频谱系数。

32、其中,上述第二获取模块包括:

33、第一差分单元,用于对n个目标倒频谱系数进行差分运算,得到(n-1)个差分运算值,将(n-1)个差分运算值中的每个差分运算值作为对应目标倒频谱系数的一阶时间导数,在(n-1)个一阶时间导数中获取与目标音频数据帧相关联的m个一阶时间导数;

34、第二差分单元,用于对(n-1)个一阶时间导数进行二次差分运算,得到(n-2)个差分运算值,将(n-2)个差分运算值中的每个差分运算值作为对应目标倒频谱系数的二阶时间导数,在(n-2)个二阶时间导数中获取与目标音频数据帧相关联的m个二阶时间导数。

35、其中,上述第三获取模块包括:

36、数据帧获取单元,用于在k个历史音频数据帧中,获取任意两个相邻的历史音频数据帧作为第一历史音频数据帧和第二历史音频数据帧;第二历史音频数据帧为在第一历史音频数据帧之后得到的频谱帧;

37、系数获取单元,用于在与目标音频数据帧相关的缓存中获取第一历史音频数据帧对应的n个历史倒频谱系数,且获取第二历史音频数据帧对应的n个历史倒频谱系数;将获取到的第一历史音频数据帧对应的n个历史倒频谱系数作为第一历史倒频谱系数,且将获取到的第二历史音频数据帧对应的n个历史倒频谱系数作为第二历史倒频谱系数;

38、差异确定单元,用于将第一历史倒频谱系数与第二历史倒频谱系数之间的频带差异值,作为第一历史音频数据帧和第二历史音频数据帧之间的帧间差异值;

39、特征确定单元,用于当k个历史音频数据帧中各个相邻的历史音频数据帧均被作为第一历史音频数据帧和第二历史音频数据帧时,得到k个历史音频数据帧之间的帧间差异值,基于k个历史音频数据帧之间的帧间差异值确定与目标音频数据帧相关联的频谱动态特征。

40、其中,上述差异确定单元包括:

41、系数差异获取子单元,用于在第一历史倒频谱系数所包含的n个历史倒频谱系数中,获取历史倒频谱系数lp,且在第二历史倒频谱系数所包含的n个历史倒频谱系数中,获取历史倒频谱系数lq;p和q均为小于或等于n的正整数,且p=q;获取历史倒频谱系数lp与历史倒频谱系数lq之间的系数差异值;

42、差异值确定子单元,用于基于系数差异值确定第一历史倒频谱系数与第二历史倒频谱系数之间的频带差异值,将频带差异值作为第一历史音频数据帧和第二历史音频数据帧之间的帧间差异值。

43、其中,目标掩码估计模型包括掩码估计网络层和掩码输出层;

44、上述掩码估计模块包括:

45、掩码估计单元,用于将n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征作为目标音频数据帧的目标音频特征,将目标音频特征输入至掩码估计网络层,通过掩码估计网络层对目标音频特征进行掩码估计,得到目标音频特征对应的隐藏特征;

46、掩码输出单元,用于将隐藏特征输入至掩码输出层,通过掩码输出层对隐藏特征进行特征合并,得到目标音频数据帧对应的目标掩码。

47、其中,掩码估计网络层包括存在跳跃连接的第一掩码估计网络层、第二掩码估计网络层以及第三掩码估计网络层;

48、上述掩码估计单元包括:

49、第一估计子单元,用于将目标音频特征输入至第一掩码估计网络层,通过第一掩码估计网络层输出第一中间特征;

50、第二估计子单元,用于根据第一掩码估计网络层与第二掩码估计网络层之间的跳跃连接,对第一中间特征和目标音频特征进行特征拼接,得到第二中间特征,将第二中间特征输入至第二掩码估计网络层,通过第二掩码估计网络层输出第三中间特征;

51、第三估计子单元,用于根据第一掩码估计网络层与第三掩码估计网络层之间的跳跃连接以及第二掩码估计网络层与第三掩码估计网络层之间的跳跃连接,对第三中间特征、目标音频特征以及第一中间特征进行特征拼接,得到第四中间特征,将第四中间特征输入至第三掩码估计网络层,通过第三掩码估计网络层输出目标音频特征对应的隐藏特征。

52、其中,上述装置还包括:

53、噪声抑制模块,用于对目标掩码进行插值处理,得到插值掩码;插值掩码的长度与目标音频数据帧的长度相同;将插值掩码与目标音频数据帧相乘,对相乘结果进行傅立叶逆变换,得到对目标音频数据帧进行噪声抑制后的目标音频数据;当对与原始音频数据相关联的每个音频数据帧均进行噪声抑制后,得到原始音频数据对应的增强音频数据。

54、本技术实施例一方面提供了一种音频数据处理装置,包括:

55、第一获取模块,用于获取与样本音频数据相关联的目标样本音频数据帧和k个历史样本音频数据,且获取目标样本音频数据帧对应的样本掩码;目标样本音频数据帧和k个历史样本音频数据帧均为频谱帧,且k个历史样本音频数据帧中的每个历史样本音频数据帧均为目标样本音频数据帧之前的频谱帧,k为正整数;

56、第二获取模块,用于在获取到目标样本音频数据帧的n个目标样本倒频谱系数时,基于n个目标样本倒频谱系数,获取与目标样本音频数据帧相关联的m个样本一阶时间导数和m个样本二阶时间导数;n为大于1的正整数,m为小于n的正整数;

57、第三获取模块,用于获取每个历史样本音频数据帧分别对应的n个历史样本倒频谱系数,基于获取到的k*n个历史样本倒频谱系数确定与目标样本音频数据帧相关联的样本频谱动态特征;

58、掩码预测模块,用于将n个目标样本倒频谱系数、m个样本一阶时间导数、m个样本二阶时间导数以及样本频谱动态特征输入至初始掩码估计模型,由初始掩码估计模型输出目标样本音频数据帧对应的预测掩码;

59、模型训练模块,用于基于预测掩码和样本掩码对初始掩码估计模型进行迭代训练,得到用于输出与原始音频数据相关联的目标音频数据帧所对应的目标掩码的目标掩码估计模型;目标掩码用于抑制原始音频数据中的噪声数据,以得到原始音频数据对应的增强音频数据。

60、本技术实施例一方面提供了一种计算机设备,包括:处理器和存储器;

61、处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本技术实施例提供的方法。

62、本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本技术实施例提供的方法。

63、本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例提供的方法。

64、在本技术实施例中,可以获取与原始音频数据相关联的目标音频数据帧和k个历史音频数据帧,这里的目标音频数据帧和k个历史音频数据帧均为频谱帧,且这k个历史音频数据帧中的每个历史音频数据帧均为目标音频数据帧之前的频谱帧。进一步,可以基于获取到的目标音频数据帧的n个目标倒频谱系数,获取与该目标音频数据帧相关联的m个一阶时间导数和m个二阶时间导数;此外,还可以基于获取到的每个历史音频数据帧分别对应的n个历史倒频谱系数,确定与目标音频数据帧相关联的频谱动态特征。随后,可以将上述得到的n个目标倒频谱系数、m个一阶时间导数、m个二阶时间导数以及频谱动态特征共同输入至与原始音频数据相关联的目标掩码估计模型,从而可以通过该目标掩码估计模型输出目标音频数据帧对应的目标掩码,这里的目标掩码可用于抑制原始音频数据中的噪声数据(如babble noise),以得到原始音频数据对应的增强音频数据。由此可见,本技术实施例在对原始音频数据进行语音增强时,可以综合考虑包括目标倒频谱系数、一阶时间导数、二阶时间导数以及频谱动态特征在内的多种音频特征,从而可以更准确地描述纯净的语音数据与背景的噪声数据之间的时频关系,即可以得到准确度更高的目标掩码。因此,将输出的每一组掩码作用于相应的音频数据帧时,可以有效抑制音频数据中的噪声数据,且提升语音保真度。此外,与直接通过神经网络模型从带噪音频数据中估计掩码的方式不同,本技术实施例首先利用数字信号处理技术对带噪音频数据提取相应的音频特征后,再将提取到的音频特征输入训练好的神经网络模型(即目标掩码估计模型)中去进行掩码估计,因此本技术实施例所需的网络复杂度更低,从而可以减少计算复杂度和cpu(central processingunit,中央处理器)消耗,进而提高音频数据处理效率。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22648.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。