技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、电子设备及可读存储介质与流程  >  正文

音频处理方法、装置、电子设备及可读存储介质与流程

  • 国知局
  • 2024-06-21 10:39:35

本申请属于音频,具体涉及一种音频处理方法、装置、电子设备及可读存储介质。

背景技术:

1、随着互联网技术的发展,线上会议的需求也越来越多。目前。在进行线上会议时,受到网络带宽、背景噪声或者发言人员口音及语速等的因素影响,使得参会的其他人员在自身设备上接收到的会议语音质量较差,容易存在参会的其他方人员难以辨认当前发言人的发言内容,影响语义的理解。

2、在相关技术中,是针对会议的全过程进行降噪处理,使用一套降噪方法处理全部说话人和场景。例如,提取发言人的语音波形特征,将这些特征进行增强,输出增强后的目标语音信号。现有技术是针对多种不同因素采用了同一种处理方法进行全过程降噪,如此,导致对语音的增强效果较差。

技术实现思路

1、本申请实施例的目的是提供一种音频处理方法、装置、电子设备及可读存储介质,能够提高音频的增强效果。

2、第一方面,本申请实施例提供了一种音频处理方法,该方法包括:将第一音频的第一音频特征信息输入第一神经网络模型,通过所述第一神经网络模型的编码模块对所述第一音频特征信息进行特征提取处理,得到第二音频特征信息;通过所述第一神经网络模型中的m-net子模块,对所述第二音频特征信息进行卷积处理,得到高频音频特征信息和基频音频特征信息,并对所述高频音频特征信息和基频音频特征信息进行拼接,得到高维音频特征信息;基于所述高频音频特征信息、基频音频特征信息和所述高维音频特征信息,处理得到第一分类结果,所述第一分类结果包括至少两个分类结果,每个所述分类结果表征所述第一音频的一个类别;根据所述第一分类结果对应的音频增强策略,对所述第一音频进行增强处理。

3、第二方面,本申请实施例提供了一种音频处理装置,该装置包括:处理模块;所述处理模块,用于将第一音频的第一音频特征信息输入第一神经网络模型,通过所述第一神经网络模型的编码模块对所述第一音频特征信息进行特征提取处理,得到第二音频特征信息;所述处理模块,还用于通过所述第一神经网络模型中的m-net子模块,对所述第二音频特征信息进行卷积处理,得到高频音频特征信息和基频音频特征信息,并对所述高频音频特征信息和基频音频特征信息进行拼接,得到高维音频特征信息;所述处理模块,还用于基于所述高频音频特征信息、基频音频特征信息和所述高维音频特征信息,处理得到第一分类结果,所述第一分类结果包括至少两个分类结果,每个所述分类结果表征所述第一音频的一个类别;所述处理模块,还用于根据所述第一分类结果对应的音频增强策略,对所述第一音频进行增强处理。

4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。

7、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

8、在本申请实施例中,音频处理装置将第一音频的第一音频特征信息输入第一神经网络模型,通过第一神经网络模型的编码模块对该第一音频特征信息进行特征提取处理,得到第二音频特征信息;通过该第一神经网络模型中的m-net子模块,对该第二音频特征信息进行卷积处理,得到高频音频特征信息和基频音频特征信息,并对高频音频特征信息和基频音频特征信息进行拼接,得到高维音频特征信息;基于上述高频音频特征信息、基频音频特征信息和高维音频特征信息,处理得到第一分类结果,上述第一分类结果用于表征所述第一音频对应的至少两个音频类别;根据上述第一分类结果对应的音频增强策略,对该第一音频进行增强处理。通过该方法,音频处理装置可以对第一音频的第二特征音频信息进行高频音频特征信息和基频音频特征信息的分离,并基于不同层次的音频特征信息,得到表征该第一音频的至少两个分类结果,并基于该至少两个分类结果确定第一音频对应的音频增强策略,从而能够根据高频音频特征信息和基频音频特征信息进行针对性地运算处理,降低运算时的计算量,并且能够基于多个分类结果对应的音频增强策略对第一音频进行增强处理,从而提高语音的增强效果。

技术特征:

1.一种音频处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述高频音频特征信息、基频音频特征信息和所述高维音频特征信息,处理得到第一分类结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述通过所述第一神经网络模型中的datt子模块,根据所述高维音频特征信息和所述高频音频特征信息,对所述第一音频进行分类处理,得到第三分类结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述第三分类结果表征所述第一音频中包含的至少一类噪声的概率;

5.根据权利要求3所述的方法,其特征在于,所述第三分类结果表征所述第一音频的内容能够被正确识别的概率;

6.根据权利要求1所述的方法,其特征在于,所述通过所述第一神经网络模型的编码模块对所述第一音频特征信息进行特征提取处理,得到第二音频特征信息,包括:

7.一种音频处理装置,其特征在于,所述装置包括:处理模块;

8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:

9.根据权利要求8所述的装置,其特征在于,所述处理模块,具体用于:

10.根据权利要求9所述的装置,其特征在于,所述第三分类结果表征所述第一音频中包含的至少一类噪声的概率;

11.根据权利要求9所述的装置,其特征在于,所述第三分类结果表征所述第一音频的内容能够被正确识别的概率;所述处理模块,具体用于:

12.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:

13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的音频处理方法的步骤。

14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的音频处理方法的步骤。

技术总结本申请公开了一种音频处理方法、装置、电子设备及介质,属于音频技术领域。方法包括:将第一音频的第一音频特征信息输入第一神经网络模型,通过第一神经网络模型的编码模块对第一音频特征信息进行特征提取处理,得到第二音频特征信息;通过第一神经网络模型中的M‑net子模块,对第二音频特征信息进行卷积处理,得到高频音频特征信息和基频音频特征信息,并对深层特征信息和浅层特征信息进行拼接,得到高维音频特征信息;基于高频音频特征信息、基频音频特征信息和高维音频特征信息,得到表征第一音频的类别的分类结果;根据分类结果对应的音频增强策略,对第一音频进行增强处理。技术研发人员:刘佳妍受保护的技术使用者:维沃移动通信有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/21009.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。