技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频提取方法、装置、电子设备及存储介质与流程  >  正文

音频提取方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:43:29

本公开涉及计算机,具体而言,涉及一种音频提取方法、音频提取装置、电子设备以及计算机可读存储介质。

背景技术:

1、随着计算机技术的快速发展,音频作为信息传递的主要载体之一,在实际生产生活中的作用越来越重要。现实生活中,目标音频信号容易受到环境和背景音频的干扰,需要从混合音频中提取获得目标音频。

2、相关技术中的音频提取过程,主要集中在对“人”的声音进行处理,例如语音分离、语音增强和目标说话人分离等;这种音频提取过程在针对包括多种对象类别的混合音频进行音频提取时的准确性较差,且无法从中提取获得某种对象类别对应的目标音频。

技术实现思路

1、本公开实施例提供一种音频提取方法、音频提取装置、电子设备以及计算机可读存储介质,该方法将与目标音频事件对应的图像特征作为从混合音频提取的与目标音频事件对应的预测音频的驱动图像,使得音频分离模型能够更加准确地从混合音频中提取与目标音频事件对应的预测音频,提高了音频提取准确性。

2、本公开实施例提供一种音频提取模型的训练方法,该方法包括:获取待处理混合音频,所述待处理混合音频中混合有与目标音频事件对应的目标音频;对所述待处理混合音频进行短时傅立叶变换处理,得到所述待处理混合音频的音频幅度谱特征;获取与所述目标音频事件对应的待处理图像;将所述待处理图像输入图像特征提取网络进行处理,获得所述待处理图像的图像特征;将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频。

3、在本公开的一些示例性实施例中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频,包括:将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频的音频幅度谱特征;对所述目标音频的音频幅度谱特征进行逆短时傅立叶变换处理,获得所述目标音频。

4、在本公开的一些示例性实施例中,所述音频分离模型包括多个融合模块,所述多个融合模块包括第一个融合模块、至少一个中间融合模块和最后一个融合模块;其中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频的音频幅度谱特征,包括:将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入所述第一个融合模块进行处理,获得所述第一个融合模块的输出特征;将所述待处理图像的图像特征和各个所述中间融合模块的上一融合模块的输出特征输入所述中间融合模块进行处理,获得所述中间融合模块的输出特征;将所述待处理图像的图像特征和所述最后一个融合模块的上一融合模块的输出特征输入所述最后一个融合模块进行处理,获得所述目标音频的音频幅度谱特征。

5、在本公开的一些示例性实施例中,所述第一个融合模块包括第一特征线性调制层、多头自注意力层、卷积层和第二特征线性调制层;其中,所述将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入所述第一个融合模块进行处理,获得所述第一个融合模块的输出特征,包括:通过所述第一特征线性调制层对所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征进行处理,获得第一中间特征;通过所述多头自注意力层和所述卷积层对所述第一中间特征进行处理,获得第二中间特征;通过所述第二特征线性调制层对所述第二中间特征和所述待处理图像的图像特征进行处理,获得所述第一个融合模块的输出特征。

6、在本公开的一些示例性实施例中,所述音频分离模型通过下述方式训练得到:获取与所述目标音频事件对应的多个第一训练音频、与其他音频事件对应的多个第二训练音频、以及与所述目标音频事件对应的多个训练图像;从所述多个第一训练音频中随机确定目标第一训练音频,从所述多个第二训练音频中随机确定至少一个目标训练第二音频,从所述多个训练图像中随机确定目标训练图像;将所述目标第一训练音频和所述至少一个目标第二训练音频进行混合处理,获得训练混合音频;对所述训练混合音频进行短时傅立叶变换处理,得到所述训练混合音频的音频幅度谱特征;将所述目标训练图像输入所述图像特征提取网络进行处理,获得所述目标训练图像的图像特征;将所述训练混合音频的音频幅度谱特征和所述目标训练图像的图像特征输入至待训练的音频分离网络进行处理,获得预测音频的音频幅度谱特征;对所述预测音频的音频幅度谱特征进行逆短时傅立叶变换处理,获得与所述目标音频事件对应的预测音频;根据所述目标第一训练音频和所述预测音频对所述待训练的音频分离模型进行训练,以获得所述音频分离模型。

7、在本公开的一些示例性实施例中,所述根据所述目标第一训练音频和所述预测音频对所述待训练的音频分离模型进行训练,以获得所述音频分离模型,包括:根据所述目标第一训练音频和所述预测音频确定第一损失;对所述目标第一训练音频进行短时傅立叶变换处理,得到所述目标第一训练音频的音频幅度谱特征;根据所述目标第一训练音频的音频幅度谱特征和所述预测音频的音频幅度谱特征确定第二损失;根据所述第一损失和所述第二损失调整所述待训练的音频分离模型的模型参数,以获得所述音频分离模型。

8、在本公开的一些示例性实施例中,所述将所述目标第一训练音频和所述至少一个目标第二训练音频进行混合处理,获得训练混合音频,包括:将所述目标第一训练音频和所述多个目标第二训练音频基于随机的信噪比进行混合处理,获得所述训练混合音频;其中,所述多个目标第二训练音频与至少两种其他音频事件对应。

9、本公开实施例提供一种音频提取装置,包括:获取模块,被配置为执行获取待处理混合音频,所述混合音频中混合有与目标音频事件对应的目标音频;处理模块,被配置为执行对所述待处理混合音频进行短时傅立叶变换处理,得到所述待处理混合音频的音频幅度谱特征;所述获取模块还被配置为执行获取与所述目标音频事件对应的待处理图像;所述处理模块还被配置为执行将所述待处理图像输入图像特征提取网络进行处理,获得所述待处理图像的图像特征;获得模块,被配置为执行将所述待处理混合音频的音频幅度谱特征和所述待处理图像的图像特征输入音频分离模型中,获得所述目标音频。

10、本公开实施例提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行可执行指令,以实现如上述任一音频提取方法。

11、本公开实施例提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述任一音频提取方法。

12、本公开实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任一音频提取方法。

13、本公开实施例提供的音频提取方法,获取待处理混合音频,混合音频中混合有与目标音频事件对应的目标音频,获取与目标音频事件对应的待处理图像,对待处理混合音频进行短时傅立叶变换处理,得到待处理混合音频的音频幅度谱特征;将待处理图像输入图像特征提取网络进行处理,获得待处理图像的图像特征;将待处理混合音频的音频幅度谱特征和待处理图像的图像特征输入音频分离模型中,获得目标音频;该方法在音频提取过程中,输入一张与目标音频事件对应的目标图像即可从混合音频中提取出与目标音频事件对应的目标音频,提高了音频分离的准确性,提高了音频分离的可用性和简易性,提高了音频分离效率。

14、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23134.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。