技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频数据处理方法、装置、设备以及可读介质与流程  >  正文

音频数据处理方法、装置、设备以及可读介质与流程

  • 国知局
  • 2024-06-21 11:54:57

本申请涉及音频信号处理领域,具体涉及一种音频数据处理方法、装置、设备以及可读介质。

背景技术:

1、在使用平板电脑、手机及电视的时候,在播放设备、听音环境及素材内容等因素下,均可能导致用户听不清楚对话,降低用户的使用体验。人声增强技术用于提高人声清晰度,针对此类问题,使用人声增强技术是很有必要的。

2、在现有的方案中,一般通过传统的音效调试,例如动态压缩(dynamic rangecontrol,drc)、频响调节器(equalizer,eq)等对音频信号进行增强,以此实现人声增强。

3、然而,传统的音效调试处理方法仅对整段音频信号进行整体处理,无法准确的识别出人声,因此也无法针对性的对人声进行增强处理,同时这种整段信号增强的方法也会导致最终音乐和视频的功耗急剧上升,导致手机和平板等电子产品的续航变差。

技术实现思路

1、本申请实施例提供了一种音频数据处理方法、装置、设备以及可读介质,不仅能针对性的对人声进行增强处理,且处理方法较为简单。

2、第一方面,本申请实施例提供了一种音频数据处理方法,该方法包括:获取第一音频信号和第二音频信号,其中,第一音频信号和第二音频信号相同;对第一音频信号进行分帧处理和降噪处理,得到第三音频信号;确定第三音频信号中的多个人声信号;基于第一处理方式对人声信号进行处理,得到包含谐波信号的多个第四音频信号;将第四音频信号与第二音频信号合并输出。

3、可以理解,基于上述音频数据处理方法能够通过从音频信号中识别出人声信号,然后基于第一处理方式,例如谐波增益方式对各人声信号进行增益处理,实现针对性的对人声进行增强处理,提升用户体验。

4、此外,通过谐波增益方式对各人声信号进行增益处理。该方法计算量较小,能够通过提升谐波的方法来达到等效提升基频的目的,避免了基频提升太大导致的功耗问题。

5、在上述第一方面的一种可能的实现中,对第一音频信号进行分帧处理和降噪处理,得到第三音频信号,包括:基于预设的分帧参数,对第一音频信号进行分帧处理,得到多个音频帧;对音频帧进行傅里叶变换,得到第一音频信号的第一频谱;基于第一频谱,确定第一音频信号的噪声谱;基于第一频谱和噪声谱,得到第二频谱;对第二频谱对应的信号进行逆傅里叶变换,得到时域信号;根据分帧参数,重组时域信号,得到第三音频信号。

6、在上述第一方面的一种可能的实现中,基于第一频谱,确定第一音频信号的噪声谱,包括:选取第一频谱中多个音频帧中的部分音频帧,计算得到平均噪声谱,并将平均噪声谱作为第一音频信号的噪声谱。

7、在上述第一方面的一种可能的实现中,基于第一频谱和噪声谱,得到第二频谱,还包括:将第一频谱与噪声谱中的对应信号进行相减处理,得到第三频谱;将第三频谱中的负值置为0,得到第二频谱。

8、在上述第一方面的一种可能的实现中,确定第三音频信号的多个人声信号,包括:根据第三音频信号中每个音频帧的特征信息,形成第一特征集,特征信息包括第一频谱质心和第一过零率;将第一特征集输入人声识别模型,获取第一特征集对应的音频类别;其中,音频类别包括人声和非人声;将第一特征集中音频类别为人声的特征信息对应的音频帧作为人声信号。

9、在上述第一方面的一种可能的实现中,基于第一处理方式对人声信号进行处理,得到包含谐波信号的多个第四音频信号,包括:

10、确定各人声信号的基频信号;将基频信号输入谐波生成模型,得到增益后的包含谐波信号的多个第四音频信号。

11、在上述第一方面的一种可能的实现中,确定各人声信号的基频信号,包括:基于人声信号的幅值,以及人声信号对应音频帧的帧长,确定人声信号的基频信号。

12、第二方面,本申请实施例提供了一种音频数据处理装置,装置包括:采样模块、降噪模块、人声识别模块、基频检测模块、增益模块以及合并模块;其中,采样模块,用于获取第一音频信号和第二音频信号,其中,第一音频信号和第二音频信号相同;降噪模块,用于对第一音频信号进行降噪处理,得到第三音频信号;人声识别模块,用于确定第三音频信号中的各人声信号;增益模块,用于基于谐波增益方式对各人声信号进行增益处理,得到增益后的包含谐波信号的多个第四音频信号;合并模块,用于将增益处理后的第四音频信号与第二音频信号合并输出。

13、第三方面,本申请实施例提供了一种芯片,芯片包括上述音频数据处理装置。

14、第四方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;一个或多个存储器;及如上述的一种芯片;一个或多个存储器存储有一个或多个程序,当一个或者多个程序被一个或多个处理器执行时,使得电子设备执行上述的音频数据处理方法。

15、第五方面,本申请实施例提供了一种可读介质,可读介质中存储有指令,该指令被电子设备运行时,电子设备执行上述的音频数据处理方法。

技术特征:

1.一种音频数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一音频信号进行分帧处理和降噪处理,得到第三音频信号,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一频谱,确定第一音频信号的噪声谱,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述第一频谱和所述噪声谱,得到第二频谱,还包括:

5.根据权利要求1所述的方法,其特征在于,所述确定所述第三音频信号的多个人声信号,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于第一处理方式对所述人声信号进行处理,得到包含谐波信号的多个第四音频信号,包括:

7.根据权利要求6所述的方法,其特征在于,所述确定各所述人声信号的基频信号,包括:

8.一种音频数据处理装置,其特征在于,所述装置包括:采样模块、降噪模块、人声识别模块、基频检测模块、增益模块以及合并模块;

9.一种芯片,其特征在于,所述芯片包括如权利要求8所述音频数据处理装置。

10.一种电子设备,其特征在于,包括:一个或多个处理器;一个或多个存储器;所述一个或多个存储器存储有一个或多个程序,当所述一个或者多个程序被所述一个或多个处理器执行时,使得所述电子设备执行权利要求1至7中任一项所述的音频数据处理方法。

11.一种可读介质,其特征在于,所述可读介质中存储有指令,所述指令被电子设备运行时,所述电子设备执行如权利要求1-7中任一项所述的音频数据处理方法。

技术总结本申请涉及音频信号处理领域,具体涉及一种音频数据处理方法、装置、设备以及可读介质。该方法包括:获取第一音频信号和第二音频信号,其中,第一音频信号和第二音频信号相同;对第一音频信号进行分帧处理和降噪处理,得到第三音频信号;确定第三音频信号中的多个人声信号;基于第一处理方式对人声信号进行处理,得到包含谐波信号的多个第四音频信号;将第四音频信号与第二音频信号合并输出。如此,基于上述音频数据处理方法能够通过从音频信号中筛选出人声信号,然后基于谐波增益方式对各人声信号进行增益处理,实现针对性的对人声进行增强处理,提高用户体验。技术研发人员:石磊受保护的技术使用者:上海艾为电子技术股份有限公司技术研发日:技术公布日:2024/5/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/24454.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。