技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、电子设备及可读存储介质与流程 > 正文

音频处理方法、装置、电子设备及可读存储介质与流程

国知局
2024-06-21 11:45:10

本发明涉及音频处理，特别是涉及一种音频处理方法、装置、电子设备及可读存储介质。

背景技术：

1、随着影视技术的发展，越来越多的影视剧受到用户的关注和喜爱。其中，影视剧中的声音通常可分为：人声，背景声两个部分。其中人声主要是对白，是塑造人物、交代剧情的重要表现方式，背景声包含环境声和配乐，用来渲染气氛或者表达情绪，进一步增强感染力。目前，在部分影视剧中存在人声较小，听不清楚的问题，从而导致视频观看过程中音频效果较差的问题。

技术实现思路

1、本发明实施例的目的在于提供一种音频处理方法、装置、电子设备及可读存储介质，以实现提高视频观看过程中的音频效果。具体技术方案如下：

2、在本发明实施的第一方面，首先提供了一种音频处理方法，包括：

3、对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号；

4、根据第一对白信号确定第一音量以及根据所述第一背景声信号确定第二音量，所述第一音量为所述第一对白信号的平均音量，所述第二音量为所述第一背景声信号的平均音量；

5、基于所述第一音量和所述第二音量，确定调整系数；

6、根据所述调整系数对所述第一对白信号进行音量调整，得到第二对白信号，所述第二对白信号的音量大于所述第一对白信号音量；

7、将所述第二对白信号和所述第一背景声信号进行合成，得到所述第一目标音频。

8、可选的，所述将所述第二对白信号和所述第一背景声信号进行合成，得到所述第一目标音频，包括：

9、将所述第二对白信号和所述第一背景声信号进行合成，得到第二目标音频；

10、根据响度控制算法将所述第二目标音频的音量调小，得到所述第一目标音频，所述第一目标音频和所述待处理音频的音量大小相同。

11、可选的，所述对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号，包括：

12、对获取到的所述目标视频进行音频分离，获得所述待处理音频；

13、将所述待处理音频输入到第一深度学习模型中，输出所述第一对白信号和所述第一背景声信号，所述第一深度学习模型为训练好的深度学习模型。

14、可选的，所述将所述待处理音频输入到第一深度学习模型中，输出所述第一对白信号和所述第一背景声信号之前，所述方法还包括：

15、获取第二深度学习模型，所述第二深度学习模型为未训练的深度学习模型；

16、将样本数据集输入到所述第二深度学习模型中，输出目标数据，所述样本，数据集包括标准输入数据和标准输出数据；

17、基于损失函数对所述第二深度学习模型中的参数进行调整，得到所述第一深度学习模型，所述损失函数用于计算所述目标数据与标准输出数据的差异值。

18、可选的，所述将所述待处理音频输入到第一深度学习模型中，输出所述第一对白信号和所述第一背景声信号，包括：

19、将所述待处理音频拆分为多个目标待处理音频，所述多个目标待处理音频中任意两个目标待处理音频首尾相连；

20、将所述多个目标待处理音频分别输入到多个第一深度学习模型中，输出多个第三对白信号和多个第二背景声信号，所述多个目标待处理音频与所述多个第一深度学习模型一一对应；

21、将所述多个第三对白信号拼接为所述第一对白信号，以及将所述多个第二背景声信号拼接为所述第一背景声信号。

22、可选的，所述基于所述第一音量和所述第二音量，确定调整系数，包括：

23、在所述第一音量和所述第二音量符合预设条件的情况下，根据所述第一音量和所述第二音量确定第三音量，所述第三音量为所述第一音量和所述第二音量之差；

24、根据第四音量和所述第三音量确定放大音量，所述第四音量根据所述第一对白信号和所述第一背景声信号确定，所述放大音量为所述第三音量与所述第四音量之差；

25、根据所述放大音量，确定所述调整系数。

26、可选的，所述根据所述放大音量，确定所述调整系数，包括：

27、基于所述放大音量确定目标函数，所述目标函数为指数函数，所述指数函数的指数为所述放大音量的1/20，所述指数函数的底数为10；

28、计算所述目标函数，得到所述调整系数。

29、在本发明实施的第二方面，还提供了一种音频处理装置，包括：

30、分离模块，用于对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号；

31、第一确定模块，用于根据第一对白信号确定第一音量以及根据所述第一背景声信号确定第二音量，所述第一音量为所述第一对白信号的平均音量，所述第二音量为所述第一背景声信号的平均音量；

32、第二确定模块，用于基于所述第一音量和所述第二音量，确定调整系数；

33、调整模块，用于根据所述调整系数对所述第一对白信号进行音量调整，得到第二对白信号，所述第二对白信号的音量大于所述第一对白信号音量；

34、合成模块，用于将所述第二对白信号和所述第一背景声信号进行合成，得到所述第一目标音频。

35、在本发明实施例的第三方面，还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的音频处理方法的步骤。

36、在本发明实施例的第四方面，还提供了一种计算机可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面中任一项所述的音频处理方法的步骤。

37、在本发明实施例的第五方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品被存储在存储介质中，所述计算机程序产品被至少一个处理器执行以实现如第一方面中任一项所述的音频处理方法的步骤。

38、本发明实施例提供了一种音频处理方法、装置、电子设备及可读存储介质，该方法包括：对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号；根据第一对白信号确定第一音量以及根据所述第一背景声信号确定第二音量，所述第一音量为所述第一对白信号的平均音量，所述第二音量为所述第一背景声信号的平均音量；基于所述第一音量和所述第二音量，确定调整系数；根据所述调整系数对所述第一对白信号进行音量调整，得到第二对白信号，所述第二对白信号的音量大于所述第一对白信号音量；将所述第二对白信号和所述第一背景声信号进行合成，得到所述第一目标音频。本发明实施例通过将待处理音频分为第一对白信号和第一背景声信号后，根据第一对白信号的平均音量和第一背景声信号的平均音量，计算出调整系数，根据调整系数对第一对白信号进行增强，得到处理完成的第一目标音频，从而在目标视频的播放过中提高了对白音量，提高了视频观看过程中的音频效果。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第二对白信号和所述第一背景声信号进行合成，得到第一目标音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述待处理音频输入到第一深度学习模型中，输出所述第一对白信号和所述第一背景声信号之前，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述待处理音频输入到第一深度学习模型中，输出所述第一对白信号和所述第一背景声信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一音量和所述第二音量，确定调整系数，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述放大音量，确定所述调整系数，包括：

8.一种音频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的音频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的音频处理方法的步骤。

11.一种计算机程序产品，其特征在于，所述计算机程序产品被存储在存储介质中，所述计算机程序产品被至少一个处理器执行以实现如权利要求1至7中任一项所述的音频处理方法中的步骤。

技术总结本发明实施例提供了一种音频处理方法、装置、电子设备及可读存储介质，该方法包括：对目标视频中的待处理音频进行分离处理，得到第一对白信号和第一背景声信号；根据第一对白信号确定第一音量以及根据所述第一背景声信号确定第二音量；基于所述第一音量和所述第二音量，确定调整系数；根据所述调整系数得到所述第一目标音频。本发明实施例通过将待处理音频分为第一对白信号和第一背景声信号后，根据第一对白信号的平均音量和第一背景声信号的平均音量，计算出调整系数，根据调整系数对第一对白信号进行增强，得到处理完成的第一目标音频，从而在目标视频的播放过中提高了对白音量，提高了视频观看过程中的音频效果。技术研发人员：刘阳,刘长滔受保护的技术使用者：北京奇艺世纪科技有限公司技术研发日：技术公布日：2024/4/22