技术新讯 > 电子通信装置的制造及其应用技术 > 音频生成方法、装置、电子设备及存储介质与流程 > 正文

音频生成方法、装置、电子设备及存储介质与流程

国知局
2025-01-10 13:33:25

本公开涉及人工智能，特别是涉及一种音频生成方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能生成内容(aigc)技术的发展，视频生成在各个领域引起了广泛的关注。为了使得生成的视频更加接近真实场景，需要为视频生成与画面同步的语音。然而，由于视频中包含了复杂的语义信息，因此，往往难以在进行音频生成时达到较好的视频-音频对齐效果，音频生成的质量有待提升。

技术实现思路

1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本公开实施例提供了一种音频生成方法、装置、电子设备及存储介质，能够提升音频生成的质量。

3、一方面，本公开实施例提供了一种音频生成方法，包括：

4、获取目标视频，提取所述目标视频的目标视频特征；

5、对所述目标视频中的视频帧图像进行图像分割，得到所述视频帧图像中对象掩膜的掩膜分数，其中，所述对象掩膜用于标记所述视频帧图像中的目标对象；

6、提取用于描述所述目标对象的对象文本的第一文本特征，利用所述掩膜分数对同一所述视频帧图像中的所述第一文本特征进行加权求和，得到所述视频帧图像的第二文本特征，融合多个所述视频帧图像的所述第二文本特征得到目标文本特征；

7、获取随机生成的带噪音频信号，以所述目标视频特征以及所述目标文本特征作为去噪条件对所述带噪音频信号进行去噪，得到目标音频信号，基于所述目标音频信号生成所述目标视频对应的目标音频。

8、另一方面，本公开实施例提供了一种音频生成装置，包括：

9、第一特征提取模块，用于获取目标视频，提取所述目标视频的目标视频特征；

10、分割模块，用于对所述目标视频中的视频帧图像进行图像分割，得到所述视频帧图像中对象掩膜的掩膜分数，其中，所述对象掩膜用于标记所述视频帧图像中的目标对象；

11、第二特征提取模块，用于提取用于描述所述目标对象的对象文本的第一文本特征，利用所述掩膜分数对同一所述视频帧图像中的所述第一文本特征进行加权求和，得到所述视频帧图像的第二文本特征，融合多个所述视频帧图像的所述第二文本特征得到目标文本特征；

12、生成模块，用于获取随机生成的带噪音频信号，以所述目标视频特征以及所述目标文本特征作为去噪条件对所述带噪音频信号进行去噪，得到目标音频信号，基于所述目标音频信号生成所述目标视频对应的目标音频。

13、进一步，生成模块具体用于：

14、将所述带噪音频信号、所述目标视频特征以及所述目标文本特征输入至扩散模型，其中，所述扩散模型包括unet网络，所述unet网络设置有多个依次级联的处理模块；

15、对于每一个所述处理模块，将基于所述目标视频特征得到的交叉注意力结果与所述目标文本特征求和后进行特征变换，得到当前的所述处理模块的输出，基于最后一个所述处理模块的输出得到目标音频信号。

16、进一步，生成模块具体用于：

17、对所述带噪音频信号或者前一个所述处理模块的输出进行自注意力处理，得到第一自注意力特征；

18、基于所述第一自注意力特征构建第一查询矩阵，基于所述目标视频特征构建第一值矩阵以及第一键矩阵，基于所述第一查询矩阵、所述第一键矩阵以及所述第一值矩阵进行交叉注意力处理，得到第一交叉注意力特征；

19、将所述第一交叉注意力特征与所述目标文本特征求和后进行特征变换，得到当前的所述处理模块的输出。

20、进一步，音频生成装置还包括训练模块，训练模块用于：

21、获取样本视频以及所述样本视频的样本音频信号，提取所述样本视频的样本视频特征以及样本文本特征，其中，所述样本文本特征的提取方式与所述目标文本特征的提取方式相同；

22、调用所述扩散模型以所述样本视频特征以及所述样本文本特征作为去噪条件，对添加标签噪声信号后的所述样本音频信号进行去噪，得到样本噪声信号；

23、根据所述样本噪声信号与所述标签噪声信号之间的差异确定模型损失，基于所述模型损失训练所述扩散模型。

24、进一步，生成模块具体用于：

25、在不配置去噪条件的情况下对所述带噪音频信号进行去噪，得到参考音频信号；

26、将所述目标音频信号和所述参考音频信号进行加权求和，得到加权音频信号；

27、基于所述加权音频信号生成所述目标视频对应的目标音频。

28、进一步，生成模块具体用于：

29、将所述目标音频信号以及所述参考音频信号输入至权重预测模型进行回归，得到所述目标音频信号以及所述参考音频信号各自对应的目标权重；

30、基于所述目标权重将所述目标音频信号和所述参考音频信号进行加权求和，得到加权音频信号。

31、进一步，分割模块具体用于：

32、获取所述目标视频中的视频帧图像的对象提示信息，提取所述对象提示信息的信息特征，其中，所述对象提示信息用于提示所要标记的所述目标对象；

33、提取所述视频帧图像的图像特征，将所述图像特征与所述信息特征进行融合，得到第一融合特征；

34、基于所述第一融合特征对所述视频帧图像进行图像分割，得到对象掩膜的掩膜分数。

35、进一步，提取用于描述所述目标对象的对象文本的第一文本特征之前，分割模块还用于：

36、当所述对象提示信息包括文本类型的提示信息时，将所述对象提示信息作为用于描述所述目标对象的对象文本；

37、或者，当所述对象提示信息包括除了文本类型以外的其他类型的提示信息时，基于所述对象掩膜在视频帧图像中突出显示所述目标对象，得到目标图像，将所述目标图像输入至所述视觉大语言模型对所述目标对象进行文本预测，得到用于描述所述目标对象的对象文本。

38、进一步，分割模块具体用于：

39、对所述信息特征进行自注意力处理，得到第二自注意力特征；

40、基于所述第二自注意力特征构建第二查询矩阵，基于所述图像特征构建第二值矩阵以及第二键矩阵，基于所述第二查询矩阵、所述第二键矩阵以及所述第二值矩阵进行交叉注意力处理，得到第二交叉注意力特征；

41、对所述第二交叉注意力特征进行特征变换，得到变换特征；

42、基于所述图像特征构建第三查询矩阵，基于所述变换特征构建第三值矩阵以及第三键矩阵，基于所述第三查询矩阵、所述第三键矩阵以及所述第三值矩阵进行交叉注意力处理，得到第三交叉注意力特征；

43、基于所述变换特征构建第四查询矩阵，基于所述第三交叉注意力特征构建第四值矩阵以及第四键矩阵，基于所述第四查询矩阵、所述第四键矩阵以及所述第四值矩阵进行交叉注意力处理，得到融合特征。

44、进一步，生成模块具体用于：

45、将所述目标视频特征与所述目标文本特征进行融合，得到第二融合特征；

46、以所述第二融合特征作为去噪条件对所述带噪音频信号进行去噪，得到目标音频信号。

47、进一步，生成模块具体用于：

48、将所述目标音频信号输入至梅尔谱编码器进行编码，得到编码结果；

49、将所述编码结果输入至梅尔谱解码器进行解码，得到音频梅尔谱；

50、将所述音频梅尔谱输入至声码器进行音频生成，生成所述视频帧图像对应的目标音频。

51、另一方面，本公开实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的音频生成方法。

52、另一方面，本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的音频生成方法。

53、另一方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的音频生成方法。

54、本公开实施例至少包括以下有益效果：通过对目标视频中的视频帧图像进行图像分割，得到对象掩膜的掩膜分数，由于掩膜分数能够指示对象掩膜的预测置信度，因此，提取用于描述目标对象的对象文本的第一文本特征，利用掩膜分数对同一视频帧图像中的第一文本特征进行加权求和，能够得到更加准确地代表视频帧图像中的目标对象的第二文本特征，在此基础上，通过融合多个视频帧图像的第二文本特征得到目标文本特征，使得目标文本特征能够提供帧级别且细粒度的语义信息，后续再获取随机生成的带噪音频信号，以目标视频特征以及目标文本特征作为去噪条件对带噪音频信号进行去噪，得到目标音频信号，基于目标音频信号生成目标视频对应的目标音频，实现帧级别的音频生成，优化了目标音频与目标视频中画面的对齐效果，从而提升音频生成的质量。

55、本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。