技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、音频生成方法、计算机设备和存储介质与流程  >  正文

模型训练方法、音频生成方法、计算机设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:53:52

本技术涉及音频,特别是涉及一种模型训练方法、音频生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术:

1、随着人工智能和深度学习技术的发展,音频的生成和处理技术取得了重要进展,音频生成技术也被广泛应用于音乐制作、电影和电视剧音效制作、游戏开发和虚拟现实等领域。

2、传统技术中,通常会利用文本数据来控制音频数据的生成,假设文本是“一个人鼓掌后大笑”,可以利用深度学习模型生成该文本的音频数据,即生成包含有人的鼓掌声及大笑声的音频。但是,这种利用文本生成音频数据的方式丢失了音频数据的时序信息,导致生成的音频数据精准性较低。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高音频生成的精准性的音频生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种模型训练方法。所述方法包括:

3、获取样本音频对应的样本声音事件的事件时序信息;

4、对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量;

5、将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量;

6、通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声;

7、基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。

8、在其中一个实施例中,将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量,包括:

9、确定所述样本潜变量在各时间步下的目标加噪噪声;

10、在所述事件时序信息的约束下,基于所述各时间步下的目标加噪噪声,对所述样本潜变量进行加噪处理,得到所述样本潜变量在所述各时间步下的加噪后潜变量。

11、在其中一个实施例中,通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声,包括:

12、在所述事件时序信息的约束下,通过所述待训练的噪声预测模型,对所述各时间步和所述各时间步下的加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量在所述各时间步下的预测加噪噪声;

13、基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型,包括:

14、根据所述预测加噪噪声与所述目标加噪噪声之间的差异,对所述待训练的噪声预测模型的模型参数进行迭代更新,得到所述训练完成的噪声预测模型。

15、在其中一个实施例中,获取样本音频对应的样本声音事件的事件时序信息,包括:

16、对所述样本音频进行特征提取处理,得到所述样本音频的样本音频特征;

17、将所述样本音频特征,输入预先训练的声音检测模型中,得到所述样本音频在不同时序区间内发生一个或多个声音事件的概率信息;所述时序区间根据所述样本音频特征的时序信息确定;

18、根据所述概率信息,确定所述样本音频对应的事件时序信息。

19、在其中一个实施例中,对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量,包括:

20、通过预先训练的音频编码器,对所述样本音频的所述样本音频特征的通道进行扩展,得到扩展后的样本音频特征;

21、通过所述预先训练的音频编码器,对所述扩展后的样本音频特征的时域和频域进行压缩,得到所述样本潜变量。

22、在其中一个实施例中,在获取样本音频对应的样本声音事件的事件时序信息之前,还包括:

23、获取音频数据集;所述音频数据集中的音频数据携带有对应的音频类别;所述音频类别包括语音类别;

24、将所述音频数据集中与语音类别相匹配的音频数据进行过滤,并将过滤后的音频数据集中的音频作为所述样本音频。

25、第二方面,本技术提供了一种音频生成方法。所述方法包括:

26、获取目标声音事件的事件时序信息,以及获取与训练完成的噪声预测模型关联的标准噪声数据;所述训练完成的噪声预测模型通过上述第一方面所述的方法训练得到;

27、将所述事件时序信息和所述标准噪声数据,输入所述训练完成的噪声预测模型,得到所述事件时序信息的音频潜变量;

28、对所述音频潜变量进行解码处理,得到所述音频潜变量的音频特征;

29、对所述音频特征进行音频还原处理,得到所述目标声音事件对应的目标音频。

30、在其中一个实施例中,获取目标声音事件的事件时序信息,包括:

31、获取所述目标声音事件在不同时序区间下的目标概率信息;

32、对所述目标概率信息进行时序处理,得到所述事件时序信息。

33、在其中一个实施例中,将所述事件时序信息和所述标准噪声数据,输入所述训练完成的噪声预测模型中,得到所述事件时序信息的音频潜变量,包括:

34、将所述事件时序信息作为所述训练完成的噪声预测模型的约束,通过所述训练完成的噪声预测模型,对所述标准噪声数据事件时序信息进行反向去噪处理,得到所述事件时序信息的音频潜变量。

35、第三方面,本技术还提供了一种模型训练装置。所述装置包括:

36、样本时序获取模块,用于获取样本音频对应的样本声音事件的事件时序信息;

37、潜变量提取模块,用于对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量;

38、正向扩散模块,用于将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量;

39、反向扩散模块,用于通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声;

40、模型更新模块,用于基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。

41、第四方面,本技术还提供了一种音频生成装置。所述装置包括:

42、事件时序获取模块,用于获取目标声音事件的事件时序信息,以及获取与训练完成的噪声预测模型关联的标准噪声数据;所述训练完成的噪声预测模型通过上述第一方面所述的方法训练得到;

43、潜变量转换模块,用于将所述事件时序信息和所述标准噪声数据事件时序信息,输入所述训练完成的噪声预测模型中,得到所述事件时序信息的音频潜变量;

44、音频特征获取模块,用于对所述音频潜变量进行解码处理,得到所述音频潜变量的音频特征;

45、音频数据生成模块,用于对所述音频特征进行音频还原处理,得到所述目标声音事件对应的目标音频数据。

46、第五方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

47、获取样本音频对应的样本声音事件的事件时序信息;

48、对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量;

49、将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量;

50、通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声;

51、基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。

52、第六方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

53、获取目标声音事件的事件时序信息,以及获取与训练完成的噪声预测模型关联的标准噪声数据;所述训练完成的噪声预测模型通过上述第一方面所述的方法训练得到;

54、将所述事件时序信息和所述标准噪声数据,输入所述训练完成的噪声预测模型,得到所述事件时序信息的音频潜变量;

55、对所述音频潜变量进行解码处理,得到所述音频潜变量的音频特征;

56、对所述音频特征进行音频还原处理,得到所述目标声音事件对应的目标音频数据。

57、第七方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

58、获取样本音频对应的样本声音事件的事件时序信息;

59、对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量;

60、将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量;

61、通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声;

62、基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。

63、第八方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

64、获取目标声音事件的事件时序信息,以及获取与训练完成的噪声预测模型关联的标准噪声数据;所述训练完成的噪声预测模型通过上述第一方面所述的方法训练得到;

65、将所述事件时序信息和所述标准噪声数据,输入所述训练完成的噪声预测模型,得到所述事件时序信息的音频潜变量;

66、对所述音频潜变量进行解码处理,得到所述音频潜变量的音频特征;

67、对所述音频特征进行音频还原处理,得到所述目标声音事件对应的目标音频数据。

68、第九方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

69、获取样本音频对应的样本声音事件的事件时序信息;

70、对所述样本音频进行潜变量提取处理,得到所述样本音频的样本潜变量;

71、将所述事件时序信息作为待训练的噪声预测模型的约束,通过所述待训练的噪声预测模型,对所述样本潜变量进行扩散处理,得到加噪后潜变量;

72、通过所述待训练的噪声预测模型,对所述加噪后潜变量进行反向扩散处理,得到所述加噪后潜变量的预测加噪噪声;

73、基于所述预测加噪噪声,对所述待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。

74、第十方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

75、获取目标声音事件的事件时序信息,以及获取与训练完成的噪声预测模型关联的标准噪声数据;所述训练完成的噪声预测模型通过上述第一方面所述的方法训练得到;

76、将所述事件时序信息和所述标准噪声数据,输入所述训练完成的噪声预测模型,得到所述事件时序信息的音频潜变量;

77、对所述音频潜变量进行解码处理,得到所述音频潜变量的音频特征;

78、对所述音频特征进行音频还原处理,得到所述目标声音事件对应的目标音频数据。

79、上述模型训练方法、音频生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取样本音频对应的样本声音事件的事件时序信息;对样本音频进行潜变量提取处理,得到样本音频的样本潜变量;然后将事件时序信息作为待训练的噪声预测模型的约束,通过待训练的噪声预测模型,对样本潜变量进行扩散处理,得到加噪后潜变量;通过待训练的噪声预测模型,对加噪后潜变量进行反向扩散处理,得到加噪后潜变量的预测加噪噪声;基于预测加噪噪声,对待训练的噪声预测模型进行迭代训练,得到训练完成的噪声预测模型。采用本方法,能够使训练完成的噪声预测模型基于事件时序信息准确预测出噪声数据,从而有效地提高了训练完成的噪声预测模型对音频的潜变量的处理能力。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24341.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。