技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于扩散模型的音频编解码方法及装置、存储介质及设备  >  正文

基于扩散模型的音频编解码方法及装置、存储介质及设备

  • 国知局
  • 2024-06-21 11:29:36

本公开涉及语音处理,尤其涉及一种基于扩散模型的音频编解码方法及装置、存储介质及设备。

背景技术:

1、将音频压缩并传输的技术在今天的生活中发挥着重要的作用,例如线上会议音频传输,例如网络通话语音传输等等。

2、现有技术中,音频编解码以及其采用的压缩方法大多采用传统技术。传统技术包括使用数字信号处理技术对原始数字音频信号流进行压缩编码,以降低其码率而不损失有用信息量并可忽略所引入的损失。这种技术必须具有相应的逆变换,也就是解压缩或解码的过程。相关技术中,一种基于神经网络的音频编解码器使用了残差矢量编码技术进行压缩,残差结构的设计使得不必单独对各个带宽环境单独训练就可以完成压缩比的灵活调整;另一种基于神经网络的音频编解码器引入了轻量级transformer语言模型(是基于注意力机制的模型)和熵编码辅助残差矢量编码进行压缩,这一改进使得模型推理速度大大提升,且不影响其他效果;还有一种基于神经网络的音频编解码器采用了分组残差矢量编码的方式,在保证质量的情形下减少了使用码本数目。

3、以上三种神经网络的音频编解码器中,其编解码方式都是以自编码器的模式设计生成器,并联合鉴别器形成生成对抗网络结构,以此进行对抗性训练。事实上,编解码器还原音频的高质量一直是该领域追求的目标,而扩散模型结构作为生成对抗网络结构之后流行的生成式模型,已经在图像生成等多个领域验证了其优秀稳定的生成效果。因此,现有技术中无法确保编解码器还原音频的高质量问题,也无法根据应用环境灵活调节音频还原质量与编解码时延。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于扩散模型的音频编解码方法及装置、存储介质及设备。

2、第一方面,本公开的实施例提供了一种基于扩散模型的音频编解码方法,所述方法包括:

3、接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;

4、对编码后音频向量进行矢量量化,得到压缩后音频信息;

5、接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。

6、在一种可能的实施方式中,所述对原始波形进行编码,得到编码后音频向量,包括:

7、将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。

8、在一种可能的实施方式中,所述对编码后音频向量进行矢量量化,得到压缩后音频信息,包括:

9、将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。

10、在一种可能的实施方式中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:

11、对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;

12、对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;

13、对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;

14、对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;

15、在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:

16、以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;

17、将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;

18、将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。

19、在一种可能的实施方式中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:

20、,

21、其中,为量化损失,为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。

22、在一种可能的实施方式中,所述对压缩后音频信息进行恢复,得到恢复后音频向量,包括:

23、在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。

24、在一种可能的实施方式中,所述将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,包括:

25、根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。

26、在一种可能的实施方式中,所述扩散模型通过以下步骤训练得到:

27、将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;

28、对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;

29、根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。

30、第二方面,本公开的实施例提供了一种基于扩散模型的音频编解码装置,包括:

31、编码模块,用于接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;

32、量化模块,用于对编码后音频向量进行矢量量化,得到压缩后音频信息;

33、恢复模块,用于接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。

34、在一种可能的实施方式中,所述编码模块还用于:

35、将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。

36、在一种可能的实施方式中,所述量化模块还用于:

37、将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。

38、在一种可能的实施方式中,在所述量化模块中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:

39、对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;

40、对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;

41、对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;

42、对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;

43、在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:

44、以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;

45、将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;

46、将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。

47、在一种可能的实施方式中,在所述量化模块中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:

48、,

49、其中,为量化损失,为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。

50、在一种可能的实施方式中,所述恢复模块还用于:

51、在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。

52、在一种可能的实施方式中,所述恢复模块还用于:

53、根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。

54、在一种可能的实施方式中,在所述恢复模块中,所述扩散模型通过以下步骤训练得到:

55、将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;

56、对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;

57、根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。

58、第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;

59、存储器,用于存放计算机程序;

60、处理器,用于执行存储器上所存放的程序时,实现上述的基于扩散模型的音频编解码方法。

61、第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于扩散模型的音频编解码方法。

62、本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:

63、本公开实施例所述的基于扩散模型的音频编解码方法,接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;对编码后音频向量进行矢量量化,得到压缩后音频信息;接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,在目标音频的原始波形通过编码和矢量量化后传输,再经过解码还原原始音频的过程中,利用扩散模型对音频进行编码和解码,使得音频编码量化传输后,能够在接收端高质量还原原始音频。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21825.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。