技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音乐风格迁移方法、装置、电子设备及存储介质与流程 > 正文

音乐风格迁移方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:53:14

本发明涉及音频重构，尤其是涉及一种音乐风格迁移方法、装置、电子设备及存储介质。

背景技术：

1、音乐是人类社会中至关重要的艺术形式，而音乐风格的变化可以为听众带来全新的体验和认知。长期以来，音乐创作一直存在着高门槛。然而，音乐风格迁移为普通人实现个性化音乐体验开辟了可能性。声音在生活中无处不在，受到利用自然界声音的音乐创作者的启发，音乐风格迁移可以扩展到利用各种类型的声音样例。音乐风格迁移要求将内容音频的音色等转变为与风格音频一致，保留内容音频的旋律，节奏等整体特征，同时生成的音频应保持高质量且具有音乐性。

2、目前，传统音乐风格迁移严重依赖人工，且有较高的专业门槛，由音乐家利用不同的乐器或演奏风格实现风格迁移。随着深度学习的发展，音乐风格迁移展现出新的潜力。类似于图像风格迁移，通过使用神经网络和深度学习算法，可以对音乐进行特征提取和学习，从而实现音乐风格迁移。随着多模态和大语言模型的发展，大语言模型的强大潜力激发了众多研究人员利用其为音乐生成赋能，文本引导音乐生成逐步展现出出色的效果，一些方法实现利用文本引导实现音乐风格迁移，但受限于预训练模型，只能实现主流乐器的音乐风格迁移，而对于小众乐器和其他声音类型则无能为力。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种音乐风格迁移方法、装置、电子设备及存储介质，可以实现高质量和高灵活性的音乐风格迁移。

2、第一方面，本发明实施例提供了一种音乐风格迁移方法，包括：

3、获取训练音频谱图数据；其中，所述训练音频谱图数据用于训练音乐风格迁移模型，所述音乐风格迁移模型包括扩散子模型、vae编码器子模型、vae解码器子模型和文本编码器子模型；

4、固定所述扩散子模型、所述vae编码器子模型、所述vae解码器子模型的模型参数，以及固定所述文本编码器中除时间变化编码单元之外的其他单元的模型参数；

5、利用所述训练音频谱图数据，结合所述扩散子模型重建风格音频谱图训练所述时间变化编码单元，以实现时间变化的文本反演；其中，所述时间变化编码单元使得风格伪词对应的文本嵌入随着所述扩散子模型的时间步变化而发生变化，以在不同的时间步关注不同的谱图特征。

6、在一种实施方式中，利用所述训练音频谱图数据，结合所述扩散子模型重建风格音频谱图训练所述时间变化编码单元，以实现时间变化的文本反演的步骤，包括：

7、通过所述vae编码器子模型，对所述训练音频谱图数据进行编码处理和扩散处理，得到带噪声训练音频谱图数据；

8、通过所述文本编码器子模型，基于时间变化对风格伪词进行反演，以使同一所述风格伪词在所述扩散子模型的不同时间步对应不同的文本嵌入，所述扩散子模型在不同的时间步关注不同的谱图特征；

9、通过所述扩散子模型，基于不同时间步对应的所述文本嵌入，对所述带噪声训练音频谱图数据进行多级交叉注意力处理，以实现对所述带噪声训练音频谱图数据的去噪处理；

10、通过所述vae解码器子模型，对所述去噪处理后的所述带噪声训练音频谱图数据进行解码处理；随着训练的进行，音乐风格迁移模型能实现风格音频谱图的重建，从而使风格伪词代表风格音频的信息。

11、在一种实施方式中，所述文本编码器子模型包括分词单元、embedding lookup单元、时间变化编码单元和text transformer单元；

12、通过所述文本编码器子模型，基于时间变化对风格伪词进行反演，以使同一所述风格伪词在所述扩散子模型的不同时间步对应不同的文本嵌入的步骤，包括：

13、通过所述分词单元，对所述风格伪词进行分词处理得到伪词分词结果，所述伪词分词结果经所述embedding lookup单元的处理，得到初始嵌入向量；

14、通过所述时间变化编码单元，基于不同的时间步对所述初始嵌入向量中的指定嵌入向量进行处理，得到所述指定嵌入向量对应的编码后嵌入向量，并将除所述指定嵌入向量之外的其他初始嵌入向量和所述编码后嵌入向量作为目标嵌入向量；

15、所述目标嵌入向量经所述text transformer单元的处理，生成不同时间步对应的文本嵌入。

16、在一种实施方式中，所述时间变化编码单元包括编码层、多级线性层、多级注意力层和前馈层；

17、通过所述时间变化编码单元，基于不同的时间步对所述初始嵌入向量中的指定嵌入向量进行处理，得到所述指定嵌入向量对应的编码后嵌入向量的步骤，包括：

18、通过所述编码层，对当前时间步进行编码得到时间步向量，所述时间步向量经所述多级线性层的处理，得到所述时间步向量对应的处理结果；

19、将所述处理结果与所述初始嵌入向量中的指定嵌入向量进行相加，相加结果经所述多级注意力层和所述前馈层的处理，得到所述指定嵌入向量对应的编码后嵌入向量。

20、在一种实施方式中，所述扩散子模型的数量为多个，每个扩散子模型均包括多个交叉注意力层；

21、通过所述扩散子模型，基于不同时间步对应的所述文本嵌入，对所述带噪声训练音频谱图数据进行多级交叉注意力处理的步骤，包括：

22、对于每个所述扩散子模型，通过该扩散子模型内的多个所述交叉注意力层，基于所述交叉注意力层的当前时间步对应的文本嵌入，对所述带噪声训练音频谱图数据，或者上一个扩散子模型输出的特征向量进行交叉注意力处理，以得到该扩散子模型输出的特征向量。

23、在一种实施方式中，所述方法还包括：

24、获取待处理的初始音频谱图数据；

25、以风格伪词作为文本引导，通过训练得到的所述音乐风格迁移模型，对所述初始音频谱图数据进行减少偏置的风格化处理，以在保持所述初始音频谱图数据内容不变的情况下，将所述初始音频谱图数据迁移为目标音乐风格对应的目标音频谱图数据；

26、其中，所述减少偏置的风格化处理包括部分扩散处理、确定扩散处理和去噪处理。

27、在一种实施方式中，以风格伪词作为文本引导，通过训练得到的所述音乐风格迁移模型，对所述初始音频谱图数据进行减少偏置的风格化处理，以在保持所述初始音频谱图数据内容不变的情况下，将所述初始音频谱图数据迁移为所述目标音乐风格对应的目标音频谱图数据的步骤，包括：

28、利用随机噪声对所述初始音频谱图数据进行部分扩散处理，得到带噪声音频谱图数据；其中，所述带噪声音频谱图数据用于确定预测噪声；

29、通过训练得到的所述音乐风格迁移模型，利用预测噪声对所述初始音频谱图数据进行确定扩散处理，得到新的带噪声音频谱图数据，由风格伪词确定不同时间步对应的文本嵌入，并利用不同时间步对应的所述文本嵌入对新的带噪声音频谱图数据进行去噪处理，以生成目标音乐风格对应的目标音频谱图数据。

30、第二方面，本发明实施例还提供一种音乐风格迁移装置，包括：

31、数据获取模块，用于获取训练音频谱图数据；其中，所述训练音频谱图数据用于训练音乐风格迁移模型，所述音乐风格迁移模型包括扩散子模型、vae编码器子模型、vae解码器子模型和文本编码器子模型；

32、参数固定模块，用于固定所述扩散子模型、所述vae编码器子模型、所述vae解码器子模型的模型参数，以及固定所述文本编码器中除时间变化编码单元之外的其他单元的模型参数；

33、模型训练模块，用于利用所述训练音频谱图数据，结合所述扩散子模型重建风格音频谱图训练所述时间变化编码单元，以实现时间变化的文本反演；其中，所述时间变化编码单元使得风格伪词对应的文本嵌入随着所述扩散子模型的时间步变化而发生变化，以在不同的时间步关注不同的谱图特征。

34、第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。

35、第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。

36、本发明实施例提供的一种音乐风格迁移方法、装置、电子设备及存储介质，首先获取训练音频谱图数据，所述训练音频谱图数据用于训练音乐风格迁移模型，所述音乐风格迁移模型包括扩散子模型、vae编码器子模型、vae解码器子模型和文本编码器子模型；然后固定所述扩散子模型、所述vae编码器子模型、所述vae解码器子模型的模型参数，以及固定所述文本编码器中除时间变化编码单元之外的其他单元的模型参数；最后利用所述训练音频谱图数据，结合所述扩散子模型重建风格音频谱图训练所述时间变化编码单元，以实现时间变化的文本反演。上述方法中的时间变化编码单元使得风格伪词对应的文本嵌入随着所述扩散子模型的时间步变化而发生变化，以在不同的时间步关注不同的谱图特征，促进音频谱图的重建，从而可以训练得到的音乐风格迁移模型实现高质量和高灵活性的音乐风格迁移。

37、本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

38、为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。