技术新讯 > 信息存储应用技术 > 一种音乐专辑信息生成方法、模型的训练方法及装置与流程 > 正文

一种音乐专辑信息生成方法、模型的训练方法及装置与流程

国知局
2024-07-31 20:01:26

本技术实施例涉及智能音乐，尤其涉及一种音乐专辑信息生成方法、模型的训练方法及装置。

背景技术：

1、当前，为特定音乐制作专辑文案或图片时，需要对音乐进行深入剖析，撰写文案并进行插图制作等，该处理流程作为不可或缺的重要环节，需要制作者具备丰富的乐理知识、审美能力、乐器编配经验、优秀的文笔能力和图片制作能力，涉及多个专业领域方向，需要不同专业的人配合完成，使得该流程制作周期长，制作难度大，门槛较高。

技术实现思路

1、本技术实施例提供一种音乐专辑信息生成方法、模型的训练方法及装置，以解决现有的专辑制作的制作周期长，制作难度大的问题。

2、为了解决上述技术问题，本技术是这样实现的：

3、第一方面，本技术实施例提供了一种音乐专辑信息生成模型的训练方法，包括：

4、利用待训练的音乐专辑信息生成模型对多个样本音乐的原始样本音频数据和原始样本音乐专辑信息进行编码，得到样本音频隐向量特征、样本文本隐向量特征和样本图片隐向量特征；

5、将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对加噪后的所述样本图片隐向量特征进行去噪处理后解码，得到所述样本音乐对应的预测的图片数据，以及将所述样本音频隐向量特征和样本图片隐向量特征作为指导监督信号，对加噪后的所述样本文本隐向量特征进行去噪处理后，得到所述样本音乐对应的预测的文案文本数据；

6、基于所述预测的图片数据及预测的文案文本数据生成预测音乐专辑信息，并根据所述预测音乐专辑信息与所述原始样本音乐专辑信息，对待训练的音乐专辑信息生成模型进行优化，得到训练后的音乐专辑信息生成模型。

7、可选的，所述根据所述预测音乐专辑信息与所述原始样本音乐专辑信息，对待训练的音乐专辑信息生成模型进行优化，得到训练后的音乐专辑信息生成模型，包括：

8、根据所述样本文本隐向量特征、所述样本图片隐向量特征、对所述样本文本隐向量特征进行加噪处理时的文本噪音值、对所述样本图片隐向量特征加噪处理时的图片噪音值、预测的文案文本数据和预测的图片数据进行计算，得到预测的文本噪音值和预测的图片噪音值；

9、根据所述预测的文案文本数据、预测的图片数据、所述样本文本隐向量特征、所述样本图片隐向量特征、对所述样本文本隐向量特征进行加噪处理时的文本噪音值、对所述样本图片隐向量特征加噪处理时的图片噪音值、所述预测的文本噪音值和所述预测的图片噪音值，得到文本训练损失函数和图片训练损失函数；

10、根据所述文本训练损失函数和图片训练损失函数，得到模型训练损失函数；

11、根据所述模型训练损失函数对所述待训练的音乐专辑信息生成模型进行优化，当所述模型训练损失函数满足预设的损失函数阈值时，得到训练后的音乐专辑信息生成模型。

12、可选的，根据所述预测的文案文本数据、预测的图片数据、所述样本文本隐向量特征、所述样本图片隐向量特征、对所述样本文本隐向量特征进行加噪处理时的文本噪音值、对所述样本图片隐向量特征加噪处理时的图片噪音值、所述预测的文本噪音值和所述预测的图片噪音值，得到文本训练损失函数和图片训练损失函数，包括：

13、根据第i个文本在加噪过程的第t时刻预测的样本文本隐向量特征和第i个文本在加噪过程的第t-1时刻预测的样本文本隐向量特征，得到第i个文本在加噪过程的第t时刻预测的文本噪音值；根据所述第i个文本在加噪过程的第t时刻进行加噪处理时的文本噪音值和第i个文本在加噪过程的第t时刻预测的文本噪音值，得到所述文本训练损失函数；

14、根据第i个图片在加噪过程的第t时刻预测的样本图片隐向量特征和第i个图片在加噪过程的第t-1时刻预测的样本图片隐向量特征，得到第i个图片在加噪过程的第t时刻预测的图片噪音值；根据所述第i个图片在加噪过程的第t时刻进行加噪处理时的图片噪音值和第i个图片在加噪过程的第t时刻预测的图片噪音值，得到所述图片训练损失函数。

15、可选的，所述将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对加噪后的所述样本图片隐向量特征进行去噪处理后解码，得到所述样本音乐对应的预测的图片数据，包括：

16、对所述样本图片隐向量特征进行加噪处理，得到加噪后的样本图片噪声分布数据；

17、将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对所述样本图片噪声分布数据进行去噪处理，得到去噪后的预测的图片隐向量特征；

18、对所述预测的图片隐向量特征进行解码，得到样本音乐对应的预测的图片数据。

19、可选的，所述将所述样本音频隐向量特征和样本图片隐向量特征作为指导监督信号，对加噪后的所述样本文本隐向量特征进行去噪处理后，得到所述样本音乐对应的预测的文案文本数据，包括：

20、对所述样本文本隐向量特征进行加噪处理，得到加噪后的样本文本噪声分布数据；

21、将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对所述样本文本噪声分布数据进行去噪处理，得到去噪后的预测的文本隐向量特征；

22、对所述预测的文本隐向量特征进行解码，得到样本音乐对应的预测的文案文本数据。

23、第二方面，本技术实施例提供了一种音乐专辑信息生成方法，包括：

24、获取目标音乐的音频数据；

25、利用如第一方面中任一项所述的训练后的音乐专辑信息生成模型生成所述目标音乐对应的预测的音乐专辑信息；所述音乐专辑信息包括：文案文本数据和图片数据；

26、其中，所述训练后的音乐专辑信息生成模型对所述目标音乐执行以下处理：

27、对所述目标音乐的音频数据进行编码，得到目标音频隐向量特征；

28、对所述目标音频隐向量特征进行加噪处理、去噪处理以及解码，得到所述目标音乐对应的预测的音乐专辑信息。

29、第三方面，本技术实施例提供了一种音乐专辑信息生成模型的训练装置，包括：

30、第一处理模块，用于利用待训练的音乐专辑信息生成模型对多个样本音乐的原始样本音频数据和原始样本音乐专辑信息进行编码，得到样本音频隐向量特征、样本文本隐向量特征和样本图片隐向量特征；

31、第一预测模块，用于将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对加噪后的所述样本图片隐向量特征进行去噪处理后解码，得到所述样本音乐对应的预测的图片数据，以及将所述样本音频隐向量特征和样本图片隐向量特征作为指导监督信号，对加噪后的所述样本文本隐向量特征进行去噪处理后，得到所述样本音乐对应的预测的文案文本数据；

32、优化模块，用于基于所述预测的图片数据及预测的文案文本数据生成预测音乐专辑信息，并根据所述预测音乐专辑信息与所述原始样本音乐专辑信息，对待训练的音乐专辑信息生成模型进行优化，得到训练后的音乐专辑信息生成模型。

33、可选的，所述优化模块，包括：

34、第一处理子模块，用于根据所述样本文本隐向量特征、所述样本图片隐向量特征、对所述样本文本隐向量特征进行加噪处理时的文本噪音值、对所述样本图片隐向量特征加噪处理时的图片噪音值、预测的文案文本数据和预测的图片数据进行计算，得到预测的文本噪音值和预测的图片噪音值；

35、第二处理子模块，用于根据所述预测的文案文本数据、预测的图片数据、所述样本文本隐向量特征、所述样本图片隐向量特征、对所述样本文本隐向量特征进行加噪处理时的文本噪音值、对所述样本图片隐向量特征加噪处理时的图片噪音值、所述预测的文本噪音值和所述预测的图片噪音值，得到文本训练损失函数和图片训练损失函数；

36、第三处理子模块，用于根据所述文本训练损失函数和图片训练损失函数，得到模型训练损失函数；

37、第四处理子模块，用于根据所述模型训练损失函数对所述待训练的音乐专辑信息生成模型进行优化，当所述模型训练损失函数满足预设的损失函数阈值时，得到训练后的音乐专辑信息生成模型。

38、可选的，所述第二处理子模块，包括：

39、根据第i个文本在加噪过程的第t时刻预测的样本文本隐向量特征和第i个文本在加噪过程的第t-1时刻预测的样本文本隐向量特征，得到第i个文本在加噪过程的第t时刻预测的文本噪音值；根据所述第i个文本在加噪过程的第t时刻进行加噪处理时的文本噪音值和第i个文本在加噪过程的第t时刻预测的文本噪音值，得到所述文本训练损失函数；

40、根据第i个图片在加噪过程的第t时刻预测的样本图片隐向量特征和第i个图片在加噪过程的第t-1时刻预测的样本图片隐向量特征，得到第i个图片在加噪过程的第t时刻预测的图片噪音值；根据所述第i个图片在加噪过程的第t时刻进行加噪处理时的图片噪音值和第i个图片在加噪过程的第t时刻预测的图片噪音值，得到所述图片训练损失函数。

41、可选的，所述第一预测模块，包括：

42、第一加噪子模块，用于对所述样本图片隐向量特征进行加噪处理，得到加噪后的样本图片噪声分布数据；

43、第一去噪子模块，用于将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对所述样本图片噪声分布数据进行去噪处理，得到去噪后的预测的图片隐向量特征；

44、第一解码子模块，用于对所述预测的图片隐向量特征进行解码，得到样本音乐对应的预测的图片数据。

45、可选的，所述第一预测模块，包括：

46、第二加噪子模块，用于对所述样本文本隐向量特征进行加噪处理，得到加噪后的样本文本噪声分布数据；

47、第二去噪子模块，用于将所述样本音频隐向量特征和所述样本文本隐向量特征作为指导监督信号，对所述样本文本噪声分布数据进行去噪处理，得到去噪后的预测的文本隐向量特征；

48、第二解码子模块，用于对所述预测的文本隐向量特征进行解码，得到样本音乐对应的预测的文案文本数据。

49、第四方面，本技术实施例提供了一种音乐专辑信息生成装置，包括：

50、获取模块，用于获取目标音乐的音频数据；

51、第二预测模块，用于利用如第一方面中任一项所述的训练后的音乐专辑信息生成模型生成所述目标音乐对应的预测的音乐专辑信息；所述音乐专辑信息包括：文案文本数据和图片数据；

52、其中，所述训练后的音乐专辑信息生成模型对所述目标音乐执行以下处理：

53、对所述目标音乐的音频数据进行编码，得到目标音频隐向量特征；

54、对所述目标音频隐向量特征进行加噪处理、去噪处理以及解码，得到训练后的音乐专辑信息生成模型。

55、第五方面，本技术实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的音乐专辑信息生成模型的训练方法，或实现如第二方面中所述的音乐专辑信息生成方法中的步骤。

56、第六方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面中任一项所述的音乐专辑信息生成模型的训练方法，或实现如第二方面中所述的音乐专辑信息生成方法中的步骤。

57、第七方面，本技术实施例提供了一种计算机程序产品，其特征在于，包括计算机指令，该计算机指令被处理器执行时实现如第一方面中任一项所述的音乐专辑信息生成模型的训练方法，或实现如第二方面中所述的音乐专辑信息生成方法中的步骤。

58、在本技术中，通过对音乐专辑信息生成模型的训练，利用所述音乐专辑信息生成模型提取音乐专辑信息的隐向量特征；并利用加噪的方式映射到对应的文案文本隐向量空间，及对应的图片隐向量空间，使生成的文本和图片能更好地对应到给定音乐上，并通过交叉指导训练的方式，使得模型具有较强的鲁棒性，文案文本和图片的统一性得到加强；并最终可以基于用户指定音乐，生成音乐对应的文本文案及图片样本，方便用户自定义歌单以及智能专辑宣发材料的生成，缩短制作周期，降低制作成本，解决了现有的专辑制作的制作周期长，制作难度大的问题。