技术新讯 > 乐器声学设备的制造及制作,分析技术 > 歌词生成方法、歌词生成模型的训练方法、设备和介质与流程 > 正文

歌词生成方法、歌词生成模型的训练方法、设备和介质与流程

国知局
2024-06-21 11:41:05

本技术涉及人工智能，特别是涉及一种歌词生成方法、歌词生成模型的训练方法、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着计算机技术的发展，目前已经可以通过计算机设备进行音乐创作。音乐创作中需要进行歌词创作。目前基于计算机设备进行歌词创作，是通过指定歌词字数或关键词等方式，令计算机生成对应的歌词。然而，通过指定字数和关键词等方式生成歌词，难以生成符合创作者意愿歌词，导致歌词生成准确度下降。

2、因此，目前的歌词生成方法存在准确度低的缺陷。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高准确度的歌词生成方法、歌词生成模型的训练方法、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种歌词生成方法，所述方法包括：

3、获取歌词生成素材，所述歌词生成素材包括图像和预设文体的文本；

4、将所述图像和文本输入经训练的歌词生成模型，由所述歌词生成模型的特征处理模块提取所述图像的图像特征及提取所述文本的文本特征，并融合所述图像特征及文本特征得到融合特征，由所述歌词生成模型的歌词生成处理模块根据所述融合特征生成多组候选歌词文本，并获取所述各组候选歌词文本分别与所述歌词生成素材的匹配度，根据所述匹配度输出所述多组候选歌词文本中满足预设匹配度条件的候选歌词文本；

5、根据所述经训练的歌词生成模型输出的候选歌词文本，得到与所述歌词生成素材适配的目标歌词文本。

6、在其中一个实施例中，所述由所述歌词生成模型的特征处理模块提取所述图像的图像特征及提取所述文本的文本特征，包括：

7、由所述特征处理模块通过视觉几何组卷积神经网络对所述图像进行编码，得到所述图像对应的图像向量，作为所述图像特征；

8、通过双向门控循环单元神经网络提取所述文本对应的文本向量，作为所述文本特征。

9、在其中一个实施例中，所述通过双向门控循环单元神经网络提取所述文本对应的文本向量，作为所述文本特征，包括：

10、对所述文本进行分词，得到对应的多个词组；

11、根据所述多个词组生成词组序列，将所述词组序列输入双向门控循环单元神经网络，通过所述双向门控循环单元神经网络将所述词组序列中每个词组映射为词向量，并对包含多个词向量的词组序列进行编码处理，得到所述文本对应的文本向量。

12、在其中一个实施例中，所述歌词生成模型包括多层感知机；

13、所述融合所述图像特征及文本特征得到融合特征，包括：

14、将所述文本特征和图像特征进行拼接，将拼接后的特征输入所述多层感知机，通过所述多层感知机对所述拼接后的特征进行融合编码，得到对应的融合编码向量，作为所述融合特征。

15、在其中一个实施例中，所述歌词生成处理模块包括单向门控循环单元解码器；

16、所述由所述歌词生成模型的歌词生成处理模块根据所述融合特征生成多组候选歌词文本，包括：

17、将所述融合特征输入所述单向门控循环单元解码器，通过所述单向门控循环单元解码器对所述融合特征进行解码，得到多组候选歌词文本。

18、在其中一个实施例中，所述歌词生成处理模块还包括：双向门控循环单元编码器和多层感知机；

19、所述根据所述候选歌词文本与融合特征获取所述各组候选歌词文本分别与所述歌词生成素材的匹配度，根据所述匹配度输出所述多组候选歌词文本中满足预设匹配度条件的候选歌词文本，包括：

20、通过所述双向门控循环单元编码器获取所述多组候选歌词文本对应的多组候选歌词文本向量；

21、针对每组候选歌词文本向量，将该候选歌词文本向量与所述融合特征进行拼接处理，通过所述多层感知机基于拼接后的候选歌词文本向量和融合特征生成该候选歌词文本向量与所述歌词生成素材的匹配度；

22、将多个匹配度中数值最大的匹配度对应的候选歌词文本作为满足预设匹配度条件的候选歌词文本并输出。

23、在其中一个实施例中，所述通过所述双向门控循环单元编码器获取所述多组候选歌词文本对应的多组候选歌词文本向量，包括：

24、针对每组候选歌词文本，对该候选歌词文本进行分词，得到该候选歌词文本对应的候选词组序列；

25、将所述候选词组序列进行词向量映射，得到对应的候选词向量序列；

26、通过所述双向门控循环单元编码器对所述候选词向量序列进行编码，得到对应的候选歌词文本向量。

27、在其中一个实施例中，获取预设文体的文本的步骤包括：

28、检测到用户在文本输入区域输入的文本关键字时，根据所述文本关键字查询文本数据库，并展示所述文本关键字对应的多个候选文本；

29、响应于所述用户对所述多个候选文本中的目标文本的触发信息，将所述目标文本作为预设文体的文本。

30、第二方面，本技术提供了一种歌词生成模型的训练方法，所述方法包括：

31、获取歌词生成素材样本和对应的歌词样本，所述歌词生成素材样本包括预设文体的文本样本和图像样本；

32、将所述文本样本和图像样本输入待训练的歌词生成模型，由所述歌词生成模型的特征处理模块提取所述文本样本的文本特征和图像样本的图像特征，并融合所述文本特征和图像特征得到融合特征，由所述歌词生成模型的歌词生成处理模块根据所述融合特征生成多组候选歌词文本预测结果，并根据所述多组候选歌词文本预测结果与融合特征，获取各组候选歌词文本预测结果分别与所述歌词生成素材样本的匹配度，根据所述匹配度输出所述多组候选歌词文本预测结果中满足预设匹配度条件的歌词文本预测结果；

33、根据所述歌词文本预测结果与所述歌词生成素材样本的匹配度，调整所述待训练的歌词生成模型的模型参数，直至满足预设训练结束条件时，得到经训练的歌词生成模型；所述预设训练结束条件包括所述匹配度大于或等于第一预设阈值。

34、在其中一个实施例中，所述方法还包括：

35、获取预设文体的文本样本和对应的歌词样本；

36、将所述文本样本输入待训练的歌词生成处理模块，由所述歌词生成处理模块根据所述文本样本输出对应的歌词文本预测结果；

37、根据所述歌词文本预测结果与所述文本样本的匹配度，调整所述待训练的歌词生成处理模块的模型参数，直至满足预设训练结束条件时，得到经训练的歌词生成处理模块；所述预设训练结束条件包括所述匹配度大于或等于第二预设阈值。

38、第三方面，本技术提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

39、第四方面，本技术提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

40、第五方面，本技术提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

41、上述歌词生成方法、歌词生成模型的训练方法、计算机设备、存储介质和计算机程序产品，通过歌词生成模型的特征处理模块提取图像和预设文体的文本的特征后，将特征进行融合得到融合特征，由歌词生成处理模块基于融合特征生成多组候选歌词文本，根据候选歌词文本与歌词生成素材的匹配度输出其中满足预设匹配度条件的歌词文本，根据输出的歌词文本得到与图像和文本匹配的目标歌词文本。相较于传统的通过指定字数等方式生成歌词，本方案通过结合图像和预设文体的文本生成适配的歌词，从而满足和与图像和文本的气氛和情景相符的歌词，提高了生成的歌词的准确度。