一种基于大型预训练语言模型的音乐生成方法
- 国知局
- 2024-06-21 11:26:11
本发明涉及语言处理,尤其涉及一种基于大型预训练语言模型的音乐生成方法。
背景技术:
1、基于深度学习的旋律生成研究已经取得了许多值得关注的成果。目前,越来越多的研究采用自然语言处理(nlp)中的语言模型来生成旋律。用于生成长期连贯旋律的专用架构已经出现,包括有效的注意力机制、增强型记忆网络和大规模深度神经网络。同时,midi的各种符号音乐表示方法也有助于模型更好地学习旋律生成中的长距离依赖关系。此外,最近的研究利用了基于深度学习的分层生成策略。这些策略首先生成旋律的分层音乐结构表示,小节级音乐结构关系图。然而,在自然语言处理方面最先进的大型预训练语言模型在这种情况下在很大程度上被忽视了。
技术实现思路
1、针对现有技术中存在的缺陷或不足,本发明所要解决的技术问题是:提供一种基于大型预训练语言模型的音乐生成方法。
2、为了实现上述目的,本发明采取的技术方案为提供一种于大型预训练语言模型的音乐生成方法,包括以下具体步骤:
3、通过使用数千个旋律midi文件对gpt-3进行微调,然后使用微调后的模型来进行旋律生成;
4、将旋律编码为符号序列;
5、使用gpt-3微调数据的字符串进行表示;
6、通过调整微调数据格式从左至右依次生成的序列方法和基于深度分层策略方法;
7、使用了公共可用的数据集wikifonia和上述生成方法验证大型预训练语言模型在旋律生成方面的能力;
8、通过计算训练数据和生成的音乐的相似度分布之间的误差,以评估模型生成具有真实结构的音乐的能力,
9、作为本发明的进一步改进,所述符号包括五种符号:小节、位置、音符、和弦和节奏,对于小节和位置,使用小节符号来表示小节线,使用位置符号来表示音符或和弦事件的开始,并使用混合精度时间量化,综合了直音符、三连音音符以及midi文件的时间分辨率,具体时间量化为{0,30,60,...,1890}∪{0,40,80,...,1880})的合集,并使用<pos_value>符号来表示96各种起始位置;
10、对于音符,音高的范围为48(c3)到83(c5),音符力度的范围为0~127,音符时值范围为{30,60,90,...,1920}∪{40,80,160,320,640}的合集;
11、使用复合词<pitch_value、velocity_value、duration_value>将一个音符的这三个属性压缩为一个标记;
12、作为本发明的进一步改进,gpt-3微调数据的字符串是一个多行字符串,其中每行由三个以空格分隔的数字字符组成,从左到右分别代表事件符号、速度和持续时间;当事件符号不是音符时,力度和持续时间由字符“0”表示,多行字符串按照小节事件线、位置事件线和音符事件线的顺序排列;在每个度量的末尾添加一个换行符“sep”,并在每个度量的末尾添加另一个换行符“end”。
13、作为本发明的进一步改进,序列方法:对于序列方法,在训练阶段,我们将前4个措施设置为提示,将其余措施设置为完成,在测试阶段,为模型提供测试集中旋律的前4个小节作为输入,并生成其余部分,与nlp中的文本生成类似,该模型可以在任意数量的小节处停止,具体取决于其对旋律符号的理解;
14、基于深度分层策略方法:首先生成旋律骨架,然后对旋律骨架进行修复得到完整的旋律,对于旋律骨架的生成,在训练阶段,我们将旋律骨架的前4个小节设置为输入,其余小节设置为完成,在测试阶段,为模型提供测试集中旋律骨架的前4个小节作为输入,并生成其余部分;对于旋律骨架修复,在训练阶段,使用原始节奏骨架作为提示,并使用相应的旋律作为完成,在测试阶段,使用原始节奏骨架和微调模型生成的节奏骨架进行评估,提供节奏骨架的前24个小节作为提示
15、作为本发明的进一步改进,数据预处理方法来清理噪声数据并纠正手动注释的错误,仅保留了4/4拍号的旋律,使用了混合精度时间量化网络强制对其midi文件,将这些midi文件的音调转换为“c大调”和“a小调”音调,并对所有旋律都应用八度音阶变调,将音高移至从c3到c5的范围内,经过预处理后,训练集由2888首旋律组成,测试集由随机选择的50首旋律组成。
16、作为本发明的进一步改进,使用了序列生成方法,同时对仅使用500条旋律数据进行微调和使用全部旋律数据进行微调的效果进行了对比,然后,我们使用了深度分层方法,先微调gpt3生成旋律骨架,随后微调gpt3进行旋律骨架修复,在修复阶段,测试了使用原始旋律骨架和使用生成的旋律骨架的效果。
17、作为本发明的进一步改进,对于训练集中的每首歌曲,计算每对小节之间的相似度,其定义为:
18、
19、其中n(i)是第i个小节内的音符序列,当两个音符的音高、持续时间和小节内的开始位置都相同时,则认为两个音符相等,li,j的取值范围是0.0到1.0,如果两个小节完全相同,则该值等于1.0,然后,计算训练集d上间隔为t的小节对的平均相似度,其公式为:
20、
21、生成的旋律集和测试集的相似性误差被定义为:
22、
23、我们在实验中设置t=32,是根据每个模型生成的50首音乐片段计算的。
24、本发明的有益效果是:本发明基于在庞大文本语料库上预训练的大型语言模型gpt-3,通过使用数千个旋律midi文件对gpt-3进行微调,然后使用微调后的模型来生成旋律。该方法的主要优点如下:
25、(1)算法可以学习旋律的长期依赖结构,并生成富有长期结构和音乐性的音乐;
26、(2)算法可以通过调整微调数据格式,模拟不同的旋律生成方法;
27、(3)算法允许仅使用较少的数据,可以生成类似风格的旋律。
技术特征:1.一种基于大型预训练语言模型的音乐生成方法,其特征在于,包括以下具体步骤:
2.根据权利要求1所述的,其特征在于:所述符号包括五种符号:小节、位置、音符、和弦和节奏,
3.根据权利要求2所述的,其特征在于:gpt-3微调数据的字符串是一个多行字符串,其中每行由三个以空格分隔的数字字符组成,从左到右分别代表事件符号、速度和持续时间;当事件符号不是音符时,力度和持续时间由字符“0”表示,多行字符串按照小节事件线、位置事件线和音符事件线的顺序排列;在每个度量的末尾添加一个换行符“sep”,并在每个度量的末尾添加另一个换行符“end”。
4.根据权利要求2所述的,其特征在于:
5.根据权利要求2所述的,其特征在于:数据预处理方法来清理噪声数据并纠正手动注释的错误,仅保留了4/4拍号的旋律,使用了混合精度时间量化网络强制对其midi文件,将这些midi文件的音调转换为“c大调”和“a小调”音调,并对所有旋律都应用八度音阶变调,将音高移至从c3到c5的范围内,经过预处理后,训练集由2888首旋律组成,测试集由随机选择的50首旋律组成。
6.根据权利要求2所述的,其特征在于:使用了序列生成方法,同时对仅使用500条旋律数据进行微调和使用全部旋律数据进行微调的效果进行了对比,然后,我们使用了深度分层方法,先微调gpt3生成旋律骨架,随后微调gpt3进行旋律骨架修复,在修复阶段,测试了使用原始旋律骨架和使用生成的旋律骨架的效果。
7.根据权利要求2所述的,其特征在于:
技术总结本发明涉及语言处理技术领域,尤其涉及一种基于大型预训练语言模型的音乐生成方法。通过使用数千个旋律MIDI文件对GPT‑3进行微调,然后使用微调后的模型来进行旋律生成。该方法的主要优点如下:(1)算法可以学习旋律的长期依赖结构,并生成富有长期结构和音乐性的音乐;(2)算法可以通过调整微调数据格式,模拟不同的旋律生成方法;(3)算法允许仅使用较少的数据,可以生成类似风格的旋律。技术研发人员:周廉与,王明江受保护的技术使用者:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)技术研发日:技术公布日:2024/2/6本文地址:https://www.jishuxx.com/zhuanli/20240618/21513.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
评测方法、评测装置与流程
下一篇
返回列表