基于扩散模型的音乐音色风格转换方法及系统与流程
- 国知局
- 2024-06-21 11:26:30
本发明涉及音乐风格转换,更具体的,涉及一种基于扩散模型的音乐音色风格转换方法及系统。
背景技术:
1、风格迁移是改变图像、视频、音乐剪辑或音乐作品的风格以便匹配给定示例的风格的过程。图像风格转移和音频风格转移最根本区别在于,目标风格不再是从一个或者少数几个示例中转移而来,而是通常从大型数据库中学习。音乐风格转移的发展不如图像风格转移的发展快,是因为音乐风格是一个相当模糊的术语,其范围可以从组合特征到声学特征,这与图像表示非常不同。
2、音乐风格迁移指的是将音乐从一种流派转移到另一种流派,可以根据个人音乐品味的主观性,产生用户偏好的音乐,用于车载音响系统缓解用户在如堵车情况下产生烦躁情绪。进行音乐风格转移需要从复杂的数据中提取特征,一般使用变分自动编码器vae和生成对抗网络gan深度学习模型。但是变分自编码器vae由于搜索空间过大,需要寻找同时适配的条件分布和变分后验是很困难的;而gan由于需要生成器损失器之间进行博弈,因此损失函数之间的平衡可能在训练期间不断发生变化,不太容易预测,因此会导致训练不稳定、训练耗时以及生成效果不好等问题。
技术实现思路
1、为了解决上述技术问题,本发明提出了一种基于扩散模型的音乐音色风格转换方法及系统。
2、本发明第一方面提供了一种基于扩散模型的音乐音色风格转换方法,包括:
3、构建潜在扩散模型,获取输入文本信息,将所述文本信息进行标记化及参数化处理,获取与风格音乐对应的嵌入向量;
4、在所述潜在扩散模型中引入交叉注意力机制的学习方法,获取风格音乐的关键信息,并给出学习的对应文本嵌入向量,对所述潜在扩散模型进行训练,输出符合预设标准的潜在扩散模型;
5、获取目标内容音乐,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,生成以输入文本为条件的编码后的新音乐。
6、本方案中,将所述文本信息进行标记化及参数化处理,具体为:
7、获取潜在扩散模型的输入文本信息,将所述输入文本信息转化为令牌,通过索引定位将令牌与不同的嵌入向量相关联;
8、基于音乐概念设置占位符,并将对应的标记化文本嵌入为可学习的向量,获取风格音乐对应的嵌入向量,作为风格音乐从文本到音乐的中间表征。
9、本方案中,在所述潜在扩散模型中引入交叉注意力机制的学习方法,具体为:
10、在潜在扩散模型中通过编码器进行音乐嵌入,将输入文本信息进行投影嵌入,实现将高维数据编码到低维潜在空间,利用交叉注意力机制获取每个注意力层中嵌入向量的注意力权重;
11、通过所述注意力权重获取风格音乐的关键信息,根据所述关键信息进行训练,在训练过程中通过文本信息对应的文本嵌入向量进行调节,并在每个交叉注意层应用丢弃策略,避免模型过拟合。
12、本方案中,获取与风格音乐对应的嵌入向量,具体为:
13、;
14、其中,表示每段音乐的噪声版本,表示输入噪声,表示风格音乐,表示扩散步数,表示编码器将风格音乐投影的嵌入,表示期望,表示编码器,表示独立随机变量,。
15、本方案中,以输入的文本信息为条件,通过对随机噪声进行去噪处理,得到一系列潜码,并最终提供与风格音乐相对应的潜码;
16、根据所述潜码作为输入进行潜在扩散模型的随机反演,根据加噪后的风格音乐潜码进行潜在扩散模型的重参数处理。
17、本方案中,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,具体为:
18、在潜在扩散模型的前向过程中利用余弦式噪声策略将随机噪声逐步添加至目标内容音乐中,随机选择扩散步数,获取目标内容音乐加噪过程中各步骤噪声对应的均值及方差;
19、当所述均值及方差符合预设真值标准时,完成目标内容音乐的加噪过程,将加噪后的目标内容音乐导入unet网络,进行解码去噪,生成目标内容音乐与风格音乐的合成结果。
20、本发明第二方面还提供了一种基于扩散模型的音乐音色风格转换系统,该系统包括:存储器、处理器,所述存储器中包括基于扩散模型的音乐音色风格转换方法程序,所述基于扩散模型的音乐音色风格转换方法程序被所述处理器执行时实现如下步骤:
21、构建潜在扩散模型,获取输入文本信息,将所述文本信息进行标记化及参数化处理,获取与风格音乐对应的嵌入向量;
22、在所述潜在扩散模型中引入交叉注意力机制的学习方法,获取风格音乐的关键信息,并给出学习的对应文本嵌入向量,对所述潜在扩散模型进行训练,输出符合预设标准的潜在扩散模型;
23、获取目标内容音乐,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,生成以输入文本为条件的编码后的新音乐。
24、本发明公开了基于扩散模型的音乐音色风格转换方法及系统,包括:构建潜在扩散模型,获取输入文本信息进行标记化及参数化处理,获取与风格音乐对应的嵌入向量;在潜在扩散模型中引入交叉注意力机制的学习方法,获取风格音乐的关键信息,并给出学习的对应文本嵌入向量,通过训练输出符合预设标准的潜在扩散模型;获取目标内容音乐,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,生成以输入文本为条件的编码后的新音乐。本发使用潜在扩散模型来进行音乐音色风格迁移,扩散模型训练目标函数简单,并且不需要训练别的网络(判别器等),而扩散模型损失函数通常会在训练期间逐渐减小,容易跟踪;直接从风格音乐中学习艺术风格,然后指导合成,能够高效、准确地学习音乐中的关键信息,从而捕捉和转换音乐的流派风格。将本发明的音乐音色风格转换方法迁移应用到车载音频系统中,能够提升用户驾车体验感;另外,利用音乐风格迁移模型来生成治疗音乐,治疗音乐在减轻焦虑方面取得了较好的成果。
技术特征:1.一种基于扩散模型的音乐音色风格转换方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于扩散模型的音乐音色风格转换方法,其特征在于,将所述文本信息进行标记化及参数化处理,具体为:
3.根据权利要求1所述的一种基于扩散模型的音乐音色风格转换方法,其特征在于,在所述潜在扩散模型中引入交叉注意力机制的学习方法,具体为:
4.根据权利要求3所述的一种基于扩散模型的音乐音色风格转换方法,其特征在于,获取与风格音乐对应的嵌入向量,具体为:
5.根据权利要求1所述的一种基于扩散模型的音乐音色风格转换方法,其特征在于,以输入的文本信息为条件,通过对随机噪声进行去噪处理,得到一系列潜码,并最终提供与风格音乐相对应的潜码;
6.根据权利要求1所述的一种基于扩散模型的音乐音色风格转换方法,其特征在于,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,具体为:
7.一种基于扩散模型的音乐音色风格转换系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于扩散模型的音乐音色风格转换方法程序,所述基于扩散模型的音乐音色风格转换方法程序被所述处理器执行时实现如下步骤:
8.根据权利要求7所述的一种基于扩散模型的音乐音色风格转换系统,其特征在于,在所述潜在扩散模型中引入交叉注意力机制的学习方法,具体为:
9.根据权利要求8所述的一种基于扩散模型的音乐音色风格转换系统,其特征在于,获取与风格音乐对应的嵌入向量,具体为:
10.根据权利要求7所述的一种基于扩散模型的音乐音色风格转换系统,其特征在于,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,具体为:
技术总结本发明公开了基于扩散模型的音乐音色风格转换方法及系统,包括:构建潜在扩散模型,获取输入文本信息进行标记化及参数化处理,获取与风格音乐对应的嵌入向量;在潜在扩散模型中引入交叉注意力机制的学习方法,获取风格音乐的关键信息,并给出学习的对应文本嵌入向量,通过训练输出符合预设标准的潜在扩散模型;获取目标内容音乐,通过潜在扩散模型将随机噪声添加至所述目标内容音乐,并利用潜在扩散模型的反向过程进行去噪,生成以输入文本为条件的编码后的新音乐。本发使用潜在扩散模型来进行音乐音色风格迁移,直接从风格音乐中学习艺术风格,然后指导合成,能够高效、准确地学习音乐中的关键信息,从而捕捉和转换音乐的流派风格。技术研发人员:秦先清,徐婉微,何志辉受保护的技术使用者:广州市车厘子电子科技有限公司技术研发日:技术公布日:2024/2/6本文地址:https://www.jishuxx.com/zhuanli/20240618/21544.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。