技术新讯 > 乐器声学设备的制造及制作,分析技术 > 智能转谱模型训练方法、转谱方法、设备及介质与流程  >  正文

智能转谱模型训练方法、转谱方法、设备及介质与流程

  • 国知局
  • 2024-06-21 11:28:32

本发明涉及智能转谱,特别涉及一种智能转谱模型训练方法、转谱方法、设备及介质。

背景技术:

1、智能转谱技术是指通过分离出歌曲中的人声,并识别人声中的音高和音符的边界。智能转谱技术有着广泛的应用,尤其在aigc(artificial intelligence generatedcontent,人工智能生成内容)盛行的当下,智能转谱技术可以为歌声合成提供曲谱,减少人工转谱的成本。除此以外,智能转谱技术还能为k歌类游戏提供音高打分的依据。

2、现有的智能转谱算法直接通过频谱特征预测音高和音符边界信息,这种方式对于音符边界点的识别存在较大的优化空间。

3、为此,亟待一种智能转谱方法,以提高智能转谱过程中音符边界点识别的准确性。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种智能转谱模型训练方法、转谱方法、设备及介质,能够提高智能转谱的准确性,其具体方案如下:

2、第一方面,本技术公开了一种智能转谱模型训练方法,包括:

3、从样本音频中提取第一干声音频,并从所述第一干声音频中提取第一频谱特征,将所述第一频谱特征输入至预先训练完的目标语音识别模型,以通过所述目标语音识别模型输出所述第一干声音频的第一语义特征;

4、若所述第一频谱特征的第一特征维度与所述第一语义特征的第二特征维度不一致,则将所述第一特征维度和所述第二特征维度调整至相同的第一目标特征维度;

5、将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,并基于与若干个所述目标维度对应的所述若干个概率矩阵计算训练损失;

6、当所述训练损失不满足预设损失条件时,返回至所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标智能转谱模型。

7、可选的,所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,包括:

8、将所述第一频谱特征和所述第一语义特征输入至所述待训练智能转谱模型,以通过所述待训练智能转谱模型中的卷积循环神经网络分别输出与所述第一频谱特征对应的第一输出特征以及与所述第一语义特征对应的第二输出特征;

9、对所述第一输出特征和所述第二输出特征进行拼接得到拼接后特征,并将所述拼接后特征输入至所述待训练智能转谱模型中的全连接层,以通过所述全连接层输出与若干个目标维度对应的若干个概率矩阵。

10、可选的,所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,包括:

11、将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与四个维度对应的四个概率矩阵;

12、其中,所述四个概率矩阵分别包括若干帧所述第一干声音频在所述四个维度上的分类结果,第一个维度上的分类结果为每一帧所述第一干声音频是否为音符起始点或音符结束点的二分类结果,第二个维度上的分类结果为每一帧所述第一干声音频是否包含人声的二分类结果,第三个维度上的分类结果为人声八度的五分类结果,第四个维度上的分类结果为人声音高的十二分类结果。

13、可选的,所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,包括:

14、将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与三个维度对应的三个概率矩阵;

15、其中,所述三个概率矩阵分别包括若干帧所述第一干声音频在所述三个维度上的分类结果,第一个维度上的分类结果为每一帧所述第一干声音频是否为音符起始点或音符结束点的二分类结果,第二个维度上的分类结果为人声八度的六分类结果,第三个维度上的分类结果为人声音高的十三分类结果;所述六分类结果中的其中一个分类结果以及所述十三分类结果中的其中一个分类结果为每一帧所述第一干声音频中是否包含人声的分类结果。

16、可选的,所述第一频谱特征包括梅尔频谱特征或cqt频谱特征。

17、第二方面,本技术公开一种转谱方法,基于前述所述的智能转谱模型训练方法训练得到的目标智能转谱模型,包括:

18、从待转谱音频中提取第二干声音频,并从所述第二干声音频中提取第二频谱特征,将所述第二频谱特征输入至预先训练完的目标语音识别模型,以通过所述目标语音识别模型输出所述第二干声音频的第二语义特征;

19、若所述第二频谱特征的第三特征维度与所述第二语义特征的第四特征维度不一致,则将所述第三特征维度和所述第四特征维度调整至相同的第二目标特征维度;

20、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱。

21、可选的,所述将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱,包括:

22、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与第一个维度对应的第一个概率矩阵确定每一帧所述第二干声音频为音符起始点或音符结束点的概率;

23、将符合第一目标判别规则的第一目标帧所述第二干声音频确定为所述音符起始点或所述音符结束点;

24、其中,所述第一目标判别规则包括:所述第一目标帧的前若干帧所述第二干声音频以及所述第一目标帧的后若干帧所述第二干声音频为所述音符起始点或所述音符结束点的概率小于所述第一目标帧为所述音符起始点或所述音符结束点的概率,并且所述第一目标帧为所述音符起始点或所述音符结束点的概率大于第一预设概率。

25、可选的,所述将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱,包括:

26、将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与第二个维度对应的第二个概率矩阵确定所述音符起始点与所述音符结束点之间的每一帧所述第二干声音频中包含人声的概率;

27、将符合第二目标判别规则的第二目标帧所述第二干声音频确定为包含人声的所述第二干声音频;其中,所述第二目标判别规则包括:所述第二目标帧所述第二干声音频中包含人声的概率大于第二预设概率。

28、第三方面,本技术公开了一种智能转谱模型训练装置,包括:

29、样本音频特征提取模块,用于从样本音频中提取第一干声音频,并从所述第一干声音频中提取第一频谱特征,将所述第一频谱特征输入至预先训练完的目标语音识别模型,以通过所述目标语音识别模型输出所述第一干声音频的第一语义特征;

30、样本音频特征维度调整模块,用于若所述第一频谱特征的第一特征维度与所述第一语义特征的第二特征维度不一致,则将所述第一特征维度和所述第二特征维度调整至相同的第一目标特征维度;

31、模型训练模块,用于将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,并基于与若干个所述目标维度对应的所述若干个概率矩阵计算训练损失;当所述训练损失不满足预设损失条件时,返回至所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标智能转谱模型。

32、第四方面,本技术公开了一种转谱装置,基于前述所述的智能转谱模型训练方法训练得到的目标智能转谱模型,包括:

33、待转谱音频特征提取模块,用于从待转谱音频中提取第二干声音频,并从所述第二干声音频中提取第二频谱特征,将所述第二频谱特征输入至预先训练完的目标语音识别模型,以通过所述目标语音识别模型输出所述第二干声音频的第二语义特征;

34、待转谱音频特征维度调整模块,用于若所述第二频谱特征的第三特征维度与所述第二语义特征的第四特征维度不一致,则将所述第三特征维度和所述第四特征维度调整至相同的第二目标特征维度;

35、智能转谱模块,用于将所述第二频谱特征和所述第二语义特征输入至所述目标智能转谱模型,以通过所述目标智能转谱模型输出的与若干个目标维度对应的若干个概率矩阵完成对所述待转谱音频的智能转谱。

36、第五方面,本技术公开了一种电子设备,包括:

37、存储器,用于保存计算机程序;

38、处理器,用于执行所述计算机程序,以实现前述公开的方法。

39、第六方面,本技术公开了一种计算机可读存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的方法。

40、可见,本技术提供了一种智能转谱模型训练方法,包括:从样本音频中提取第一干声音频,并从所述第一干声音频中提取第一频谱特征,将所述第一频谱特征输入至预先训练完的目标语音识别模型,以通过所述目标语音识别模型输出所述第一干声音频的第一语义特征;若所述第一频谱特征的第一特征维度与所述第一语义特征的第二特征维度不一致,则将所述第一特征维度和所述第二特征维度调整至相同的第一目标特征维度;将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型,以通过所述待训练智能转谱模型输出与若干个目标维度对应的若干个概率矩阵,并基于与若干个所述目标维度对应的所述若干个概率矩阵计算训练损失;当所述训练损失不满足预设损失条件时,返回至所述将所述第一频谱特征和所述第一语义特征输入至待训练智能转谱模型的步骤,直至得到所述训练损失满足所述预设损失条件的目标智能转谱模型。

41、本技术的有益效果在于:本技术在智能转谱的过程中融合了第一语义特征和第一频谱特征,由于音符边界点往往是音高的跳变点或字跳变点,因此,本技术中的模型可以充分地利用第一语义特征和第一频谱特征来预测音符边界信息,如此一来,提高了智能转谱的准确性。进一步的,为了防止第一频谱特征的第一特征维度和第一语义特征的第二特征维度不一致,从而导致第一语义特征和第一频谱特征无法被模型同等的学习,本技术在第一频谱特征和第一语义特征的特征维度不匹配的情况下,将第一频谱特征和第一语义特征调整至相同的特征维度,使得第一频谱特征和第一语义特征可以同等的被模型学习,如此一来,进一步提高了智能转谱的准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21719.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。