技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种说唱歌曲合成方法、装置、电子设备和存储介质与流程 > 正文

一种说唱歌曲合成方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:38:44

本发明涉及歌曲合成，具体涉及一种说唱歌曲合成方法、装置、电子设备和存储介质。

背景技术：

1、目前，说唱歌曲合成根据已存在的歌曲乐谱进行合成，由于需要乐谱，要求较高，可用性不强。并且只能使用固定的旋律和伴奏。

技术实现思路

1、本发明提供一种说唱歌曲合成方法、装置、电子设备和存储介质，能够解决上述技术问题。

2、第一方面，本发明实施例提供一种说唱歌曲合成方法，包括：

3、训练时长模型和合成模型；

4、获取待合成说唱歌曲的文本，解析文本得到音素信息；

5、将音素信息进行停顿处理得到处理停顿后的信息；

6、将处理停顿后的信息送入时长模型，得到每个音素的时长信息；然后送入合成模型，得到合成说唱语音。

7、进一步地，上述一种说唱歌曲合成方法中，训练时长模型包括：

8、获取说唱歌曲数据库，数据库中包括：文本语音对；

9、以音素为单位，对文本和语音进行对齐，得到每个音素的起止时间信息；

10、以音素为输入，音素的时长作为输出，训练时长模型。

11、进一步地，上述一种说唱歌曲合成方法中，训练合成模型包括：

12、获取说唱歌曲数据库，数据库中包括：文本语音对；

13、以音素为单位，对文本和语音进行对齐，得到每个音素的起止时间信息；

14、从语音里提取声学参数；

15、以音素为输入，声学参数作为输出，训练合成模型。

16、进一步地，上述一种说唱歌曲合成方法中，将音素信息进行停顿处理得到处理停顿后的信息，包括如下三个步骤：

17、步骤一：从第10个音素开始，以5个韵母为第一组，从第一组的末尾开始，往后滑动15个音素，然后再以5个韵母为下一组，找两组之间相同的韵母，如果找到，则在两组对应的韵母后面插入停顿；

18、步骤二：从第二组的末尾开始，往后滑动15个音素，得到下一组，再找两组之间相同的韵母，如果找到，在两组对应的韵母后面插入停顿，如果找到多个相同的，则优先选择上一次找出的韵母；

19、步骤三：重复步骤一到步骤二，直到文本末尾得到处理停顿后的信息。

20、进一步地，上述一种说唱歌曲合成方法，还包括：

21、将待合成说唱歌曲的文本中原始的停顿以预设百分比的概率进行去除。

22、进一步地，上述一种说唱歌曲合成方法，还包括：

23、计算合成说唱语音的音高和时长；

24、将音高和时长转换为音乐；

25、将音乐作为背景音乐，与合成说唱语音混合在一起，得到含有背景音乐的说唱歌曲。

26、进一步地，上述一种说唱歌曲合成方法，计算合成说唱语音的音高和时长，包括：

27、从合成说唱语音中提取基频信息；

28、根据音素时长信息，得到每个字的起止边界以及时长d；

29、根据基频信息，计算出每个字的平均基频信息f0；

30、根据字的基频信息，计算字对应的音高；

31、其中，计算字对应的音高是通过以下公式计算的：

32、

33、其中，p表示简谱信息中标注的音高与中央c上a音符的音高，音高的单位为半音；f0表示每个字的平均基频信息；440表示中央c上a音符发出的频率，单位为hz。

34、第二方面，本发明实施例还提供一种说唱歌曲合成装置，包括：

35、训练模块：用于训练时长模型和合成模型；

36、获取模块和解析模块：用于获取待合成说唱歌曲的文本，解析文本得到音素信息；

37、停顿处理模块：用于将音素信息进行停顿处理得到处理停顿后的信息；

38、得到模块：用于将处理停顿后的信息送入时长模型，得到每个音素的时长信息；然后送入合成模型，得到合成说唱语音。

39、第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

40、处理器通过调用存储器存储的程序或指令，用于执行如上任一项一种说唱歌曲合成方法。

41、第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，程序或指令使计算机执行如上任一项一种说唱歌曲合成方法。

42、本发明的有益效果是：本发明通过训练时长模型和合成模型；获取待合成说唱歌曲的文本，解析文本得到音素信息；将音素信息进行停顿处理得到处理停顿后的信息；将处理停顿后的信息送入时长模型，得到每个音素的时长信息；然后送入合成模型，得到合成说唱语音。本发明通过使用说唱歌曲库训练得到时长模型和合成模型，合成时，解析待合成说唱歌曲的文本得到音素信息，对音素信息进行停顿处理得到押韵的停顿方式，停顿后的待合成说唱歌曲的文本通过时长模型和合成模型得到合成说唱歌曲，不仅摆脱了对原始歌词和乐谱的高要求，而且提升了合成说唱歌曲的自然度和节奏感。

技术特征：

1.一种说唱歌曲合成方法，其特征在于，包括：

2.根据权利要求1所述的一种说唱歌曲合成方法，其特征在于，所述训练时长模型包括：

3.根据权利要求1所述的一种说唱歌曲合成方法，其特征在于，所述训练合成模型包括：

4.根据权利要求1所述的一种说唱歌曲合成方法，其特征在于，所述将所述音素信息进行停顿处理得到处理停顿后的信息，包括如下三个步骤：

5.根据权利要求4所述的一种说唱歌曲合成方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的一种说唱歌曲合成方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的一种说唱歌曲合成方法，其特征在于，所述计算合成说唱语音的音高和时长，包括：

8.一种说唱歌曲合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种说唱歌曲合成方法。

技术总结本发明涉及一种说唱歌曲合成方法、装置、电子设备和存储介质，该方法包括：训练时长模型和合成模型；获取待合成说唱歌曲的文本，解析文本得到音素信息；将音素信息进行停顿处理得到处理停顿后的信息；将处理停顿后的信息送入时长模型，得到每个音素的时长信息；然后送入合成模型，得到合成说唱语音。本发明通过使用说唱歌曲库训练得到时长模型和合成模型，合成时，解析待合成说唱歌曲的文本得到音素信息，对音素信息进行停顿处理得到押韵的停顿方式，停顿后的待合成说唱歌曲的文本通过时长模型和合成模型得到合成说唱歌曲，不仅摆脱了对原始歌词和乐谱的高要求，而且提升了合成说唱歌曲的自然度和节奏感。技术研发人员：孙见青,梁家恩受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/3/24