技术新讯 > 乐器声学设备的制造及制作,分析技术 > 来自人类音频的生成音乐的制作方法 > 正文

来自人类音频的生成音乐的制作方法

国知局
2024-06-21 11:32:23

本公开涉及根据人类发出的声音来生成多层次音乐。

背景技术：

1、音乐创作通常限于那些在歌唱和/或乐器领域接受过音乐训练的人，且通常需要多位有才华的音乐家和大量编辑才能产生高质量的音乐。因此，音乐合成器变得越来越流行，所述音乐合成器允许用户生成与乐器数字接口(musical instrument digitalinterface，midi)兼容的乐器录音，而无需人类音乐家实际演奏乐器。然而，这种合成器仍然需要大量的训练，这是因为该合成器可能是复杂且昂贵的，并且需要一些音乐训练或经验。此外，与midi兼容的乐器录音需要诸如通过输入乐谱或在键盘上演奏所需的录音而手动生成，然后将该乐器录音转换成特定的乐器。

技术实现思路

1、根据本公开的一些实施例，提供了一种用于根据人类发出的声音生成多层次音乐的方法。该方法包括：接收人类发出的声音的原始音频表示；接收一个或多个用户引导，该一个或多个用户引导指定多层次音乐的期望特性；通过编码原始音频表示来生成离散表示序列；将离散表示序列转换成彼此维度相同的嵌入的序列，该嵌入的序列是值的矢量；应用机器学习模型，以基于该嵌入的序列和该一个或多个用户引导来产生预测嵌入的序列；基于预测嵌入的序列来生成与多个乐器对应的乐器专用代码序列；以及通过基于一个或多个用户引导将乐器专用代码序列转换成乐器专用音频波形，来产生多层次音乐。

技术特征：

1.一种用于根据人类发出的声音生成多层次音乐的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，所述预测嵌入的序列是在所述原始音频表示被完全接收之后而产生的。

3.根据权利要求1所述的方法，其中，在所述人类发出的声音的原始音频表示的第二部分被接收之前，所述人类发出的声音的原始音频表示的第一部分被接收，并且所述预测嵌入的序列中的多个预测嵌入中的对应部分被生成。

4.根据权利要求3所述的方法，其中，通过将神经网络应用于原始音频来产生所述预测嵌入的序列中的下一预测嵌入，所述原始音频在所述预测嵌入的序列中的上一预测嵌入之后被接收。

5.根据权利要求1所述的方法，其中，所述机器学习模型为长短期记忆lstm网络。

6.根据权利要求1所述的方法，其中，所述乐器专用代码序列是经由mel谱图而被转换成所述乐器专用音频波形的。

7.根据权利要求1所述的方法，其中，所述原始音频表示是第一原始音频表示，所述离散表示序列是第一离散表示序列，所述嵌入的序列是第一嵌入的序列，并且其中，所述方法还包括：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有多个指令，所述多个指令在被计算系统执行时，使得所述计算系统执行用于根据人类发出的声音生成多层次音乐的过程，所述过程包括：

9.根据权利要求8所述的计算机可读存储介质，其中，所述过程还包括：

10.根据权利要求8所述的计算机可读存储介质，其中，所述预测嵌入的序列是在所述原始音频表示被完全接收之后而产生的。

11.根据权利要求8所述的计算机可读存储介质，其中，在所述人类发出的声音的原始音频表示的第二部分被接收之前，所述人类发出的声音的原始音频表示的第一部分被接收，并且所述预测嵌入的序列中的多个预测嵌入中的对应部分被生成。

12.根据权利要求11所述的计算机可读存储介质，其中，通过将神经网络应用于原始音频来产生所述预测嵌入的序列中的下一预测嵌入，所述原始音频在所述预测嵌入的序列中的上一预测嵌入之后被接收。

13.根据权利要求8所述的计算机可读存储介质，其中，所述机器学习模型是长短期记忆(lstm)网络。

14.根据权利要求8所述的计算机可读存储介质，其中，所述乐器专用代码序列是经由mel谱图而被转换成所述乐器专用音频波形的。

15.根据权利要求8所述的计算机可读存储介质，其中，所述嵌入的序列是值的矢量。

16.一种用于根据人类发出的声音生成多层次音乐的计算系统，所述计算系统包括：

17.根据权利要求16所述的计算系统，其中，所述过程还包括：

18.根据权利要求16所述的计算系统，其中，所述预测嵌入的序列是在所述原始音频表示被完全接收之后而产生的。

19.根据权利要求16所述的计算系统，其中，在所述人类发出的声音的原始音频表示的第二部分被接收之前，所述人类发出的声音的原始音频表示的第一部分被接收，并且所述预测嵌入的序列中的多个预测嵌入中的对应部分被生成。

20.根据权利要求16所述的计算系统，其中，所述嵌入的序列是值的矢量。

技术总结该技术可以使用音乐生成平台来提取原始音频，以基于用户引导来生成多层次音乐。各实施方式可以应用编码器来获取原始音频并生成离散表示序列。然后，各实施方式可以将离散表示序列输入到嵌入层，该嵌入层将离散表示序列转换成多个、维度相同的嵌入的序列，将该多个嵌入的序列相加以形成单个序列。可以将相加嵌入的序列提供给神经网络，该神经网络产生用于多种乐器的预测嵌入的序列，然后由编码器层使用该预测嵌入的序列来生成乐器专用代码序列。各实施方式可以将乐器专用代码序列输入到解码器，该解码器也可以接收用户引导，并将乐器专用代码序列转换成Mel谱图，然后转换成乐器专用音频波形。技术研发人员：大卫·康德,菲利普·伍兹,亚历山大·杜普伊斯,普赖特·普拉舒·贾因,西达斯·斯里尼瓦桑,罗德·亚历山大·杜埃尼斯受保护的技术使用者：元平台公司技术研发日：技术公布日：2024/3/4