技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频生成方法、装置、终端及存储介质与流程 > 正文

音频生成方法、装置、终端及存储介质与流程

国知局
2024-06-21 11:36:32

本申请实施例涉及音频，特别涉及一种音频生成方法、装置、终端及存储介质。

背景技术：

1、随着终端技术的发展，音乐应用程序(如k歌软件)可以为用户提供歌曲演唱、歌曲录制等功能。

2、由于声音采集设备(如麦克风)在录制中产生的延迟，导致歌曲伴奏和录制歌声不同步。相关技术中，为将录制歌声与歌曲伴奏进行对齐，通常会对歌曲伴奏的音频特征和录制歌声中包含的录制伴奏的音频特征进行匹配，并将匹配度最高的两组音频特征之间的时间差作为时延。

3、然而，上述方式需要声音采集设备采集到伴奏才能实现，在用户戴耳机录制或者录制的伴奏质量不高的情况下，采用上述方式无法计算出准确的时延。

技术实现思路

1、本申请实施例提供了一种音频生成方法、装置、终端及存储介质。所述技术方案如下：

2、一方面，本申请实施例提供了一种音频生成方法，所述方法包括：

3、获取原始音频和录制音频，所述录制音频中包含录制人声，所述原始音频中包含原始人声和原始伴奏；

4、确定所述原始人声对应的原始人声时间戳，以及，所述录制人声对应的录制人声时间戳，其中，所述原始人声时间戳为所述原始人声中的歌词在所述原始音频中的时间戳，所述录制人声时间戳为所述录制人声中的歌词在所述录制音频中的时间戳；

5、基于所述原始人声时间戳和所述录制人声时间戳，确定所述录制人声相对于所述原始人声的人声时延；

6、基于所述人声时延对所述原始伴奏和所述录制人声进行对齐合成，生成演唱音频。

7、另一方面，本申请实施例提供了一种音频生成装置，所述装置包括：

8、音频获取模块，用于获取原始音频和录制音频，所述录制音频中包含录制人声，所述原始音频中包含原始人声和原始伴奏；

9、时间戳确定模块，用于确定所述原始人声对应的原始人声时间戳，以及，所述录制人声对应的录制人声时间戳，其中，所述原始人声时间戳为所述原始人声中的歌词在所述原始音频中的时间戳，所述录制人声时间戳为所述录制人声中的歌词在所述录制音频中的时间戳；

10、时延确定模块，用于基于所述原始人声时间戳和所述录制人声时间戳，确定所述录制人声相对于所述原始人声的人声时延；

11、音频生成模块，用于基于所述人声时延对所述原始伴奏和所述录制人声进行对齐合成，生成演唱音频。

12、另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的音频生成方法。

13、另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述方面所述的音频生成方法。

14、另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的音频生成方法。

15、本申请实施例中，基于原始人声时间戳和录制人声时间戳确定录制人声相对于原始人声的人声时延，可以在录制音频中不包含录制伴奏，或录制伴奏的质量不高的情况下计算出准确的人声时延，从而使得录制人声与原始伴奏同步，提升了演唱音频的质量。

技术特征：

1.一种音频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始人声时间戳和所述录制人声时间戳，确定所述录制人声相对于所述原始人声的人声时延，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述原始人声时间戳中提取第一时间戳子序列，以及从所述录制人声时间戳中提取第二时间戳子序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述原始人声时间戳和所述录制人声时间戳进行时间戳匹配，得到所述原始人声时间戳与所述录制人声时间戳之间的时间戳对应关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述损失矩阵，对所述原始人声时间戳和所述录制人声时间戳进行时间戳匹配，得到所述原始人声时间戳与所述录制人声时间戳之间的所述时间戳对应关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述原始人声时间戳中的时间戳或所述录制人声时间戳中的时间戳进行过滤，得到所述第一时间戳子序列和所述第二时间戳子序列，包括：

7.根据权利要求2所述的方法，其特征在于，所述基于所述第一时间戳子序列和所述第二时间戳子序列，确定所述录制人声相对于所述原始人声的所述人声时延之前，所述方法还包括：

8.根据权利要求2所述的方法，其特征在于，所述基于所述第一时间戳子序列和所述第二时间戳子序列，确定所述录制人声相对于所述原始人声的所述人声时延之前，所述方法还包括：

9.根据权利要求2所述的方法，其特征在于，所述基于所述第一时间戳子序列和所述第二时间戳子序列，确定所述录制人声相对于所述原始人声的所述人声时延，包括：

10.根据权利要求1所述的方法，其特征在于，所述确定所述原始人声对应的原始人声时间戳，以及，所述录制人声对应的录制人声时间戳，包括：

11.根据权利要求10所述的方法，其特征在于，在所述发音单元为所述歌词发音单元的子单元的情况下，所述基于所述第一概率和歌词发音单元，确定所述原始人声帧对应的歌词，包括：

12.根据权利要求11所述的方法，其特征在于，在所述歌词中存在同音字，且所述原始人声帧对应于至少两个歌词的情况下，所述基于所述第一概率和歌词发音单元，确定所述原始人声帧对应的歌词，包括：

13.一种音频生成装置，其特征在于，所述装置包括：

14.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至12任一所述的音频生成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至12任一项所述的音频生成方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；终端的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述终端执行如权利要求1至12任一项所述的音频生成方法。

技术总结本申请实施例公开了一种音频生成方法、装置、终端及存储介质，涉及音频技术领域。包括：获取原始音频和录制音频，录制音频中包含录制人声，原始音频中包含原始人声和原始伴奏；确定原始人声对应的原始人声时间戳，以及，录制人声对应的录制人声时间戳，其中，原始人声时间戳为原始人声中的歌词在原始音频中的时间戳，录制人声时间戳为录制人声中的歌词在录制音频中的时间戳；基于原始人声时间戳和录制人声时间戳，确定录制人声相对于原始人声的人声时延；基于人声时延对原始伴奏和录制人声进行对齐合成，生成演唱音频。采用本申请实施例的方法，可以生成伴奏和人声同步的演唱音频。技术研发人员：轩晓光,陈传艺,万景轩,张超钢,肖纯智受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/3/12