技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频数据集的生成方法、装置、设备、存储介质及产品与流程 > 正文

音频数据集的生成方法、装置、设备、存储介质及产品与流程

国知局
2024-06-21 11:36:32

本申请实施例涉及数据处理，特别涉及一种音频数据集的生成方法、装置、设备、存储介质及产品。

背景技术：

1、语音合成技术是一种通过语音合成模型将文字转换为语音音频的技术。语音合成模型需要通过音频时长超过10小时的音频数据集来进行训练，训练完成的语音合成模型能够准确的将文字合成为高音质、高自然度的音频。

2、相关技术中，对于音频数据集的生成，往往是通过人工录制和人工校对的方式进行生成，而且当同一题材的音频中需要多个音色时，还需要找不同的配音员进行录制。

3、然而，通过人工方式生成用于训练的音频数据集，不仅需要大量的资源，而且音频数据集的生成效率较低。

技术实现思路

1、本申请提供了一种音频数据集的生成方法、装置、设备、存储介质及产品，以源音频数据为模板转化源音频数据的音色，得到指定音色下且保留了源音频数据的音频内容和发音特点的音频数据，所述技术方案如下：

2、根据本申请的一方面，提供了一种音频数据集的生成方法，所述方法包括：

3、获取源音频数据集和指定音色对应的音色特征，所述源音频数据集中包括至少两条源音频数据；

4、提取所述源音频数据对应的音频内容特征和音频发音特征，所述音频内容特征用于表征所述源音频数据的音频内容，所述音频发音特征用于表示所述源音频数据的发音特点；

5、将所述音色特征、所述音频内容特征和音频发音特征输入至音色转化模型进行音色转化，得到所述指定音色下的音频数据，所述音频数据是指在保留所述源音频数据的所述音频内容和所述发音特点的基础上，转化所述源音频数据对应的音色后得到的音频；

6、基于转化后的所述音频数据生成所述音频数据集。

7、根据本申请的一方面，提供了一种音频数据集的生成装置，所述装置包括：

8、获取模块，用于获取源音频数据集和指定音色对应的音色特征，所述源音频数据集中包括至少两条源音频数据；

9、特征提取模块，用于提取所述源音频数据对应的音频内容特征和音频发音特征，所述音频内容特征用于表征所述源音频数据的音频内容，所述音频发音特征用于表示所述源音频数据的发音特点；

10、音色转化模块，用于将所述音色特征、所述音频内容特征和音频发音特征输入至音色转化模型进行音色转化，得到所述指定音色下的音频数据，所述音频数据是指在保留所述源音频数据的所述音频内容和所述发音特点的基础上，转化所述源音频数据对应的音色后得到的音频；

11、生成模块，用于基于转化后的所述音频数据生成所述音频数据集。

12、根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的音频数据集的生成方法。

13、根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的音频数据集的生成方法。

14、根据本申请的另一方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如上方面所述的音频数据集的生成方法。

15、本申请提供的技术方案带来的有益效果至少包括：

16、通过获取源音频数据集和指定音色对应的音色特征，源音频数据集中包括至少两条源音频数据；以源音频数据为模板转化源音频数据的音色，得到指定音色下且保留了源音频数据的音频内容和发音特点的音频数据；基于转化后的音频数据生成音频数据集。本申请通过在保留源音频数据的音频内容和发音特点的基础上，转化源音频数据对应的音色，得到指定音色下的音频数据；通过指定不同的音色，可得到无限制音色数量的音频数据，提高了音频数据集的生成效率。

技术特征：

1.一种音频数据集的生成方法，其特征在于，所所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频发音特征包括基频特征和辅音特征中的至少一种；

3.根据权利要求2所述的方法，其特征在于，所述提取所述源音频数据对应的所述基频特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述提取所述源音频数据对应的所述辅音特征，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述将所述音色特征、所述音频内容特征和音频发音特征输入至音色转化模型进行音色转化，得到所述指定音色下的音频数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述融合所述音色特征、所述音频内容特征和所述音频发音特征，得到声学特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述融合所述音色特征、所述音频内容特征和所述音频发音特征，得到声学特征，包括：

8.一种音频数据集的生成装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条计算机程序，至少一条所述计算机程序由所述处理器加载并执行以实现如权利要求1至7中任一项所述的音频数据集的生成方法。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如权利要求1至7中任一项所述的音频数据集的生成方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如权利要求1至7中任一项所述的音频数据集的生成方法。

技术总结本申请公开了一种音频数据集的生成方法、装置、设备、存储介质及产品，属于数据处理技术领域。该方法包括：获取源音频数据集和指定音色对应的音色特征；提取源音频数据对应的音频内容特征和音频发音特征，所述音频内容特征用于表征所述源音频数据的音频内容，所述音频发音特征用于表示所述源音频数据的发音特点；将所述音色特征、所述音频内容特征和音频发音特征输入至音色转化模型进行音色转化，得到所述指定音色下的音频数据；基于转化后的所述音频数据生成所述音频数据集。通过上述方法，可在保留源音频数据的音频内容和发音特点的基础上，转化源音频数据对应的音色，从而得到指定音色下的音频数据，提高了音频数据集的生成效率。技术研发人员：黄杰雄受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/3/12