技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频样本的生成方法、装置、存储介质及电子设备与流程 > 正文

音频样本的生成方法、装置、存储介质及电子设备与流程

国知局
2024-06-21 11:33:29

本申请涉及机器学习，具体而言，涉及一种音频样本的生成方法、装置、存储介质及电子设备。

背景技术：

1、当前市场上已经有各种各样的音频识别模型，通过音频识别模型能够识别音频内容。音频样本对于音频识别模型的识别效果起着至关重要的作用。当前行业内普遍使用的音频样本获取方式为通过网上资源获取或者维护本地音频样本，音频样本的获取手段十分有限，且会存在样本单一性的问题。随着音频识别模型的训练需求越来越多样化，音频样本的多样化需求也越来越大。

2、因此，如何根据音频识别模型的各种训练需求生成各种各样的音频样本，从而提高样本多样性成为业界亟待解决的技术问题。

技术实现思路

1、本申请提供一种音频样本的生成方法、装置、存储介质及电子设备，用以解决现有技术中如何根据音频识别模型的各种训练需求生成各种各样的音频样本，从而提高样本多样性的技术问题。

2、第一方面，本申请提供了一种音频样本的生成方法，包括：

3、获取待处理音频，所述待处理音频为用于训练音频识别模型的初始音频；

4、基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行合并处理或拆分处理；

5、将所述训练需求进行解析，得到所述音频识别模型的训练场景；

6、将所述训练场景对应的背景音与处理后的待处理音频进行融合，得到所述音频识别模型的训练样本。

7、在一些实施例中，所述将所述待处理音频进行合并处理或拆分处理之前，还包括：

8、基于所述待处理音频的文件名后缀，确定所述待处理音频的音频格式；

9、在所述待处理音频的音频格式与目标音频格式不同的情况下，将所述待处理音频的音频格式转换为所述目标音频格式；

10、其中，所述目标音频格式为所述音频识别模型能够识别的音频格式。

11、在一些实施例中，所述基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行拆分处理，包括：

12、在所述训练需求为训练所述音频识别模型对句子音频进行识别的情况下；

13、获取所述待处理音频的音频特征，所述音频特征包括所述待处理音频的音频时长；

14、在所述待处理音频的音频时长大于或等于预设阈值的情况下，将所述待处理音频进行拆分处理。

15、在一些实施例中，所述将所述待处理音频进行拆分处理，包括：

16、识别所述待处理音频中的空白音；

17、将所述空白音作为音频拆分点对所述待处理音频进行拆分。

18、在一些实施例中，所述基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行合并处理，包括：

19、在所述训练需求为训练所述音频识别模型对演讲音频进行识别的情况下；

20、基于各个待处理音频的音频特征确定各个待处理音频的音频主题；

21、基于各个待处理音频的时间戳将同一音频主题的待处理音频依序进行合并。

22、在一些实施例中，所述基于各个待处理音频的时间戳将同一音频主题的待处理音频依序进行合并，包括：

23、获取同一音频主题的待处理音频，以及从外部调用与所述待处理音频主题相同的音频；

24、将所述待处理音频与从外部调用的音频进行合并。

25、在一些实施例中，所述训练场景的背景音是基于如下步骤得到的：

26、基于所述训练场景的场景类型确定所述训练场景的背景音模板，所述背景音模板包括所述训练场景的环境音和背景噪音；

27、基于所述处理后的待处理音频的音频特征将所述背景音模板进行音量处理和时长处理，得到所述训练场景的背景音。

28、第二方面，本申请提供了一种音频样本的生成装置，包括：

29、获取模块，用于获取待处理音频，所述待处理音频为用于训练音频识别模型的初始音频；

30、处理模块，用于基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行合并处理或拆分处理；

31、解析模块，用于将所述训练需求进行解析，得到所述音频识别模型的训练场景；

32、融合模块，用于将所述训练场景对应的背景音与处理后的待处理音频进行融合，得到所述音频识别模型的训练样本。

33、第三方面，本申请提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法。

34、第四方面，本申请提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述程序时实现上述的方法。

35、本申请提供的音频样本的生成方法、装置、存储介质及电子设备，通过待处理音频的音频特征和音频识别模型的训练需求将待处理音频进行处理，并将处理后的音频与训练场景对应的背景音进行融合，可以生成各种训练需求对应的训练样本，解决了训练样本种类较为单一的技术问题，提高了训练样本的多样性；可以根据训练需求针对性的为音频识别模型提供训练样本，提高了音频识别模型的识别准确度。

技术特征：

1.一种音频样本的生成方法，其特征在于，包括：

2.根据权利要求1所述的音频样本的生成方法，其特征在于，所述将所述待处理音频进行合并处理或拆分处理之前，还包括：

3.根据权利要求1所述的音频样本的生成方法，其特征在于，所述基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行拆分处理，包括：

4.根据权利要求3所述的音频样本的生成方法，其特征在于，所述将所述待处理音频进行拆分处理，包括：

5.根据权利要求1所述的音频样本的生成方法，其特征在于，所述基于所述待处理音频的音频特征和所述音频识别模型的训练需求将所述待处理音频进行合并处理，包括：

6.根据权利要求5所述的音频样本的生成方法，其特征在于，所述基于各个待处理音频的时间戳将同一演讲主题的待处理音频依序进行合并，包括：

7.根据权利要求1所述的音频样本的生成方法，其特征在于，所述训练场景的背景音是基于如下步骤得到的：

8.一种音频样本的生成装置，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的音频样本的生成方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7任一项所述的音频样本的生成方法。

技术总结本申请公开了一种音频样本的生成方法、装置、存储介质及电子设备，其中方法包括：获取待处理音频，待处理音频为用于训练音频识别模型的初始音频；基于待处理音频的音频特征和音频识别模型的训练需求将待处理音频进行合并处理或拆分处理；将训练需求进行解析，得到音频识别模型的训练场景；将训练场景对应的背景音与处理后的待处理音频进行融合，得到音频识别模型的训练样本。本申请提供的方法和装置，可以根据音频识别模型的各种训练需求生成各种各样的音频样本，提高了音频样本的多样性。技术研发人员：王一舟受保护的技术使用者：中银金融科技有限公司技术研发日：技术公布日：2024/3/11