技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音批数据生成与混淆方法、语音模型训练方法及装置与流程  >  正文

语音批数据生成与混淆方法、语音模型训练方法及装置与流程

  • 国知局
  • 2024-06-21 11:39:30

本发明涉及计算机,尤其涉及一种语音批数据生成与混淆方法、语音模型训练方法及装置。

背景技术:

1、深度神经网络在图像识别、自然语言处理、语音识别等领域表现出了卓越的性能,对深度神经网络模型进行训练是应用深度神经网络的重要步骤。随着模型参数量和训练数据集规模的增长,例如语音识别模型的训练数据量可以达到百万小时级别,训练数据集中的类别也越来越多,这些多类别数据的数据分布通常存在较大差异。在不同阶段,训练批次中包含的类别差异较大,会导致数据分布的变化较大,进而影响模型的收敛情况。

2、然而,现有的语音模型所使用的训练批数据(批数据是指同时送至模型进行前向与反向传播计算的多条训练样本)通常存在类别比例不固定的问题,易引起训练过程中数据类别与数据分布不够稳定,从而导致模型损失函数收敛波动较大,进而影响模型训练效果。

技术实现思路

1、本发明提供一种语音批数据生成与混淆方法、语音模型训练方法及装置,用以解决现有技术中用于训练的批数据的类别比例不固定,易对模型收敛情况造成波动,从而影响模型训练效果的缺陷。

2、本发明提供一种语音批数据生成与混淆方法,包括:

3、获取各类别语音数据的样本索引序列;

4、对所述各类别语音数据的样本索引序列进行混淆,得到混淆后各类别样本索引序列,并基于预设类别比例,从所述混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块;

5、对所述多个固定比例数据索引块进行混淆,并基于混淆后固定比例数据索引块,生成索引批数据。

6、根据本发明提供的一种语音批数据生成与混淆方法,所述获取各类别语音数据的样本索引序列,包括:

7、获取任一类别语音数据的初始样本索引序列和初始样本数量;

8、基于预设类别比例、基准类别扩展比例以及所述初始样本数量,确定所述任一类别语音数据扩展后的样本索引数量,所述基准类别为所述各类别中的一种;

9、基于所述扩展后的样本索引数量,对所述初始样本索引序列进行扩展,得到所述任一类别语音数据的样本索引序列。

10、根据本发明提供的一种语音批数据生成与混淆方法,所述基于所述扩展后的样本索引数量,对所述初始样本索引序列进行扩展,得到所述任一类别语音数据的样本索引序列,包括:

11、在所述扩展后的样本索引数量不大于所述初始样本数量的情况下,从所述初始样本索引序列中抽取所述扩展后的样本索引数量的样本索引,得到所述任一类别语音数据的样本索引序列;

12、在所述扩展后的样本索引数量大于所述初始样本数量的情况下,对所述初始样本索引序列进行访问并抽取样本索引,直至抽取的样本索引的数量达到所述扩展后的样本索引数量,得到所述任一类别语音数据的样本索引序列。

13、根据本发明提供的一种语音批数据生成与混淆方法,所述基于预设类别比例,从所述混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块,包括:

14、基于预设样本数阈值和所述混淆后各类别样本索引序列的长度,确定目标索引块数量;

15、基于所述目标索引块数量、所述预设类别比例以及所述预设样本数阈值,确定各类别样本抽取条数;

16、基于所述各类别样本抽取条数,从所述混淆后各类别样本索引序列中顺次抽取样本索引,生成所述目标索引块数量的固定比例数据索引块。

17、根据本发明提供的一种语音批数据生成与混淆方法,所述基于所述各类别样本抽取条数,从所述混淆后各类别样本索引序列中顺次抽取样本索引,生成所述目标索引块数量的固定比例数据索引块,包括:

18、将所述混淆后各类别样本索引序列中首位样本索引对应的索引位置作为各类别索引抽取位置;

19、基于所述各类别样本抽取条数,从所述各类别索引抽取位置开始,在所述混淆后各类别样本索引序列中顺次抽取样本索引,生成固定比例数据索引块,并将各末位抽取的样本索引对应的索引位置的下一索引位置作为新的各类别索引抽取位置;

20、基于所述新的各类别索引抽取位置,返回进行样本索引抽取,直至生成所述目标索引块数量的固定比例数据索引块。

21、根据本发明提供的一种语音批数据生成与混淆方法,所述基于混淆后固定比例数据索引块,生成索引批数据,包括:

22、从所述混淆后固定比例数据索引块中取预设数量的数据索引块,并基于所述预设数量的数据索引块中的样本索引,生成初始索引批数据,继续取预设数量的数据索引块,直至所述混淆后固定比例数据索引块被取完;

23、对各初始索引批数据进行混淆,得到所述索引批数据。

24、根据本发明提供的一种语音批数据生成与混淆方法,所述基于所述预设数量的数据索引块中的样本索引,生成初始索引批数据,包括:

25、对所述预设数量的数据索引块进行合并,得到合并数据索引块;

26、基于所述合并数据索引块中各样本索引对应的样本长度,对所述合并数据索引块中各样本索引进行排序,得到排序后样本索引;

27、从所述排序后样本索引中顺次抽取索引,在抽取的各索引对应的样本总长度达到预设长度阈值的情况下,基于所述抽取的各索引生成初始索引批数据,继续从所述排序后样本索引中顺次抽取索引,直至所述排序后样本索引被抽取完毕。

28、本发明还提供一种语音模型训练方法,包括:

29、基于索引批数据中的索引信息,获取对应的语音数据,所述索引批数据基于如上述任一种所述的语音批数据生成与混淆方法得到;

30、应用所述语音数据对初始模型进行训练,得到语音模型。

31、本发明还提供一种语音批数据生成与混淆装置,包括:

32、获取单元,用于获取各类别语音数据的样本索引序列;

33、抽取单元,用于对所述各类别语音数据的样本索引序列进行混淆,得到混淆后各类别样本索引序列,并基于预设类别比例,从所述混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块;

34、生成单元,用于对所述多个固定比例数据索引块进行混淆,并基于混淆后固定比例数据索引块,生成索引批数据。

35、本发明还提供一种语音模型训练装置,包括:

36、数据获取单元,用于基于索引批数据中的索引信息,获取对应的语音数据,所述索引批数据基于如上述任一种所述的语音批数据生成与混淆方法得到;

37、模型训练单元,用于应用所述语音数据对初始模型进行训练,得到语音模型。

38、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音批数据生成与混淆方法或语音模型训练方法。

39、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音批数据生成与混淆方法或语音模型训练方法。

40、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音批数据生成与混淆方法或语音模型训练方法。

41、本发明提供的语音批数据生成与混淆方法、语音模型训练方法及装置,通过对各类别语音数据的样本索引序列进行混淆,并基于预设类别比例,从混淆后各类别样本索引序列中抽取样本索引,生成多个固定比例数据索引块,对多个固定比例数据索引块再次进行混淆,以基于混淆后固定比例数据索引块,生成索引批数据,由此可以保证在混淆后的任意以固定数据索引块大小为粒度的局部范围内各个类别的数据比例稳定,从而降低因数据集的多类别带来的训练批数据的数据分布变动较大的可能性,进而增强模型训练收敛的稳定性,改善模型训练效果。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22718.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。