技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、装置、设备及计算机可读存储介质与流程 > 正文

模型训练方法、装置、设备及计算机可读存储介质与流程

国知局
2024-06-21 11:28:55

本申请涉及人工智能技术，尤其涉及一种模型训练方法、装置、设备及计算机可读存储介质。

背景技术：

1、语音识别是一种将连续语音流转化为文本的技术，广泛的应用于人机交互与音频转写等领域，其在各个应用领域中的效果主要取决于语音识别模型的识别准确率，更高的准确率能够带来更好的产品使用体验。目前主流的语音识别模型多数为基于神经网络的模型，该类模型需要经过大量采集的语音识别数据训练得到，因而导致训练数据的分布会对语音识别模型的准确率有较大影响，更贴合真实使用场景的数据分布会更有利于语音识别模型的训练。

2、但是，大多数语音训练数据在采集时，为了保证数据的可拓展性，通常会在一些低噪声、低混响的场景中采集，又或考量到数据采集成本，会在一些有限和固定数量的声学场景中进行数据采集录制，而模型在实际使用的时候，又会面临一些高噪声、高混响的场景，且场景数目接近于无限，这种使用场景数据与训练数据的分布差异使得语音识别模型的鲁棒性受到严重的挑战。

技术实现思路

1、本申请实施例提供一种模型训练方法、装置及计算机可读存储介质，能够在训练流程中实时完成仿真生成rir、卷积混响和噪声叠加的操作，从而在缩短模型训练时长的同时，提高模型的鲁棒性。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种模型训练方法，所述方法包括：

4、从外部存储器中读取初始训练语音样本，并将初始训练语音样本加载到内部存储器中；

5、获取预设的房间冲击响应仿真参数和混响噪声模拟参数；

6、在所述内部存储器中基于所述房间冲击响应仿真参数和所述混响噪声模拟参数进行实时仿真，得到说话对象位置对应的第一房间冲击响应语音数据和噪声源位置对应的第二房间冲击响应语音数据；

7、在所述内部存储器中对初始训练语音样本与所述第一房间冲击响应语音数据进行卷积处理，得到样本混响结果；

8、获取噪声音频数据，在所述内部存储器中对所述噪声音频数据与所述第二房间冲击响应语音数据进行卷积处理，得到噪声混响结果；

9、在所述内部存储器中利用所述样本混响结果和所述噪声混响结果，生成对于所述初始训练语音样本的扩充训练语音样本，利用所述初始训练语音样本和所述扩充训练语音样本对预设的语音识别模型进行训练，得到训练好的语音识别模型。

10、本申请实施例提供一种模型训练装置，包括：

11、第一获取模块，用于从外部存储器中读取初始训练语音样本，并将初始训练语音样本加载到内部存储器中；

12、第二获取模块，用于获取预设的房间冲击响应仿真参数和混响噪声模拟参数；

13、实时仿真模块，用于在所述内部存储器中基于所述房间冲击响应仿真参数和所述混响噪声模拟参数进行实时仿真，得到说话对象位置对应的第一房间冲击响应语音数据和噪声源位置对应的第二房间冲击响应语音数据；

14、第一卷积模块，用于在所述内部存储器中对初始训练语音样本与所述第一房间冲击响应语音数据进行卷积处理，得到样本混响结果；

15、第二卷积模块，用于获取噪声音频数据，在所述内部存储器中对所述噪声音频数据与所述第二房间冲击响应语音数据进行卷积处理，得到噪声混响结果；

16、模型训练模块，用于在所述内部存储器中利用所述样本混响结果和所述噪声混响结果，生成对于所述初始训练语音样本的扩充训练语音样本，利用所述初始训练语音样本和所述扩充训练语音样本对预设的语音识别模型进行训练，得到训练好的语音识别模型。

17、本申请实施例提供一种电子设备，所述电子设备包括：

18、存储器，用于存储计算机可执行指令；

19、处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的模型训练方法。

20、本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，用于被处理器执行时实现本申请实施例提供的模型训练方法。

21、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的模型训练方法。

22、本申请实施例具有以下有益效果：

23、首先从外部存储器（硬盘）中读取初始训练语音样本，并将初始训练语音样本加载到内部存储器（内存）中，并且获取预设的房间冲击响应仿真参数和混响噪声模拟参数，然后直接在内存中基于所述房间冲击响应仿真参数和所述混响噪声模拟参数进行实时仿真，得到说话对象位置对应的第一房间冲击响应语音数据和噪声源位置对应的第二房间冲击响应语音数据，并且继续在内存中对第一房间冲击响应语音数据和第二房间冲击响应语音数据进行卷积处理，对应得到样本混响结果和噪声混响结果，最后利用样本混响结果和噪声混响结果生成扩充训练语音样本，从而能够在内存中直接实现训练语音样本的数据增强，能够避免提前仿真扩充数据所产生的时间成本，在缩短模型训练时长的同时，能够保证训练好的语音识别模型的鲁棒性。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1中所述的方法，其特征在于，所述房间冲击响应仿真参数包括仿真声学环境的尺寸约束信息、混响时间约束信息、信噪比约束信息、麦克风约束信息、说话对象约束信息，所述在所述内部存储器中基于所述房间冲击响应仿真参数和所述混响噪声模拟参数进行实时仿真，得到说话对象位置对应的第一房间冲击响应语音数据和噪声源位置对应的第二房间冲击响应语音数据，包括：

3.根据权利要求2中所述的方法，其特征在于，所述在所述内部存储器中基于所述仿真声学环境的尺寸约束信息、混响时间约束信息，确定仿真声学环境的目标尺寸信息和墙壁吸收系数，包括：

4.根据权利要求2中所述的方法，其特征在于，所述麦克风约束信息包括第一墙壁临界距离、麦克风最大高度、麦克风最小高度、麦克风阵列类型、麦克风数目和麦克风间距，所述根据所述仿真声学环境的目标尺寸信息和所述麦克风约束信息，确定麦克风参考位置和麦克风目标位置，包括：

5.根据权利要求4中所述的方法，其特征在于，所述说话对象约束信息包括第二墙壁临界距离、说话对象远场率、说话对象远场距离约束信息、说话对象近场距离约束信息、说话对象高度约束信息，所述根据所述麦克风参考位置和所述说话对象约束信息，确定说话对象位置，包括：

6.根据权利要求5中所述的方法，其特征在于，所述说话对象位置包括说话对象的x坐标、说话对象的y坐标和说话对象的z坐标，所述基于所述麦克风参考位置、所述说话对象与麦克风参考位置之间的距离、所述方位角、所述说话对象高度约束信息，确定说话对象位置，包括：

7.根据权利要求2中所述的方法，其特征在于，所述混响噪声模拟参数包括第三墙壁临界距离、噪声源高度约束信息，所述噪声源位置包括噪声源的x坐标、噪声源的y坐标和噪声源的z坐标，所述根据所述仿真声学环境的目标尺寸信息和所述混响噪声模拟参数确定噪声源位置，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述利用所述样本混响结果和所述噪声混响结果，生成扩充训练语音样本，包括：

9.根据权利要求1至7任一项所述的方法，其特征在于，所述初始训练语音样本至少包括第一批次的初始训练语音样本，对应地，所述扩充训练语音样本至少包括第一批次的扩充训练语音样本，所述利用所述初始训练语音样本和所述扩充训练语音样本对预设的语音识别模型进行训练，得到训练好的语音识别模型，包括：

10.根据权利要求9中所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11中所述的方法，其特征在于，所述方法还包括：

13.一种模型训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

15.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至12任一项所述的方法。

技术总结本申请提供了一种模型训练方法、装置、设备及计算机可读存储介质；方法包括：从外部存储器中读取初始训练语音样本，并将初始训练语音样本加载到内部存储器中；在内部存储器中基于房间冲击响应仿真参数和混响噪声模拟参数进行实时仿真和卷积处理，得到样本混响结果和噪声混响结果；利用样本混响结果和噪声混响结果生成扩充训练语音样本，利用初始训练语音样本和扩充训练语音样本对语音识别模型进行训练，得到训练好的语音识别模型。通过本申请，能够降低数据扩充的时间成本，提高模型训练效率，并提高训练好的语音识别模型的鲁棒性。技术研发人员：王雄受保护的技术使用者：腾讯科技（深圳）有限公司技术研发日：技术公布日：2024/2/19