模型训练方法、电子设备、存储介质及程序产品与流程
- 国知局
- 2024-06-21 11:46:48
本公开涉及一种模型训练方法、电子设备、存储介质及程序产品。
背景技术:
1、语音识别也称为自动语音识别(automatic speech recognition,asr),其目标是用电脑自动将人类的语音内容转换为相应的文字。由于深度学习和数据技术的进步,近年来语音识别技术取得了长足的进步。
2、现有技术中,一般通过预先训练的语音识别模型实现语音识别,而训练语音识别模型的过程中需要准备大量的语音数据和对应的文本数据,上述数据一般通过人工方式获取。
3、然而,采用人工方式获取数据的效率较低,导致语音识别模型的训练效率较低;且采用人工方式获取的语音数据训练语音识别模型,模型的鲁棒性较差。
技术实现思路
1、本公开提供了一种模型训练方法、电子设备、存储介质及程序产品。
2、根据本公开的一个方面,提供一种模型训练方法,包括:
3、获取多媒体文件集;
4、对于所述多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果;
5、对该多媒体文件的字幕进行光学字符识别,得到文本识别结果;
6、根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
7、根据本公开的至少一个实施方式的模型训练方法,在所述对该多媒体文件的字幕进行光学字符识别之前,还包括:
8、获取所述语音识别结果中句子对应的起始时间和终止时间;
9、所述对该多媒体文件的字幕进行光学字符识别,包括:根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。
10、根据本公开的至少一个实施方式的模型训练方法,所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,包括:
11、根据所述语音识别结果和文本识别结果获取字误率;
12、根据所述语音识别结果、文本识别结果和字误率确定目标识别结果;
13、根据所述多媒体文件集中多媒体文件的语音和目标识别结果训练所述第二语音识别模型。
14、根据本公开的至少一个实施方式的模型训练方法,所述根据所述语音识别结果和文本识别结果获取字误率,包括:
15、将所述语音识别结果作为参考文本,获取所述文本识别结果的字误率;或者,
16、将所述文本识别结果作为参考文本,获取所述语音识别结果的字误率。
17、根据本公开的至少一个实施方式的模型训练方法,所述将所述语音识别结果作为参考文本获取字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,包括:
18、判断所述语音识别结果中句子的字误率是否小于预设第一阈值;
19、如果小于,将该句子对应的文本识别结果作为所述目标识别结果;
20、如果不小于,将该句子对应的语音识别结果作为所述目标识别结果。
21、根据本公开的至少一个实施方式的模型训练方法,所述将所述语音识别结果作为参考文本计算字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,还包括:
22、判断所述语音识别结果中句子的字误率是否小于预设第二阈值;
23、如果不小于,推移该句子对应的多媒体文件,得到推移文件;
24、对所述推移文件的字幕进行光学字符识别,得到推移识别结果;
25、根据该句子的语音识别结果和推移识别结果确定目标识别结果。
26、根据本公开的至少一个实施方式的模型训练方法,在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前,还包括:
27、根据该句子对应的文本识别结果和推移识别结果获取变化率;
28、判断所述变化率是否超过预设第三阈值;
29、如果不超过,将该句子对应的语音识别结果作为所述目标识别结果;
30、如果超过,执行根据该句子的语音识别结果和推移识别结果确定目标识别结果步骤。
31、根据本公开的另一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的模型训练方法。
32、根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开任一个实施方式的模型训练方法。
33、根据本公开的再一个方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的模型训练方法。
技术特征:1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,包括:
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述语音识别结果和文本识别结果获取字误率,包括:
5.根据权利要求3所述的模型训练方法,其特征在于,所述将所述语音识别结果作为参考文本获取字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,包括:
6.根据权利要求5所述模型训练方法,其特征在于,所述将所述语音识别结果作为参考文本计算字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,还包括:
7.根据权利要求6所述的模型训练方法,其特征在于,在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前,还包括:
8.一种电子设备,其特征在于,包括:
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的模型训练方法。
技术总结本公开提供了模型训练方法、电子设备、存储介质及程序产品。本公开还提供的模型训练方法包括:获取多媒体文件集;对于多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果;对该多媒体文件的字幕进行光学字符识别,得到文本识别结果;根据多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。技术研发人员:张莉娜,魏光辉,宋莎莎受保护的技术使用者:出门问问(苏州)信息科技有限公司技术研发日:技术公布日:2024/4/24本文地址:https://www.jishuxx.com/zhuanli/20240618/23523.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表