语音识别模型的训练方法、语音识别方法及相关装置与流程
- 国知局
- 2024-06-21 11:49:27
本申请涉及语音识别,特别是涉及一种语音识别模型的训练方法、语音识别方法以及相关装置,其中,相关装置包括语音识别模型的训练装置、语音识别装置、计算机设备及计算机可读存储介质。
背景技术:
1、随着自然语言技术的发展,自动语音识别(asr,auto speech recognition)也得到了日益广泛的应用,例如可广泛服务于搜索、推荐、客服、语音助手、自动字幕等场景。在进行语音识别时,通常会采用语音识别模型进行语音识别,为了能够使得自动语音识别的结果能够具有较高的准确性,通常会通过模型训练的方式得到语音识别模型,再将训练得到的语音识别模型用到具体的语音识别业务中。
2、目前在训练获得语音识别模型时,通常需要大量标注数据进行模型训练,然而,在标注数据的数量较少的情况下,即低资源场景下,会使得训练获得语音识别模型的成本变得很高。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种训练成本低的语音识别模型的训练方法、语音识别方法及相关装置。
2、第一方面,本申请提供了一种语音识别模型的训练方法,所述方法包括:
3、获取目标语种的无标注数据以及所述目标语种的标注数据;
4、基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
5、通过所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
6、基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
7、基于本申请实施例提供的语音识别模型的训练方法,其在训练获得语音识别模型时,通过获得目标语种的无标注数据以及目标语种的标注数据,在此基础上先对跨语种的预训练模型进行调整,得到目标语种的初始语音识别模型,再通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,并对目标语种的标注数据进行数据增广获得的增广数据,以提升真实数据的比重,且能够在一定程度上平衡第一伪标签的标注误差,并将具有第一伪标签的无标注数据和增广数据作为训练数据,通过混合大量的伪标签数据,进一步增加了数据的多样性,在此基础上对初始语音识别模型进行训练,也提高了得到的语音识别模型的泛化能力和鲁棒性,且通过获得少量的目标语种的标注数据也能够训练获得目标语种的语音识别模型,训练效果佳且成本低。
8、第二方面,本申请提供了一种语音识别方法,所述方法包括:
9、获取待识别语音数据;
10、语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法训练得到的。
11、第三方面,本申请提供了一种语音识别模型的训练装置,所述装置包括:
12、获取模块,用于获取目标语种的无标注数据以及所述目标语种的标注数据;
13、所述获取模块,还用于基于所述无标注数据和标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
14、添加模块,用于基于所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据;
15、所述获取模块,还用于对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
16、训练模块,用于基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
17、第四方面,本申请提供了一种语音识别装置,所述装置包括:
18、语音数据获取模块,用于获取待识别语音数据;
19、识别模块,用于语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法训练得到的。
20、第五方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的任一实施例中的方法的步骤。
21、第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的任一实施例中的方法的步骤。
22、第七方面,本申请提供了一种计算机程序产品,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的任一实施例中的方法的步骤。
23、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
技术特征:1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签,包括:
6.根据权利要求3所述的方法,其特征在于,所述基于所述无标注数据的第一伪标签和第二伪标签对所述无标注数据进行筛选,包括:
7.一种语音识别方法,其特征在于,所述方法包括:
8.一种语音识别模型的训练装置,其特征在于,所述装置包括:
9.一种语音识别装置,其特征在于,所述装置包括:
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结本申请提供一种语音识别模型的训练方法、语音识别方法以及相关装置,涉及语音识别技术领域,一些实施例的语音识别模型的训练方法包括:获取目标语种的无标注数据以及目标语种的标注数据;基于无标注数据和标注数据对跨语种的预训练模型进行调整,获得目标语种的初始语音识别模型;通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对标注数据进行数据增广获得增广数据,并将具有第一伪标签的无标注数据和增广数据作为训练数据;基于训练数据对初始语音识别模型进行训练,获得语音识别模型。基于本申请实施例方案,可以通过少量的目标语种的标注数据训练获得目标语种的语音识别模型,训练效果佳且成本低。技术研发人员:李承翰受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/5/8本文地址:https://www.jishuxx.com/zhuanli/20240618/23772.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。