技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多语种识别模型的训练方法及装置与流程  >  正文

多语种识别模型的训练方法及装置与流程

  • 国知局
  • 2024-06-21 11:48:37

本技术涉及语音处理,尤其涉及一种多语种识别模型的训练方法及装置。

背景技术:

1、随着人工智能技术的不断发展,语音处理的需求日益迫切;而随着语音处理的需求的多样化发展,对语音数据中存在的多语种语音进行语音识别,以及进行多语种维度的其他语音处理,逐渐成为语音处理领域关注的热点。

2、多语种语音是指语音数据中存在至少两个语种的混合语音,多语种语音也逐渐出现在各种应用场景,比如会议场景等。随着多语种语音的丰富程度逐渐攀升,针对多语种语音的语音处理技术也在不断迭代更新,在此过程中,对多语种语音的语音处理方提出了更高的语音处理要求。

技术实现思路

1、本技术提供一种多语种识别模型的训练方法及装置,能够提升多语种识别模型的稳定性和有效性。

2、第一方面,本技术实施例提供了一种多语种识别模型的训练方法,包括:

3、确定多语种语音样本的识别文本中文字的文字索引和语种索引;

4、将所述多语种语音样本输入待训练语音识别模块进行语音识别,得到第一语义特征,将所述第一语义特征输入待训练解码模块进行解码处理,得到第二语义特征,以及将所述多语种语音样本输入待训练语种检测模块进行语种检测,得到第一语种信息;

5、根据所述第一语义特征和所述文字索引计算第一损失,根据所述第二语义特征和所述文字索引计算第二损失,以及根据所述第一语种信息和所述语种索引计算第三损失;

6、基于所述第一损失和所述第二损失计算目标损失,以及基于所述目标损失对所述待训练语音识别模块和所述待训练解码模块进行参数调整,得到语音识别模块和解码模块,以及基于所述第三损失对所述待训练语种检测模块进行参数调整得到语种检测模块;

7、基于所述多语种语音样本对中间模型进行模型训练得到多语种识别模型;所述中间模型包括所述解码模块、所述语种检测模块和目标语音识别模块,所述目标语音识别模块在对所述语音识别模块的多个语音识别网络中的预设语音识别网络进行配置后得到。

8、可以看出,在本技术实施例中,首先,通过多语种语音样本对待训练语音识别模块、待训练解码模块和待训练语种检测模块进行第一阶段的模型训练,得到语音识别模块、解码模块和语种检测模块,具体的,将多语种语音样本输入待训练语音识别模块进行语音识别,通过待训练解码模块对语音识别得到的第一语义特征进行解码处理得到第二语义特征,以及通过待训练语种检测模块对多语种语音样本进行语种检测得到第一语种信息,其次,根据第一语义特征、第二语义特征分别与文字索引计算第一损失、第二损失,根据第一损失和第二损失计算目标损失,并基于目标损失对待训练语音识别模块和待训练解码模块进行参数调整得到语音识别模块和解码模块,以及根据第一语种信息和文字的语种索引计算第三损失,并基于第三损失对待训练语种检测模块进行调参得到语种检测模块,以此,从粗粒度层面进行第一阶段的模型训练,得到初步的语音识别模块、解码模块和语种检测模块,提升模型训练的便捷性,同时通过在第一阶段对未进行配置的待训练语音识别模块进行模型训练,使得待训练语种检测模块的输出结果不对待训练语音识别模块产生影响,有助于提升待训练语种检测模块与待训练语音识别模块的训练过程的独立性,避免彼此干扰;

9、在此基础上,通过多语种语音样本对中间模型进行第二阶段的模型训练,得到多语种识别模型,具体的,基于多语种语音样本对中间模型进行模型训练得到多语种识别模型,即对包含解码模块、语种检测模块和目标语音识别模块的中间模型进行微调、优化,目标语音识别模块在对语音识别模块的多个语音识别网络中的预设语音识别网络进行配置后得到,以此,通过对第一阶段训练得到的语音识别模块进行结构调整,对包含解码模块、语种检测模块和调整得到的目标语音识别模块的中间模型进行第二阶段的模型训练,实现从细粒度层面对中间模型中包含的三个输出结果相互影响的模块进行精细化训练,提升训练得到的多语种识别模型的稳定性和有效性,同时,通过对语音识别模块的多个语音识别网络中的预设语音识别网络进行配置,来防止预设语音识别网络对多个语种的信息无区分地进行处理导致模型泛化,即通过配置后的目标语音识别网络可对不同语种的信息进行不同的处理,从而避免模型泛化导致的性能退化现象,并且,通过文字索引的监督从文字维度提升多语种识别模型的文字识别能力,通过语种索引的监督提升多语种识别模型对不同语种的语音的识别精度。

10、第二方面,本技术实施例提供了一种多语种语音识别方法,包括:

11、对多语种语音进行特征提取得到多语种语音特征;

12、将所述多语种语音特征输入多语种识别模型中的语种检测模块进行语种检测,得到语种信息;所述多语种识别模型根据权利要求1至6任意一项所述的方法训练得到;

13、将所述多语种语音特征输入所述多语种识别模型中的语音识别模块进行语音识别,得到第一语义特征;所述语音识别模块中的目标语音识别网络,根据所述语种信息进行路由选择以及语音识别得到语音识别结果并输入下一语音识别网络;

14、将所述第一语义特征输入所述多语种识别模型中的解码模块进行解码处理,得到第二语义特征;

15、根据所述第一语义特征和所述第二语义特征,确定所述多语种语音的语音识别文本。

16、可以看出,在本技术实施例中,首先,从多语种语音中提取多语种语音特征,将多语种语音特征输入多语种识别模型中的语种检测模块进行语种检测得到语种信息,将多语种语音特征输入多语种识别模型中的语音识别模块进行语音识别得到第一语义特征,语音识别模块中的目标语音识别网络,根据语种信息进行路由选择以及语音识别得到语音识别结果并输入下一语音识别网络;以此,通过语种信息进行路由选择来提升语音识别模块对多语种语音的识别能力,提升多个语种的语音识别的针对性,在此基础上,将第一语义特征输入多语种识别模型中的解码模块进行解码处理,得到第二语义特征,根据第一语义特征和第二语义特征,确定多语种语音的语音识别文本,通过解码模块提升第一语义特征的精确度,得到精度优于第一语义特征的第二语义特征,同时,通过结合第一语义特征和第二语义特征确定语音识别文本,避免直接根据第二语音特征确定的语音识别文本的精度较差,提升语音识别文本的可选择性,从而提升语音识别文本的精确度、全面性和有效性。

17、第三方面,本技术实施例提供了一种多语种识别模型的训练装置,包括:

18、索引确定模块,用于确定多语种语音样本的识别文本中文字的文字索引和语种索引;

19、特征输入模块,用于将所述多语种语音样本输入待训练语音识别模块进行语音识别,得到第一语义特征,将所述第一语义特征输入待训练解码模块进行解码处理,得到第二语义特征,以及将所述多语种语音样本输入待训练语种检测模块进行语种检测,得到第一语种信息;

20、损失计算模块,用于根据所述第一语义特征和所述文字索引计算第一损失,根据所述第二语义特征和所述文字索引计算第二损失,以及根据所述第一语种信息和所述语种索引计算第三损失;

21、参数调整模块,用于基于所述第一损失和所述第二损失计算目标损失,以及基于所述目标损失对所述待训练语音识别模块和所述待训练解码模块进行参数调整,得到语音识别模块和解码模块,以及基于所述第三损失对所述待训练语种检测模块进行参数调整得到语种检测模块;

22、模型训练模块,用于基于所述多语种语音样本对中间模型进行模型训练得到多语种识别模型;所述中间模型包括所述解码模块、所述语种检测模块和目标语音识别模块,所述目标语音识别模块在对所述语音识别模块的多个语音识别网络中的预设语音识别网络进行配置后得到。

23、第四方面,本技术实施例提供了一种多语种语音识别装置,包括:

24、特征提取模块,用于对多语种语音进行特征提取得到多语种语音特征;

25、语种检测模块,用于将所述多语种语音特征输入多语种识别模型中的语种检测模块进行语种检测,得到语种信息;所述多语种识别模型根据权利要求1至6任意一项所述的方法训练得到;

26、语音识别模块,用于将所述多语种语音特征输入所述多语种识别模型中的语音识别模块进行语音识别,得到第一语义特征;所述语音识别模块中的目标语音识别网络,根据所述语种信息进行路由选择以及语音识别得到语音识别结果并输入下一语音识别网络;

27、解码模块,用于将所述第一语义特征输入所述多语种识别模型中的解码模块进行解码处理,得到第二语义特征;

28、文本确定模块,用于根据所述第一语义特征和所述第二语义特征,确定所述多语种语音的语音识别文本。

29、第五方面,本技术实施例提供了一种计算机设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第一方面所述的多语种识别模型的训练方法。

30、第六方面,本技术实施例提供了另一种计算机设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第二方面所述的多语种语音识别方法。

31、第七方面,本技术实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第一方面所述的多语种识别模型的训练方法。

32、第八方面,本技术实施例提供了另一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第二方面所述的多语种语音识别方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23694.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。