技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音意图识别及模型训练方法、装置、设备及存储介质与流程  >  正文

语音意图识别及模型训练方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:56:48

本申请实施例涉及计算机,尤其涉及一种语音意图识别及模型训练方法、装置、设备及存储介质。

背景技术:

1、随着人工智能(artificial intelligence,ai)技术的快速发展,在多种领域中均使用到ai技术,例如智能语音助手。智能语音助手可以极大地提升服务的便捷度,当用户通过语音输入一句话,会通过自动语音识别,将语音转换为自然语言文本,继而识别出用户的意图,进行不同的下游服务。意图识别的准确性,直接影响智能问答系统是否可以正确地回复用户的问题。

2、目前的语音意图识别通常采用管道式方法,即首先通过自动语音识别技术(automatic speech recognition,简称asr)将人类语音转化为语音识别文本,继而通过意图识别模型对语音识别文本进行意图识别。但是目前训练得到的意图识别模型的语音意图识别效果不理想。

技术实现思路

1、本申请提供一种语音意图识别及模型训练方法、装置、设备及存储介质,通过对n个训练样本中不同意图的训练样本之间的决策边界进行增强,使得意图识别模型能够更好地处理含噪声的语音识别文本,进而提升语音意图识别的效果。

2、第一方面,本申请提供一种意图识别模型训练方法,包括:

3、获取n个训练样本中每一个训练样本的语音识别文本和人工识别文本,并通过所述意图识别模型,提取每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,所述n为正整数;

4、基于预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对所述n个训练样本中不同意图的训练样本之间的决策边界进行增强,得到所述意图识别模型的模型损失;

5、基于所述模型损失,对所述意图识别模型进行训练。

6、第二方面,本申请提供一种意图识别方法,包括:

7、获取对待识别语音进行语音识别后的语音识别文本;

8、通过意图识别模型,对所述待识别语音的语音识别文本进行意图识别,得到所述待识别语音的意图识别结果;

9、其中,所述意图识别模型是基于模型损失训练得到,所述模型损失是基于预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对n个训练样本中不同意图的训练样本之间的决策边界进行增强得到,所述每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示是通过所述意图识别模型对所述n个训练样本中每一个训练样本的语音识别文本和人工识别文本进行提取得到,所述n为正整数。

10、第三方面,本申请提供了一种意图识别模型训练装置,包括:

11、提取单元,用于获取n个训练样本中每一个训练样本的语音识别文本和人工识别文本,并通过所述意图识别模型,提取每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,所述n为正整数;

12、增强单元,用于基于预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对所述n个训练样本中不同意图的训练样本之间的决策边界进行增强,得到所述意图识别模型的模型损失;

13、训练单元,用于基于所述模型损失,对所述意图识别模型进行训练。

14、第四方面,本申请提供了一种意图识别装置,包括:

15、获取单元,用于获取对待识别语音进行语音识别后的语音识别文本;

16、意图识别单元,用于通过意图识别模型,对所述待识别语音的语音识别文本进行意图识别,得到所述待识别语音的意图识别结果;

17、其中,所述意图识别模型是基于模型损失训练得到,所述模型损失是基于预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对n个训练样本中不同意图的训练样本之间的决策边界进行增强得到,所述每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示是通过所述意图识别模型对所述n个训练样本中每一个训练样本的语音识别文本和人工识别文本进行提取得到,所述n为正整数。

18、第五方面,提供了一种计算设备,包括处理器和存储器。所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行上述第一方面或第二方方面及其各实现方式中的方法。

19、第六方面,提供了一种芯片,用于实现上述第一方面中任一方面或第二方方面及其各实现方式中的方法。具体地,所述芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上述第一方面中任一方面或第二方方面及其各实现方式中的方法。

20、第七方面,提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述第一方面或第二方方面及其各实现方式中的方法。

21、第八方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面或第二方方面及其各实现方式中的方法。

22、第九方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方方面及其各实现方式中的方法。

23、综上,本申请在意图识别模型训练时,在句子级别,引入边际对比学习方法,具体是获取n个训练样本中每一个训练样本的语音识别文本和人工识别文本,并通过意图识别模型,提取每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示。接着,基于预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对n个训练样本中不同意图的训练样本之间的决策边界进行增强,得到意图识别模型的模型损失,进而基于该模型损失,对意图识别模型进行训练。也就是说,本申请实施例通过预设的附加边距,以及每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示,对n个训练样本中不同意图的训练样本之间的决策边界进行增强,使得意图识别模型能够学到对语音识别误差具有鲁棒性的向量表征,进而可以将语音识别文本与对应的人工识别文本进行更好的对齐,从而更好地处理含噪声的文本,且在训练时无需额外的与语音相关的输入特征,使得意图识别模型的训练过程简单易行。这样使用该意图识别模型对待识别语音的语音识别文本进行意图识别时,可以实现准确识别,从而提升语音意图识别的效果。

技术特征:

1.一种意图识别模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述意图识别模型的训练过程包括预训练,所述模型损失包括第一预训练损失;

3.根据权利要求2所述的方法,其特征在于,所述附加边距包括附加角边距,所述基于所述附加边距,对所述每一个训练样本的语音识别文本的句子向量表示和人工识别文本的句子向量表示之间的决策边界进行增强,确定所述第一预训练损失,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定所述第i个训练样本的人工识别文本的句子向量表示与语音识别文本的句子向量表示之间的第一夹角,包括:

5.根据权利要求4所述的方法,其特征在于,所述确定所述第i个训练样本的人工识别文本的句子向量表示到语音识别文本的句子向量表示之间的第一夹角,以及语音识别文本的句子向量表示到人工识别文本的句子向量表示之间的第一夹角,包括:

6.根据权利要求4所述的方法,其特征在于,所述基于所述附加角边距,分别对所述第i个训练样本的人工识别文本的句子向量表示到语音识别文本的句子向量表示之间的第一夹角,以及语音识别文本的句子向量表示到人工识别文本的句子向量表示之间的第一夹角进行边界调整,得到所述第i个训练样本的人工识别文本的句子向量表示到语音识别文本的句子向量表示之间的第二夹角,以及语音识别文本的句子向量表示到人工识别文本的句子向量表示之间的第二夹角,包括:

7.根据权利要求4所述的方法,其特征在于,所述基于所述n个训练样本中每一个训练样本的人工识别文本的句子向量表示到语音识别文本的句子向量表示之间的第二夹角,以及语音识别文本的句子向量表示到人工识别文本的句子向量表示之间的第二夹角,确定所述第一预训练损失,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述第i个训练样本的人工识别文本的句子向量表示到语音识别文本的句子向量表示之间的第二夹角,以及所述第i个训练样本对应的第三夹角,确定所述第i个训练样本的人工识别文本与所述n-1个训练样本的语音识别文本之间的第一差异,包括:

9.根据权利要求2-8任一项所述的方法,其特征在于,所述意图识别模型的训练过程包括微调,所述模型损失包括第一微调损失,所述基于所述模型损失,对所述意图识别模型进行训练,包括:

10.根据权利要求9所述的方法,其特征在于,所述基于所述附加边距,对所述第k个训练样本的语音识别文本的句子向量表示与p个训练样本的语音识别文本的句子向量表示之间的决策边界进行增强,确定所述第一微调损失,包括:

11.根据权利要求10所述的方法,其特征在于,所述基于所述m个训练样本中每一个训练样本对应的第六夹角,确定所述第一微调损失,包括:

12.根据权利要求2所述的方法,其特征在于,所述基于所述第一预训练损失,对所述意图识别模型进行预训练,包括:

13.根据权利要求12所述的方法,其特征在于,所述基于所述n个训练样本中每一个训练样本的语音识别文本的词向量表示和人工识别文本的词向量表示进行最优传输处理,确定所述意图识别模型的第二预训练损失,包括:

14.根据权利要求9所述的方法,其特征在于,所述基于所述第一微调损失,对所述预训练后的意图识别模型进行微调,包括:

15.根据权利要求14所述的方法,其特征在于,所述基于所述m个训练样本中每一个训练样本的语音识别文本的词向量表示进行最优传输处理,确定所述意图识别模型的第二微调损失,包括:

16.一种语音意图识别的方法,其特征在于,包括:

17.一种意图识别模型训练装置,其特征在于,包括:

18.一种语音意图识别装置,其特征在于,包括:

19.一种计算机设备,包括处理器和存储器;

20.一种计算机可读存储介质,其特征在于,用于存储计算机程序;

技术总结本申请提供了一种语音意图识别及模型训练方法、装置、设备及存储介质,可以应用于人工智能、智能语音助手等技术领域,包括:获取N个训练样本的语音识别文本和人工识别文本,通过意图识别模型,提取每一个训练样本的语音识别文本和人工识别文本的句子向量表示;基于预设的附加边距、以及每一个训练样本的语音识别文本和人工识别文本的句子向量表示,对N个训练样本中不同意图的训练样本之间的决策边界进行增强,得到模型损失,对意图识别模型进行训练,可以将语音识别文本与对应的人工识别文本进行更好的对齐,从而更好地处理含噪声的文本。这样使用该意图识别模型对待识别语音的语音识别文本进行意图识别时,可以提升语音意图识别的效果。技术研发人员:朱志宏,张云燕,吴贤受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24645.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。