技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音意图识别方法、装置、计算机设备及存储介质与流程  >  正文

语音意图识别方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:26:57

本技术涉及人机交互,具体涉及语音意图识别方法、装置、计算机设备及存储介质。

背景技术:

1、在用户与车辆机器人(例如,车辆语音助手)交互时,车辆机器人可以通过意图识别以及槽位识别将用户语音或输入文本转化为语义表示,为车辆机器人采取下一步行动提供支撑。

2、目前主要是把多意图和单意图数据输入到意图识别模型中,以训练意图识别模型识别用户语音中的意图以及意图归属的槽位,进而完成用户与车辆机器人的交互操作。但目前的意图识别模型针对包含多意图用户语音的识别准确率普遍较低。

3、因此,如何提高包含多意图的用户语音的识别准确率,已成为目前亟需解决的问题。

技术实现思路

1、有鉴于此,本技术提供了一种语音意图识别方法、装置、计算机设备及存储介质,以解决如何提高包含多意图的用户语音的识别准确率的问题。

2、第一方面,本技术提供了一种语音意图识别方法,所述方法包括:

3、获取待识别用户语音;

4、对待识别用户语音进行文本识别,得到第一文本;

5、将第一文本输入至目标翻译模型中,根据意图分布翻译第一文本,得到包含至少一个单意图的第二文本,其中,第二文本对应的所有单意图总和与第一文本的意图相同,目标翻译模型为基于不同业务场景对应的多意图文本训练得到的基于大语言模型的翻译模型;

6、提取第二文本中的每一个单意图文本;

7、将每一个单意图文本分别输入至意图识别模型中,识别每一个单意图文本中的意图以及意图所属的槽位;根据所有单意图文本的意图集合以及所有单意图文本的意图所属的槽位集合,确定待识别用户语音所要求的操作。

8、具体的,当待识别用户语音有多个意图时,利用基于不同车辆业务场景对应的多意图文本训练得到目标翻译模型翻译待识别用户语音对应的第一文本中的每一个意图,利用基于大语言模型训练得到的翻译模型本身数据训练量大识别准确性高的特点提高对包含多意图的用户语音中意图识别的准确性。将包含至少一个单意图的第二文本中的每一个单意图文本提取出来,使意图识别模型仅用于识别每一个单意图文本中的意图以及意图所属槽位,能够准确识别每一个意图对应的槽位,避免利用意图识别模型识别包含多意图的文本所导致的意图识别以及意图所属槽位不准确的情况。进而能够准确确定待识别用户语音要求的操作,可以提高包含多意图的用户语音的识别准确率。

9、在一些可选的实施例中,将第一文本输入至目标翻译模型中,根据意图分布翻译第一文本,得到包含至少一个单意图的第二文本,包括:

10、将第一文本输入至目标翻译模型中,确定第一文本中是否存在省略或指代的语义;

11、当第一文本中存在省略的语义时,利用目标翻译模型根据省略的语义,对第一文本进行语义补充操作;或者,当第一文本中存在指代的语义时,利用目标翻译模型根据指代的语义,对第一文本进行指代消解操作,得到处理后第一文本;

12、当确定第一文本为多意图文本时,利用目标翻译模型,分隔处理后第一文本中的每一个意图,得到第二文本。

13、具体的,利用大语言模型数据训练量大,可以支持更多的意图组合的优势更加准确的确定出第一文本中省略或指代的语义,并将第一文本中省略的语义补充完整,或将指代的语义进行消解,以得到补齐语义后的处理后第一文本。利用目标大模型翻译语义更加完整的处理后第一文本中的每一个意图,就可以得到意图更加精准的第二文本,在后续对第二文本中的每一个单意图文本进行识别时,就可以更准确的确定单意图文本中意图与槽位之间的归属关系,进而准确的确定待识别用户语音要求的操作,从而提高对多意图的待识别用户语音的意图识别准确率。

14、在一些可选的实施例中,当确定第一文本为多意图文本时,第二文本由多段被预设分隔符分隔的文本组成,提取第二文本中的每一个单意图文本,包括:

15、将被每一个预设分隔符分隔的每一段文本作为一个单意图文本进行提取操作。

16、具体的,以预设分隔符为基准提取第二文本中的每一个单意图文本,无需对第二文本进行其他处理操作,就能得到单意图文本,以进行后续的意图所属操作的识别,从而提高意图识别效率。

17、在一些可选的实施例中,在将第一文本输入至目标翻译模型中,根据意图分布翻译第一文本,得到包含至少一个单意图的第二文本之前,所述方法还包括:

18、基于预获取的不同车辆业务场景对应的多意图文本,以及预获取的多意图文本对应的单意图参考文本,对预构建的大语言模型进行迭代训练后,获取目标翻译模型。

19、具体的,利用预获取的不同车辆业务场景对应的多意图文本以及预获取的多意图文本对应的单意图参考文本对预构建的大语言模型进行迭代训练后,可以使预构建的大语言模型学习更多车辆业务场景下不同意图组合的情况,在应用过程中能够使目标翻译模型更快更好的识别第一文本中的意图,从而提高包含多意图的用户语音的识别准确率。

20、在一些可选的实施例中,基于预获取的不同车辆业务场景对应的多意图文本,以及预获取的多意图文本对应的单意图参考文本,对预构建的大语言模型进行迭代训练后,获取目标翻译模型,包括:

21、将多意图文本输入至大语言模型,以单意图参考文本为目标,对多意图文本进行语义补齐以及意图分隔操作,得到包含多个单意图的第三文本;

22、利用大语言模型比对第三文本中的每一个单意图文本与每一个单意图文本在单意图参考文本中对应的参考单意图文本,得到单意图文本比对结果;

23、根据单意图文本比对结果修改大语言模型的微调参数,直至达到模型训练停止条件;

24、将训练后的大语言模型确定为目标翻译模型。

25、具体的,利用大语言模型以单意图参考文本为目标对多意图文本进行语义补齐以及意图分隔操作,从而得到包含多个单意图的第三文本,进而比对第三文本中的每一个单意图与每一个单意图在单意图参考文本中对应的参考单意图,以根据单意图比对结果修改大语言模型的微调参数,对大语言模型进行微调,直至达到模型训练停止条件,从而使大语言模型学习到多意图文本中可能存在语义缺失情况以及多意图组合方式。以在后续应用目标翻译模型时,可以利用目标翻译模型补齐更多的语义以及识别更多的意图组合方式,从而提高包含多意图的用户语音的识别准确率。

26、在一些可选的实施例中,当确定第一文本为单意图文本时,方法还包括:

27、将处理后的第一文本确定为第二文本。

28、具体的,对于单意图的第一文本依旧会利用目标大模型补齐第一文本的语义,以提高对单意图的第一文本的意图识别准确率。

29、第二方面,本技术提供了一种语音意图识别装置,所述装置包括:

30、获取模块,用于获取待识别用户语音;

31、文本识别模块,用于对待识别用户语音进行文本识别,得到第一文本;

32、翻译模块,用于将第一文本输入至目标翻译模型中,根据意图分布翻译第一文本,得到包含至少一个单意图的第二文本,其中,第二文本对应的所有单意图总和与第一文本的意图相同,目标翻译模型为基于不同业务场景对应的多意图文本训练得到的基于大语言模型的翻译模型;

33、提取模块,用于提取第二文本中的每一个单意图文本;

34、意图识别模块,用于将每一个单意图文本分别输入至意图识别模型中,识别每一个单意图文本中的意图以及意图所属的槽位;

35、确定模块,用于根据所有单意图文本的意图集合以及所有单意图文本的意图所属的槽位集合,确定待识别用户语音所要求的操作。

36、在一些可选的实施例中,翻译模块,包括:

37、第一确定单元,用于将第一文本输入至目标翻译模型中,确定第一文本中是否存在省略或指代的语义;

38、处理单元,用于当第一文本中存在省略的语义时,利用目标翻译模型将第一文本中省略的语义补充完整,得到处理后第一文本;或者,当第一文本中存在指代的语义时,利用目标翻译模型将第一文本中用于指代的文本翻译为指代的语义,得到处理后第一文本;

39、识别单元,用于当确定第一文本为多意图文本时,利用目标翻译模型,分隔处理后第一文本中的每一个意图,得到第二文本。

40、第三方面,本技术提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面所述的语音意图识别方法。

41、第四方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面所述的语音意图识别方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21588.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。