技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音指令交互方法、装置、电子设备及存储介质与流程  >  正文

语音指令交互方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:39:14

本技术涉及车辆,尤其涉及全场景语音交互,具体涉及一种语音指令交互方法、装置、电子设备及存储介质。

背景技术:

1、由于驾驶员在驾驶过程中需要专注于路况信息,使得语音交互成为智能座舱的标配核心功能。在语音交互过程中,车载终端通常对驾驶员输入的语音转换得到的文本信息进行匹配,然后根据匹配结果,得到操作指令,并执行该操作指令。

2、然而,目前在进行语音交互时,对于连续长语音或特殊说法往往需要采用定制化语音进行交互,才可以匹配到对应的指令,实现驾驶员的操作意图。导致语音交互的泛化能力弱,无法准确洞悉驾驶员的操作意图。

技术实现思路

1、本技术提供一种语音指令交互方法、装置、电子设备及存储介质,以解决相关技术中对于连续长语音或特殊说法往往需要采用定制化语音进行交互的技术问题。本技术的技术方案如下:

2、根据本技术涉及的第一方面,提供一种语音指令交互方法,包括:

3、接收音频信息,并将音频信息转为第一文本信息;音频信息用于反映用户意图;在第一文本信息满足第一条件的情况下,从数据库中获取第一文本信息匹配的第二文本信息;第一条件用于标识第一文本信息为问答类信息或查询类信息;根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令。

4、通过上述技术手段,本技术可以在接收到音频信息后,将音频信息转为第一文本信息,并在第一文本信息为问答类信息或查询类信息的情况下,结合音频信息、第一文本信息、与第一文本信息匹配的第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令,而不需要采用定制化语音进行交互。因此,通过本技术实施例提供的语音指令交互方法可以有效提高语音交互的泛化能力,准确洞悉驾驶员的答类意图或搜索意图。

5、在一种可能的实施方式中,该方法还包括:

6、在第一文本信息满足第二条件的情况下,将音频信息、第一文本信息和车载终端当前界面的界面信息输入至预先训练的多模态模型中,得到与用户意图匹配的操作指令;第二条件用于标识第一文本信息为控制类信息;操作指令用于指示对界面信息中的目标被控对象执行对应的控制操作。

7、通过上述技术方案,本技术可以在第一文本信息为控制类信息的情况下,结合音频信息、第一文本信息和车载终端当前界面的界面信息,得到对界面信息中的目标被控对象执行对应的控制操作的操作指令。因此,可以直接从当前界面的界面信息中匹配与出目标被控对象,并得到对目标被控对象执行控制操作的操作指令,可以有效提高语音交互的效率,快速洞悉驾驶员的操作意图。

8、在一种可能的实施方式中,根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令,包括:

9、将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令。

10、通过上述技术方案,可以融合当前界面的界面信息(也即图像信息)、音频信息、第一文本信息和第二文本信息等多模态特征,并结合预先训练的多模态模型,生成与用户意图匹配的指令。因此,可以实现全场景端到端的可见即可说。

11、在一种可能的实施方式中,多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令,包括:

12、将音频信息输入至音频处理模型中,得到音频信息对应的音频特征信息;将界面信息输入至图像处理模型中,得到界面信息对应的界面特征信息;将音频特征信息、界面特征信息、第一文本信息和第二文本信息输入至生成式语言大模型中,生成与用户意图匹配的回复指令。

13、通过上述技术方案,多模态模型中可以包括图像处理模型、音频处理模型和生成式语言大模型,因此,在对界面信息、音频信息、第一文本信息和第二文本信息等多模态信息进行处理时,可以通过图像处理模型对界面信息进行处理,通过音频处理模型对音频信息进行处理,通过生成式语言大模型对多模态特征进行融合处理,因此,在实现全场景端到端的可见即可说的基础上,还可以进一步提升洞悉驾驶员的操作意图的准确性,进而准确指示车载终端执行对应的功能事件。

14、在一种可能的实施方式中,数据库包括向量数据库和文本数据库;从数据库中获取第一文本信息匹配的第二文本信息,包括:

15、确定第一文本信息对应的第一文本向量;从向量数据库中查找与第一文本向量匹配的第二文本向量;从文本数据库中获取第二文本向量对应的第二文本信息。

16、通过上述技术方案,可以在预设的文本数据库中获取到与第一文本信息匹配的第二文本信息,以使后续可以结合第二文本信息对用户意图匹配的指令进行确定,有效提升洞悉驾驶员的操作意图的准确性,进而准确指示车载终端执行对应的功能事件。

17、在一种可能的实施方式中,用户意图为用户查询意图;第一文本信息包括一个或多个关键词;回复指令中包含的内容包括与一个或多个关键词相关的信息。

18、在一种可能的实施方式中,用户意图为用户的车辆控制意图;第一文本信息包括一个或多个关键词;操作指令包括一个或多个关键词对应的功能事件。

19、根据本技术提供的第二方面,提供一种语音指令交互装置,该装置包括:转换单元、获取单元和生成单元,其中:

20、转换单元,用于接收音频信息,并将音频信息转为第一文本信息;音频信息用于反映用户意图;

21、获取单元,用于在第一文本信息满足第一条件的情况下,从数据库中获取第一文本信息匹配的第二文本信息;第一条件用于标识第一文本信息为问答类信息或查询类信息;

22、生成单元,用于根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令。

23、在一种可能的实施方式中,该装置还包括处理单元,该处理单元具体用于:

24、在第一文本信息满足第二条件的情况下,将音频信息、第一文本信息和车载终端当前界面的界面信息输入至预先训练的多模态模型中,得到与用户意图匹配的操作指令;第二条件用于标识第一文本信息为控制类信息;操作指令用于指示对界面信息中的目标被控对象执行对应的控制操作。

25、在一种可能的实施方式中,生成单元具体用于:

26、将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令。

27、在一种可能的实施方式中,多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;生成单元具体用于:

28、将音频信息输入至音频处理模型中,得到音频信息对应的音频特征信息;将界面信息输入至图像处理模型中,得到界面信息对应的界面特征信息;将音频特征信息、界面特征信息、第一文本信息和第二文本信息输入至生成式语言大模型中,生成与用户意图匹配的回复指令。

29、在一种可能的实施方式中,数据库包括向量数据库和文本数据库;获取单元具体用于:

30、确定第一文本信息对应的第一文本向量;从向量数据库中查找与第一文本向量匹配的第二文本向量;从文本数据库中获取第二文本向量对应的第二文本信息。

31、在一种可能的实施方式中,用户意图为用户查询意图;第一文本信息包括一个或多个关键词;回复指令中包含的内容包括与一个或多个关键词相关的信息。

32、在一种可能的实施方式中,用户意图为用户的车辆控制意图;第一文本信息包括一个或多个关键词;操作指令包括一个或多个关键词对应的功能事件。

33、根据本技术提供的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面及其任一种可能的实施方式的语音指令交互方法。

34、根据本技术提供的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中及其任一种可能的实施方式的语音指令交互方法。

35、根据本技术提供的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述第一方面及其任一种可能的实施方式的语音指令交互方法。

36、由此,本技术的上述技术特征具有以下有益效果:

37、(1)在接收到音频信息后,将音频信息转为第一文本信息,并在第一文本信息为问答类信息或查询类信息的情况下,结合音频信息、第一文本信息、与第一文本信息匹配的第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令,而不需要采用定制化语音进行交互。因此,通过本技术实施例提供的语音指令交互方法可以有效提高语音交互的泛化能力,准确洞悉驾驶员的答类意图或搜索意图。

38、(2)在第一文本信息为控制类信息的情况下,结合音频信息、第一文本信息和车载终端当前界面的界面信息,得到对界面信息中的目标被控对象执行对应的控制操作的操作指令。因此,可以直接从当前界面的界面信息中匹配与出目标被控对象,并得到对目标被控对象执行控制操作的操作指令,可以有效提高语音交互的效率,快速洞悉驾驶员的操作意图。

39、(3)可以融合当前界面的界面信息(也即图像信息)、音频信息、第一文本信息和第二文本信息等多模态特征,并结合预先训练的多模态模型,生成与用户意图匹配的指令。因此,可以实现全场景端到端的可见即可说。

40、(4)在对界面信息、音频信息、第一文本信息和第二文本信息等多模态信息进行处理时,可以通过图像处理模型对界面信息进行处理,通过音频处理模型对音频信息进行处理,通过生成式语言大模型对多模态特征进行融合处理,因此,在实现全场景端到端的可见即可说的基础上,还可以进一步提升洞悉驾驶员的操作意图的准确性,进而准确指示车载终端执行对应的功能事件。

41、(5)在预设的文本数据库中获取到与第一文本信息匹配的第二文本信息,以使后续可以结合第二文本信息对用户意图匹配的指令进行确定,有效提升洞悉驾驶员的搜索意图或查询意图的准确性,进而准确指示车载终端执行对应的功能事件。

42、需要说明的是,第二方面至第五方面中的任一种实现方式所带来的技术效果可参见第一方面中对应实现方式所带来的技术效果,此处不再赘述。

43、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20957.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。