技术新讯 > 乐器声学设备的制造及制作,分析技术 > 车辆语音交互方法、装置、介质和设备与流程  >  正文

车辆语音交互方法、装置、介质和设备与流程

  • 国知局
  • 2024-06-21 11:56:58

本申请属于语音交互,尤其涉及一种车辆语音交互方法、装置、介质和设备。

背景技术:

1、随着车辆的智能化发展,车载控制系统(例如车机系统)能够与用户进行语音交互以满足用户需求。目前,在与车载控制系统进行语音交互时,用户需要频繁查看屏幕或屏幕中的操作按钮,然后发出语音指令,这种操作方式将分散用户的注意力,影响驾驶安全。

技术实现思路

1、本申请的实施例提供了车辆语音交互方法、装置、介质和设备,进而至少在一定程度上可以提高了用户进行语音交互的安全性。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请实施例的第一方面,提供了一种车辆语音交互方法,包括:

4、获取用户针对目标场景的语音请求;

5、基于语音识别模型对所述语音请求进行语音识别,得到目标语音识别结果;

6、将所述目标语音识别结果与预设文本集进行模糊匹配,若匹配到与所述目标语音识别结果对应的目标文本数据,则根据所述目标文本数据控制所述车辆实现所述目标场景,所述预设文本集包括第一文本集,所述第一文本集包括根据所述车辆的车载屏幕图像确定的多个场景文本数据。

7、在本申请的一些实施例中,基于前述方案,所述语音识别模型包括离线识别模型和在线识别模型,所述基于语音识别模型对所述语音请求进行语音识别,得到目标语音识别结果,包括:

8、基于所述离线识别模型对所述语音请求进行语音识别,得到第一语音识别结果;

9、基于所述在线识别模型对所述语音请求进行语音识别,得到第二语音识别结果;

10、如果所述第一语音识别结果的置信度达到预设置信度,则将所述第一语音识别结果作为所述目标语音识别结果,否则将所述第二语音识别结果作为所述目标语音识别结果。

11、在本申请的一些实施例中,基于前述方案,所述第一文本集的建立过程如下:

12、对所述车载屏幕图像进行图像分割,确定多个目标区域,每一所述目标区域至少包括一个目标物体;

13、对所述目标区域以及所述目标物体进行语义分析,确定每一场景的各个语义标签;

14、根据各个所述场景对应的多个语义标签以及所述车载屏幕图像的预设文本数据,建立所述第一文本集。

15、在本申请的一些实施例中,基于前述方案,所述预设文本集还包括第二文本集,所述第二文本集包括基于各个用户的历史操作数据生成的偏好文本数据;

16、所述获取用户针对目标场景的语音请求,包括:

17、获取目标用户针对目标场景的语音请求;

18、若匹配到与所述目标语音识别结果对应的目标文本数据,则根据所述目标文本数据控制所述车辆实现所述目标场景,包括:

19、若匹配到与所述目标语音识别结果对应的目标偏好文本数据,则根据所述目标偏好文本数据控制所述车辆实现所述目标场景,所述目标偏好文本数据为所述目标用户的偏好文本数据。

20、在本申请的一些实施例中,基于前述方案,所述第二文本集的建立过程包括:

21、针对每一所述用户,获取所述用户的历史操作数据;

22、根据所述历史操作数据进行用户画像,得到所述用户的偏好文本数据;

23、根据各个所述用户的多个所述偏好文本数据,建立所述第二文本集。

24、在本申请的一些实施例中,基于前述方案,所述将所述目标语音识别结果与预设文本集进行模糊匹配,包括:

25、确定所述目标语音识别结果分别与所述预设文本集中的各个文本数据之间的相似度;

26、若存在相似度大于预设阈值的文本数据,则确定匹配到与所述目标语音识别结果对应的目标文本数据。

27、在本申请的一些实施例中,基于前述方案,所述方法还包括:

28、若未匹配到与所述目标语音识别结果对应的目标文本数据,则基于自然语言处理模型对所述语音请求进行自然语言处理。

29、根据本申请实施例的第二方面,提供了一种车辆语音交互装置,包括:

30、获取单元,用于获取用户针对目标场景的语音请求;

31、识别单元,用于基于语音识别模型对所述语音请求进行语音识别,得到目标语音识别结果;

32、匹配单元,用于将所述目标语音识别结果与预设文本集进行模糊匹配,若匹配到与所述目标语音识别结果对应的目标文本数据,则根据所述目标文本数据控制所述车辆实现所述目标场景,所述预设文本集包括第一文本集,所述第一文本集包括根据所述车辆的车载屏幕图像确定的多个场景文本数据。

33、根据本申请实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序指令,所述至少一条计算机程序指令由处理器加载并执行以实现如第一方面所述的方法所执行的操作。

34、根据本申请实施例的第四方面,提供了一种电子设备,其包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如第一方面所述的方法所执行的操作。

35、本发明实施例提供的一个或者多个技术方案,至少实现了如下技术效果或者优点:

36、本申请在获取到用户针对目标场景的语音请求后,基于语音识别模型对语音请求进行语音识别,得到目标语音识别结果;将目标语音识别结果与预设文本集进行模糊匹配,若匹配到与目标语音识别结果对应的目标文本数据,则根据目标文本数据控制车辆实现目标场景。由于预先根据车辆的车载屏幕图像确定了多个场景文本数据,即实现各个场景所需的场景文本数据(例如实现目标场景所需操作的屏幕页面或按钮对应的文本数据),用户可以根据对场景的理解生成语音请求,本申请基于预设文本集匹配与语音请求对应的目标文本数据,从而使得用户无需频繁查看屏幕图像,提高了用户进行语音交互的安全性。

37、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

技术特征:

1.一种车辆语音交互方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括离线识别模型和在线识别模型,所述基于语音识别模型对所述语音请求进行语音识别,得到目标语音识别结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述第一文本集的建立过程如下:

4.根据权利要求1所述的方法,其特征在于,所述预设文本集还包括第二文本集,所述第二文本集包括基于各个用户的历史操作数据生成的偏好文本数据;

5.根据权利要求4所述的方法,其特征在于,所述第二文本集的建立过程包括:

6.根据权利要求1-5任一所述的方法,其特征在于,所述将所述目标语音识别结果与预设文本集进行模糊匹配,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种车辆语音交互装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序指令,所述至少一条计算机程序指令由处理器加载并执行以实现如权利要求1-7任一所述的方法所执行的操作。

10.一种电子设备,其特征在于,其包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1-7任一所述的方法所执行的操作。

技术总结本申请公开了车辆语音交互方法、装置、介质和设备,方法包括:获取用户针对目标场景的语音请求;基于语音识别模型对语音请求进行语音识别,得到目标语音识别结果;将目标语音识别结果与预设文本集进行模糊匹配,若匹配到与目标语音识别结果对应的目标文本数据,则根据目标文本数据控制所述车辆实现目标场景,预设文本集包括第一文本集,第一文本集包括根据车辆的车载屏幕图像确定的多个场景文本数据。通过本申请提供的技术方案能够提高用户进行语音交互的安全性。技术研发人员:周鹏飞,邵鹏,李国庆,肖永君受保护的技术使用者:岚图汽车科技有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24663.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。