技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多模态的车机交互方法、系统、终端及存储介质与流程 > 正文

多模态的车机交互方法、系统、终端及存储介质与流程

国知局
2024-06-21 10:45:51

本发明涉及人工智能，尤其涉及一种多模态的车机交互方法、系统、终端及存储介质。

背景技术：

1、车机是安装在汽车里面的车机信息娱乐产品，其功能主要为够实现人与车，车与外界(车与车)的信息通讯。随着科技的发展，车机从早期的cd、dvd导航，已经向智能化、信息化发展。因此现有的车机一般均包括智能化显示屏及视频功能。

2、现有的车机交互过程中，一般采用语音识别的方式进行车机交互，但由于语音识别无法准确识别出用户指代的意图，导致车机交互准确性低下。

技术实现思路

1、本发明实施例的目的在于提供一种多模态的车机交互方法、系统、终端及存储介质，旨在解决现有的多模态的车机交互准确率低下的问题。

2、本发明实施例是这样实现的，一种多模态的车机交互方法，所述方法包括：

3、实时对目标车辆的当前所处环境进行视频采集，得到环境视频，并获取所述目标车辆中用户的交互语音和手势信息；

4、对所述交互语音进行语义分析，得到语义分析结果，并当所述交互语音满足车机交互条件时，根据所述手势信息确定手势指向；

5、根据所述手势指向和所述目标车辆的车辆信息确定环境指向信息，所述环境指向信息包括所述手势指向对应区域内各环境对象的对象信息；

6、根据所述交互语音的采集时间，确定所述环境视频中的关键帧图像，并对所述关键帧图像进行目标识别，得到目标识别信息；

7、根据所述语义分析结果、所述目标识别信息和所述环境指向信息确定交互提示语音，并根据所述交互提示语音对所述用户进行语音交互。

8、优选的，根据所述手势信息确定手势指向，包括：

9、获取所述手势信息中各关节点的节点坐标，并根据各关节点的节点坐标确定指向角度；

10、获取所述手势信息对应的手势图像，根据所述手势图像确定手势相对位置，并根据所述手势相对位置和所述指向角度确定所述手势指向。

11、优选的，根据所述手势指向和所述目标车辆的车辆信息确定环境指向信息，包括：

12、根据预设延迟时长和所述车辆信息中的车速信息、车辆位置，对所述目标车辆进行位置矫正，得到车辆矫正坐标；

13、以所述车辆矫正坐标为原点，所述手势指向为延伸方向生成指向区域，并获取所述指向区域中各环境对象的对象信息，得到所述环境指向信息。

14、优选的，根据所述语义分析结果、所述目标识别信息和所述环境指向信息确定交互提示语音，包括：

15、获取所述语义分析结果中的对象语义，并根据所述对象语义和所述目标识别信息确定目标对象；

16、获取所述语义分析结果中需求语义，并将所述需求语义和所述目标对象与所述环境指向信息进行匹配，得到所述交互提示语音。

17、优选的，根据所述手势信息确定手势指向之后，还包括：

18、获取所述用户的人脸图像，并对所述人脸图像进行瞳孔定位，得到瞳孔图像；

19、对所述瞳孔图像进行注视点识别，得到注视点坐标，并根据所述注视点坐标确定注视方向；

20、根据所述注视方向和所述手势指向确定方向交点坐标，并获取所述用户的瞳孔相对位置和手势相对位置；

21、根据所述方向交点坐标、所述瞳孔相对位置和所述手势相对位置确定方向交叉区域；

22、若所述方向交叉区域的区域面积大于第一面积阈值或小于第二面积阈值，则发送交互错误提示。

23、优选的，对所述交互语音进行语义分析，得到语义分析结果之后，还包括：

24、对所述交互语音进行实体识别，得到语音实体；

25、若所述语音实体的实体类型是预设类型时，则判定所述交互语音满足车机交互条件。

26、本发明实施例的另一目的在于提供一种多模态的车机交互系统，所述系统包括：

27、信息获取模块，用于实时对目标车辆的当前所处环境进行视频采集，得到环境视频，并获取所述目标车辆中用户的交互语音和手势信息；

28、语义分析模块，用于对所述交互语音进行语义分析，得到语义分析结果，并当所述交互语音满足车机交互条件时，根据所述手势信息确定手势指向；

29、信息确定模块，用于根据所述手势指向和所述目标车辆的车辆信息确定环境指向信息，所述环境指向信息包括所述手势指向对应区域内各环境对象的对象信息；

30、目标识别模块，用于根据所述交互语音的采集时间，确定所述环境视频中的关键帧图像，并对所述关键帧图像进行目标识别，得到目标识别信息；

31、车机交互模块，用于根据所述语义分析结果、所述目标识别信息和所述环境指向信息确定交互提示语音，并根据所述交互提示语音对所述用户进行语音交互。

32、优选的，所述语义分析模块还用于：

33、获取所述手势信息中各关节点的节点坐标，并根据各关节点的节点坐标确定指向角度；

34、获取所述手势信息对应的手势图像，根据所述手势图像确定手势相对位置，并根据所述手势相对位置和所述指向角度确定所述手势指向。

35、本发明实施例的另一目的在于提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

36、本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

37、本发明实施例，通过对交互语音进行语义分析，能有效地分析到用户的语义，通过获取用户的手势信息能有效地确定到用户的手势方向，基于手势方向和车辆信息能自动确定到环境指向信息，基于交互语音的采集时间，能自动确定环境视频中的关键帧图像，通过对关键帧图像进行目标识别，能有效地的获取到关键帧信息中的目标识别信息，基于语义分析结果、目标识别信息和环境指向信息，能自动确定到交互提示语音，基于交互提示语音能有效地对用户进行语音交互，本发明实施例中，采用多模态数据结合的方式，能有效地分析到用户的交互需求，并针对交互需求能自动进行语音交互。

技术特征：

1.一种多模态的车机交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的多模态的车机交互方法，其特征在于，根据所述手势信息确定手势指向，包括：

3.如权利要求1所述的多模态的车机交互方法，其特征在于，根据所述手势指向和所述目标车辆的车辆信息确定环境指向信息，包括：

4.如权利要求1所述的多模态的车机交互方法，其特征在于，根据所述语义分析结果、所述目标识别信息和所述环境指向信息确定交互提示语音，包括：

5.如权利要求1所述的多模态的车机交互方法，其特征在于，根据所述手势信息确定手势指向之后，还包括：

6.如权利要求1至5任一所述的多模态的车机交互方法，其特征在于，对所述交互语音进行语义分析，得到语义分析结果之后，还包括：

7.一种多模态的车机交互系统，其特征在于，所述系统包括：

8.如权利要求7所述的多模态的车机交互系统，其特征在于，所述语义分析模块还用于：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。

技术总结本发明提供了一种多模态的车机交互方法、系统、终端及存储介质，该方法包括：实时对目标车辆的当前所处环境进行视频采集得到环境视频，获取目标车辆中用户的交互语音和手势信息；对交互语音进行语义分析，得到语义分析结果，当交互语音满足车机交互条件时，根据手势信息确定手势指向；根据手势指向和目标车辆的车辆信息确定环境指向信息；根据交互语音的采集时间确定环境视频中的关键帧图像，对关键帧图像进行目标识别得到目标识别信息；根据语义分析结果、目标识别信息和环境指向信息确定交互提示语音，根据交互提示语音对用户进行语音交互。本发明采用多模态数据结合的方式，能有效地分析到用户的交互需求，并针对交互需求能自动进行语音交互。技术研发人员：刘露婕,黄伟,陈吉胜受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/2/6