技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种低注意力下的人机交互方法、装置、设备及存储介质与流程 > 正文

一种低注意力下的人机交互方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:50:53

本申请实施例涉及辅助驾驶，特别是涉及一种低注意力下的人机交互方法、装置、设备及存储介质。

背景技术：

1、如今，智能驾驶日益普及，在行车过程中，驾驶员往往会与车内中控设备进行交互，完成例如个性化设置、导航或音频播放等操作。

2、然而目前对于诸如此类的驾驶过程中常见的高频场景，一般是通过视觉信息进行可操作展示，之后响应于用户的语音执行相应操作，这一过程显然会较大程度占用了主驾的主注意力，不但影响了人机交互体验，而且存在驾驶安全隐患。

技术实现思路

1、本发明提供了一种低注意力下的人机交互方法、装置、计算机设备及存储介质，通过对车载屏幕图像语义与语音识别进行融合，实现了辅助驾驶员获取视觉信息，优化了驾驶体验。

2、第一方面，本发明提供了一种低注意力下的人机交互方法，包括如下步骤：

3、获取屏幕当前帧图像；

4、通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义；

5、响应于用户的语音输入，获取用户语音指令；

6、将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为可操作控件，则根据所述用户语音指令对所述可操作控件进行模拟触控。

7、进一步地，所述将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为不可操作控件，则：

8、根据所述用户语音指令，获取目标图像区域坐标和所述目标图像区域对应语义；

9、根据所述目标图像区域坐标，对所述目标图像区域进行高亮显示并提示所述目标图像区域对应语义。

10、进一步地，所述通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义，包括：

11、获取所述屏幕当前帧图像的热点区域信息和图像语义索引；

12、根据所述图像语义索引，对所述热点区域信息进行图像语义提取，获取所述热点区域信息的图像语义，其中，所述热点区域信息的图像语义包括内嵌文字、热点区域文字解释和热点区域坐标。

13、进一步地，所述将所述图像语义与所述用户语音指令进行相似度匹配，包括：

14、将所述用户语音指令与所述图像语义进行语义融合，获取目标语义；

15、根据所述目标语义，生成图像查询条件；

16、根据所述图像查询条件，对所述热点区域信息进行查询，获取目标热点区域。

17、进一步地，所述将所述图像语义与所述用户语音指令进行相似度匹配，若无法获取匹配结果，则：

18、根据与所述用户语音指令的相似度，将所述图像语义从高至低进行排序；

19、根据所述排序结果，生成图像语义提示信息。

20、进一步地，所述获取屏幕当前帧图像之前，还包括：

21、通过车载摄像头，获取车外实景图像；

22、将所述车外实景图像发送至车载屏幕进行显示。

23、第二方面，本发明提供了一种低注意力下的人机交互装置，包括：

24、图像获取模块，用于获取屏幕当前帧图像；

25、图像语义识别模块，用于通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义；

26、语音指令获取模块，用于响应于用户的语音输入，获取用户语音指令；

27、匹配交互模块，用于将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为可操作控件，则根据所述用户语音指令对所述可操作控件进行模拟触控。

28、进一步地，所述匹配交互模块，还包括：

29、目标区域确定模块，用于根据所述用户语音指令，获取目标图像区域坐标和所述目标图像区域对应语义；

30、高亮显示模块，用于根据所述目标图像区域坐标，对所述目标图像区域进行高亮显示并提示所述目标图像区域对应语义。

31、第三方面，本发明还提供一种计算机设备，包括：

32、至少一个存储器以及至少一个处理器；

33、所述存储器，用于存储一个或多个程序；

34、当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的一种低注意力下的人机交互方法的步骤。

35、第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的一种低注意力下的人机交互方法的步骤。

36、本申请通过获取屏幕当前帧图像，再通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义；响应于用户的语音输入，获取用户语音指令；将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为可操作控件，则根据所述用户语音指令对所述可操作控件进行模拟触控。本申请通过对ui界面以及车外的视觉特征与语音识别进行融合，不仅仅实现ui界面上空间的模拟点击，还包括车内及车外视觉信息的高亮展示，能够很好的辅助驾驶员在低注意力环境下获取相关视觉信息，并结合语音指令提示，完成人机交互操作，优化了驾驶体验。

37、为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

技术特征：

1.一种低注意力下的人机交互方法，其特征在于，包括：

2.根据权利要求1所述的低注意力下的人机交互方法，其特征在于，所述将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为不可操作控件，则：

3.根据权利要求1所述的低注意力下的人机交互方法，其特征在于，所述通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义，包括：

4.根据权利要求3所述的一种低注意力下的人机交互方法，其特征在于，所述将所述图像语义与所述用户语音指令进行相似度匹配，包括：

5.根据权利要求1所述的低注意力下的人机交互方法，其特征在于，所述将所述图像语义与所述用户语音指令进行相似度匹配，若无法获取匹配结果，则：

6.根据权利要求1-5任一项所述的低注意力下的人机交互方法，其特征在于，所述获取屏幕当前帧图像之前，还包括：

7.一种低注意力下的人机交互装置，其特征在于，包括：

8.根据权利要求7所述的低注意力下的人机交互装置，其特征在于，所述匹配交互模块，还包括：

9.一种计算机设备，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的低注意力下的人机交互方法的步骤。

技术总结本发明提供了一种低注意力下的人机交互方法、装置、设备及存储介质，应用于辅助驾驶领域，所述方法包括：通过获取屏幕当前帧图像，再通过多模态大模型对所述屏幕当前帧图像进行语义识别，获取图像语义；响应于用户的语音输入，获取用户语音指令；将所述图像语义与所述用户语音指令进行相似度匹配，若匹配结果为可操作控件，则根据所述用户语音指令对所述可操作控件进行模拟触控。本发明通过对车载屏幕UI界面以及车外的视觉特征与语音识别进行融合，不仅仅实现车载屏幕UI界面上空间的模拟点击，还包括车内及车外视觉信息的高亮展示，能够很好的辅助驾驶员在低注意力环境下获取相关视觉信息，并结合语音指令提示，完成人机交互操作，优化驾驶体验。技术研发人员：李谦,陈文豪受保护的技术使用者：华人运通（上海）云计算科技有限公司技术研发日：技术公布日：2024/5/10