技术新讯 > 计算推算,计数设备的制造及其应用技术 > 人机交互处理方法、装置、设备及存储介质与流程 > 正文

人机交互处理方法、装置、设备及存储介质与流程

国知局
2024-11-21 12:17:29

本技术涉及工业交互，具体而言，涉及一种人机交互处理方法、装置、设备及存储介质。

背景技术：

1、人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务而进行的信息交换过程。在工业软件领域，传统的人机交互方式受限于单一线性的沟通渠道，例如文本输入或鼠标点击，这不仅降低了工作效率，而且在处理复杂业务流程时容易产生误解。近年来，随着深度学习和自然语言处理技术的迅猛发展，现有技术中可以在人机交互中引入深度学习和自然语言处理技术，从而提高工业软件的自动化水平和适应性。

2、然而，现有的解决方案大多集中在单一模态的交互，例如一些智能机器人流程自动化（robotic process automation），也都缺乏对多模态信息的整合能力和推理决策能力，且在复杂工业场景下的应用尚不成熟。

技术实现思路

1、本技术的目的在于，针对上述现有技术中的不足，提供一种人机交互处理方法、装置、设备及存储介质，以解决现有技术中的人机交互方案缺乏对多模态信息进行整合以及推理决策，且在复杂工业场景下应用不成熟的问题。

2、为实现上述目的，本技术实施例采用的技术方案如下：

3、第一方面，本技术一实施例提供了一种人机交互处理方法，所述方法包括：

4、按照预设的频率获取用户界面的图像；

5、获取用户的操作指令；

6、将所述图像输入预先训练得到的图像处理模型，对所述图像进行内容提取，生成所述图像对应的结构化信息，所述结构化信息用于表征所述图像中各元素的类型以及位置；

7、将所述图像、所述结构化信息以及所述操作指令输入预先训练得到的多模态大模型，生成所述操作指令对应的任务语句，所述任务语句至少包括所述操作指令对应的待操作区域以及待执行操作；

8、针对所述用户界面执行所述任务语句，并向所述用户输出执行结果。

9、在一种可能的实现方式中，所述将所述图像、所述结构化信息以及所述操作指令输入预先训练得到的多模态大模型，生成所述操作指令对应的任务语句之前，还包括：

10、根据预先训练得到的指令处理模型，对所述操作指令进行标准化处理，得到标准化后的操作指令。

11、在一种可能的实现方式中，所述图像处理模型包括：视觉定位模型以及文字识别模型；所述将所述图像输入预先训练得到的图像处理模型，对所述图像进行内容提取，生成所述图像对应的结构化信息，包括：

12、将所述图像输入所述视觉定位模型，生成所述图像中各元素的类型以及位置；

13、将所述图像输入所述文字识别模型，生成所述图像中各元素的标号以及文本描述；

14、根据各所述元素的类型、位置、标号以及文本描述，生成所述图像对应的结构化信息。

15、在一种可能的实现方式中，所述多模态大模型包括：预处理模块、拼接模块以及处理模块；所述将所述图像、所述结构化信息以及所述操作指令输入预先训练得到的多模态大模型，生成所述操作指令对应的任务语句，包括：

16、将所述图像输入所述预处理模块进行预处理，得到预处理后的图像序列；

17、将所述图像序列、所述结构化信息以及所述操作指令输入所述拼接模块，生成待处理序列；

18、将所述待处理序列输入所述处理模块，生成所述操作指令对应的任务语句。

19、在一种可能的实现方式中，所述预处理模块包括：分割模块以及线性映射层；所述将所述图像输入所述预处理模块进行预处理，得到预处理后的图像序列，包括：

20、将所述图像输入所述分割模块，对所述图像进行图像分割处理，生成所述图像对应的多个子图像块；

21、将各所述子图像块输入所述线性映射层进行投影，生成所述预处理后的图像序列。

22、在一种可能的实现方式中，所述针对所述用户界面执行所述任务语句，并向所述用户输出执行结果，包括：

23、确定所述任务语句在所述用户界面中对应的待操作区域以及待执行操作；

24、在所述待操作区域执行所述待执行操作，并在执行完毕后，向所述用户输出执行结果。

25、在一种可能的实现方式中，所述确定所述任务语句在所述用户界面中对应的待操作区域以及待执行操作，包括：

26、对所述任务语句进行提取，得到所述任务语句中的待操作区域字段以及待执行操作字段；

27、根据所述待操作区域字段，确定所述用户界面中的待操作区域；

28、根据所述待执行操作字段以及预先存储的动作映射字典，确定所述用户界面中的待执行操作。

29、第二方面，本技术另一实施例提供了一种人机交互处理装置，所述装置包括：

30、图像获取模块，用于按照预设的频率获取用户界面的图像；

31、指令获取模块，用于获取用户的操作指令；

32、图像处理模块，用于将所述图像输入预先训练得到的图像处理模型，对所述图像进行内容提取，生成所述图像对应的结构化信息，所述结构化信息用于表征所述图像中各元素的类型以及位置；

33、生成模块，用于将所述图像、所述结构化信息以及所述操作指令输入预先训练得到的多模态大模型，生成所述操作指令对应的任务语句，所述任务语句至少包括所述操作指令对应的待操作区域以及待执行操作；

34、执行模块，用于针对所述用户界面执行所述任务语句，并向所述用户输出执行结果。

35、在一种可能的实现方式中，所述生成模块之前，还包括：标准化模块，所述标准化模块用于：

36、根据预先训练得到的指令处理模型，对所述操作指令进行标准化处理，得到标准化后的操作指令。

37、在一种可能的实现方式中，所述图像处理模型包括：视觉定位模型以及文字识别模型；所述图像处理模块，具体用于：

38、将所述图像输入所述视觉定位模型，生成所述图像中各元素的类型以及位置；

39、将所述图像输入所述文字识别模型，生成所述图像中各元素的标号以及文本描述；

40、根据各所述元素的类型、位置、标号以及文本描述，生成所述图像对应的结构化信息。

41、在一种可能的实现方式中，所述多模态大模型包括：预处理模块、拼接模块以及处理模块；所述生成模块，具体用于：

42、将所述图像输入所述预处理模块进行预处理，得到预处理后的图像序列；

43、将所述图像序列、所述结构化信息以及所述操作指令输入所述拼接模块，生成待处理序列；

44、将所述待处理序列输入所述处理模块，生成所述操作指令对应的任务语句。

45、在一种可能的实现方式中，所述预处理模块包括：分割模块以及线性映射层；所述生成模块，具体用于：

46、将所述图像输入所述分割模块，对所述图像进行图像分割处理，生成所述图像对应的多个子图像块；

47、将各所述子图像块输入所述线性映射层进行投影，生成所述预处理后的图像序列。

48、在一种可能的实现方式中，所述执行模块，具体用于：

49、确定所述任务语句在所述用户界面中对应的待操作区域以及待执行操作；

50、在所述待操作区域执行所述待执行操作，并在执行完毕后，向所述用户输出执行结果。

51、在一种可能的实现方式中，所述执行模块，具体用于：

52、对所述任务语句进行提取，得到所述任务语句中的待操作区域字段以及待执行操作字段；

53、根据所述待操作区域字段，确定所述用户界面中的待操作区域；

54、根据所述待执行操作字段以及预先存储的动作映射字典，确定所述用户界面中的待执行操作。

55、第三方面，本技术另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述方法的步骤。

56、第四方面，本技术另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

57、本技术的有益效果是：通过按照预设的频率获取用户界面的图像，并获取用户的操作指令，使得能够将图像输入预先训练得到的图像处理模型，对图像进行内容提取，生成图像对应的结构化信息，从而能够将图像、结构化信息以及操作指令输入预先训练得到的多模态大模型，生成操作指令对应的任务语句，并针对用户界面执行任务语句，并向用户输出执行结果，能够对多模态信息进行准确的整合以及推理决策，实现多模态下的人机交互，同时，还可以通过多次执行本技术实施例提供的人机交互处理方法，以对用户复杂的操作需求进行人机交互处理，使得本技术实施例提供的人机交互处理方法还能够适用于复杂工业场景下。