技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多模态视觉检索的智能RPA交互方法、装置及系统与流程 > 正文

基于多模态视觉检索的智能RPA交互方法、装置及系统与流程

国知局
2024-09-19 14:49:43

本发明属于计算机，具体涉及一种基于多模态视觉检索的智能rpa交互方法、装置及系统。

背景技术：

1、随着信息技术的不断发展，企业和组织日益依赖自动化技术来提高工作效率和业务流程的效益。在自动化领域，rpa技术作为一种重要的解决方案，已经成为企业数字化转型的关键工具。传统的rpa技术主要依赖于对界面布局和代码的解析，结合api接口、css结构和javascript等手段实现与业务系统的交互，rpa可以定位并操作办公软件中的各种元素和模拟人类用户在浏览器中的操作，如窗口、菜单、按钮等。然而，这种技术对于操作对象的可见性和开放性有一定的要求，需要能够通过接口或源代码获取操作对象的位置和属性信息，才能执行相应的操作，这种方式对于操作对象的可见性和开放性有一定要求。而且在界面进行升级之后，如果源代码修改了api接口、css结构和javascript等方面，rpa流程会出错，需要耗费较长时间进行排除错误和维护修改，并且在一些特定场景下可能存在局限性，导致被动调整rpa流程也影响了公司rpa处理效率和使用者的用户体验。

技术实现思路

1、为了解决上述问题，本发明提供一种基于多模态视觉检索的智能rpa交互方法、装置及系统。利用本申请的技术方案，使用者可以通过不同模态的交互方式轻松制作rpa流程，实现了与业务系统的自动化交互，提高工作效率。

2、本发明所采用的技术方案为：

3、在第一个方面，本申请公开了一种基于多模态视觉检索的智能rpa交互方法，包括步骤：

4、s1、构建图形用户界面gui、网络应用程序和嵌入式应用程序；

5、s2、打开目标网页或者目标界面，获取当前页面的状态，捕获整个应用程序窗口或特定的区域；

6、s3、进行图像处理分析和定位gui中的元素，获取对应元素的定位坐标信息；

7、s4、利用所述坐标信息，执行javascript模板代码，以模拟用户在gui上的操作；

8、s5、根据上述图形用户界面gui上的操作效果，保存这一环节的rpa交互模板，添加监控报警环节，对整个rpa任务的状态进行监控，引入异常检测机制；

9、s6、重复步骤s1-s5逐渐完善模板，直至rpa流程制作完成。

10、作为一种可选的技术方案，所述步骤s3包括：

11、s31、获取图像输入、语音输入和文字输入；

12、s32、对所述图像输入进行图像特征编码，获得图像特征；

13、s33、将所述语音输入转换为文字信息，与所述文字输入构成文本信息，对所述文本信息进行文本特征编码，获得文本特征；

14、s34、将图像特征和文本特征进行融合，得到判别性特征，将判别性特征映射到边框坐标的预测空间；进行归一化，将坐标值映射到预设范围，定位具体元素的位置信息，将相对坐标转换为绝对坐标，获得元素的定位坐标信息。

15、作为一种可选的技术方案，步骤s33中将所述语音输入转换为文字信息包括：

16、s331、用户输入语音，调用通用语音识别whisper模型；

17、s332、输入音频被语音信号按照t秒一段进行分割，每一段被转换成log-mel频谱图；

18、s333、从语音信号中提取特征梅尔频率倒谱系数，提取语音特征，进行后处理和解码预测相应的文本，并添加相应标记，转换为最终的文本序列；

19、s334、输出音频的文字信息。

20、在第二个方面，本申请公开了一种基于多模态视觉检索的智能rpa交互装置，包括：

21、构建模块，用于构建图形用户界面gui、网络应用程序和嵌入式应用程序；

22、捕获模块，用于打开目标网页或者目标界面，获取当前页面的状态，捕获整个应用程序窗口或特定的区域；

23、坐标信息获取模块，用于进行图像处理分析和定位gui中的元素，获取对应元素的定位坐标信息；

24、模拟模块，用于利用所述坐标信息，执行javascript模板代码，以模拟用户在gui上的操作；

25、监控模块，用于根据上述图形用户界面gui上的操作效果，保存这一环节的rpa交互模板，添加监控报警环节，对整个rpa任务的状态进行监控，引入异常检测机制；

26、循环调用模块，用于重复调用上述构建模块、捕获模块、坐标信息获取模块、模拟模块以及监控模块，逐渐完善模板，直至rpa流程制作完成。

27、作为一种可选的技术方案，所述坐标信息获取模块还包括：

28、获取单元，用于获取图像输入、语音输入和文字输入；

29、图像特征提取单元，用于对所述图像输入进行图像特征编码，获得图像特征；

30、文本特征提取单元，用于将所述语音输入转换为文字信息，与所述文字输入构成文本信息，对所述文本信息进行文本特征编码，获得文本特征；

31、特征融合单元，用于将图像特征和文本特征进行融合，得到判别性特征，将判别性特征映射到边框坐标的预测空间；进行归一化，将坐标值映射到预设范围，定位具体元素的位置信息，将相对坐标转换为绝对坐标，获得元素的定位坐标信息。

32、作为一种可选的技术方案，文本特征提取单元还用于：

33、用户输入语音，调用通用语音识别whisper模型；

34、输入音频被语音信号按照t秒一段进行分割，每一段被转换成log-mel频谱图；

35、从语音信号中提取特征梅尔频率倒谱系数，提取语音特征，进行后处理和解码预测相应的文本，并添加相应标记，转换为最终的文本序列；

36、输出音频的文字信息。

37、在第三个方面，本申请还公开了一种基于多模态视觉检索的智能rpa交互系统，包括如上述公开的装置。

38、在第四个方面，本申请还公开了一种电子设备，包括：一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行如上述第一个方面公开的方法。

39、在第五个方面，本申请还公开了一种计算机可读介质，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如上述第一个方面公开的方法。

40、本发明的有益效果为：传统的rpa技术需要用户对编程和应用程序结构有一定的专业知识，而结合视觉语言定位模型后，用户无需深入了解应用程序的内部结构，使得用户可以更迅速地完成rpa流程的实现。通过图像和语言的结合，用户可以更方便地描述和理解任务的执行流程，减少了开发和调试的时间成本。rpa技术能够自动化执行繁琐、重复的任务，如数据录入、文件整理等，解放员工手动操作的时间。rpa可以快速执行各种业务流程，提高业务处理速度，缩短任务周期，以便更迅速地响应市场需求，提高竞争力。

技术特征：

1.基于多模态视觉检索的智能rpa交互方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于多模态视觉检索的智能rpa交互方法，其特征在于，所述步骤s3包括：

3.根据权利要求2所述的基于多模态视觉检索的智能rpa交互方法，其特征在于，步骤s33中将所述语音输入转换为文字信息包括：

4.基于多模态视觉检索的智能rpa交互装置，其特征在于，包括：

5.根据权利要求4所述的基于多模态视觉检索的智能rpa交互装置，其特征在于，所述坐标信息获取模块还包括：

6.根据权利要求5所述的基于多模态视觉检索的智能rpa交互装置，其特征在于，文本特征提取单元还用于：

7.基于多模态视觉检索的智能rpa交互系统，其特征在于：包括如权利要求4-6任一项所述的装置。

8.一种电子设备，其特征在于，包括：一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-3中任一项所述的方法。

9.一种计算机可读介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-3中任一项所述的方法。

技术总结本发明公开了一种基于多模态视觉检索的智能RPA交互方法、装置及系统，该方法包括：构建图形用户界面GUI、网络应用程序和嵌入式应用程序；打开目标网页或者目标界面，获取当前页面的状态，捕获整个应用程序窗口或特定的区域；进行图像处理分析和定位GUI中的元素，获取对应元素的定位坐标信息；利用坐标信息，执行JavaScript模板代码；根据上述GUI上的操作效果，保存这一环节的RPA交互模板，添加监控报警环节，对整个RPA任务的状态进行监控，引入异常检测机制；重复前述步骤逐渐完善模板，直至RPA流程制作完成。其可以通过不同模态的交互方式轻松制作RPA流程，实现了与业务系统的自动化交互，提高工作效率。技术研发人员：凌玉飞,吴琳琳,张棋光受保护的技术使用者：深圳市客一客信息科技有限公司技术研发日：技术公布日：2024/9/17