技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种适应于复杂场景的UI图标匹配方法及相关装置与流程  >  正文

一种适应于复杂场景的UI图标匹配方法及相关装置与流程

  • 国知局
  • 2024-08-05 11:38:47

本技术涉及一种适应于复杂场景的ui图标匹配方法及相关装置,属于软件。

背景技术:

1、机器人流程自动化rpa(robotic process automation)设计中用户可以指定当前步骤需要点击的ui(user interface)元素,而执行过程中rpa程序会根据用户的指定自动寻找当前ui页面上的指定元素。通常而言,每个ui元素都有对应一个独一无二的xpath路径,用户在指定元素的同时也指定了对应的xpath,执行过程则会通过xpath路径找到对应元素。对于某些无法被xpath路径捕捉的元素,rpa可以通过内置的计算机视觉cv(computervision)图像检测算法去获取ui界面的所有元素。用户在流程设计时指定的也是cv图像检测算法获取的图像特征,rpa程序在执行过程中则需要根据指定元素的图像特征去匹配正确的元素。

2、对于一个常规的ui界面,文本以及图标是其最常见的元素类型。对于文本元素,通常可以通过ocr(optical character recognition)算法将文本图像转化为文字信息,再利用文字信息匹配执行的文本元素。而图标元素则没法轻易的通过图像算法转化为文字信息,并且图标不一定能对应一个明确的文字信息。通常的办法是计算图标之间的图像相似度,根据相似度的大小匹配最接近的图标元素。

3、传统sift、直方图等cv算法可以计算图标间的相似度,但实际场景中图标的缩放,图标截图的位置偏移以及相似图标等问题,这些传统的算法难以展现出很好的鲁棒性。

4、然而对于图标元素,则需要根据具体的场景定制一个适用于复杂场景的ui图标匹配方法。

技术实现思路

1、利用图像神经网络训练一个编码器,利用编码器将原始的图像特征转化为特征向量,再根据特征向量的相似度匹配是一个容错更高的方案。因此,设计出一个合适的编码器结构以及算法逻辑是解决图标匹配问题的关键技术。

2、鉴于以上技术问题中的至少一项,本技术提供一种适应于复杂场景的ui图标匹配方法及相关装置,在面对不同分辨率的ui场景,获取图标位置偏移的场景,大量相似图标的场景时,可以准确的根据图像特征匹配正确的图标。

3、技术方案:为解决上述技术问题,本技术采用的技术方案为:

4、第一方面,本技术提供了一种ui图标匹配方法,所述方法包括:

5、获取包含有ui图标的图像;

6、将所述图像输入vit骨干图像编码器,得到图像中所有图标的特征分布;其中所述vit骨干图像编码器包括改进的vit骨干、改进的特征金字塔和特征映射模块;所述vit骨干图像编码器的处理过程包括:利用改进的vit骨干将所述图像拆分成多个边长相同的图像块,并基于图像块作局部注意力与全局注意力表征,得到特征图-3;利用改进的特征金字塔对所述特征图-3进行上采样、空间注意力强化和融合得到特征图;利用特征映射模块将所述特征图转化为特征分布;

7、根据所述特征分布进行相似度计算,确定ui图标匹配结果。

8、在一些实施例中,所述vit骨干包括12层vit-small结构,输入的图像尺寸为56*56,图像块的尺寸为4*4;将12层vit-small结构拆分成4个阶段,每个阶段的前两个transformer区块采用局部注意力,第三个transformer区块采用全局注意力;全局注意力的窗口大小为14*14,局部注意力的窗口大小为5*5。

9、在一些实施例中,利用改进的特征金字塔对所述特征图-3进行上采样、空间注意力强化和融合得到特征图,包括:

10、对所述特征图-3进行上采样得到特征图-2,对所述特征图-2进行上采样得到特征图-1;

11、将所述特征图-1经过空间注意力强化后进行下采样,得到与特征图-2尺寸一致的注意力图-1,注意力图-1与特征图-2进行粘合和点卷积得到特征图-2与特征图-1的第一融合图;将所述第一融合图经过空间注意力强化后进行下采样,得到与特征图-3尺寸一致的注意力图-2,注意力图-2与特征图-3进行粘合和点卷积得到特征图-3、特征图-2与特征图-1的第二融合图;

12、将所述第二融合图经过空间注意力强化得到特征融合图;

13、将所述特征图-3经过空间注意力强化得到注意力图-3;

14、将所述注意力图-3和所述特征融合图相乘得到最终输出的特征图。

15、在一些实施例中,利用特征映射模块将所述特征图转化为特征分布,包括:

16、所述特征映射模块依次包括第一全连接层、第二全连接层、第三全连接层、l2归一化、第四全连接层和加权归一化;

17、先采用第一全连接层、第二全连接层和第三全连接层对所述特征图进行映射得到第一映射特征,隐藏层的维度选用1024,第三全连接层输出维度为256;

18、第一映射特征再经过l2归一化之后,经过第四全连接层作线性映射得到第二映射特征;

19、第二映射特征经过加权归一化得到特征分布。

20、在一些实施例中,所述vit骨干图像编码器利用噪音对比估计nce损失训练vit骨干。

21、在一些实施例中,在将所述图像输入vit骨干图像编码器之前,还包括:

22、对所述图像进行主成分分析pca预处理,得到标记增强图;其中所述标记增强图包括标记出的所述图像中的重要特征;

23、则,将所述图像输入vit骨干图像编码器还包括将所述标记增强图输入vit骨干图像编码器。

24、在一些实施例中,所述相似度计算采用余弦相似度。

25、在一些实施例中,确定ui图标匹配结果,包括:

26、将与图标的相似度最大的ui图标,确定为该图标匹配得到的ui图标。

27、第二方面,本技术提供了一种ui图标匹配装置,所述装置包括:

28、获取模块,用于:获取包含有ui图标的图像;

29、图像编码器模块,用于:将所述图像输入vit骨干图像编码器,得到图像中所有图标的特征分布;其中所述vit骨干图像编码器包括改进的vit骨干、改进的特征金字塔和特征映射模块;所述vit骨干图像编码器的处理过程包括:利用改进的vit骨干将所述图像拆分成多个边长相同的图像块,并基于图像块作局部注意力与全局注意力表征,得到特征图-3;利用改进的特征金字塔对所述特征图-3进行上采样、空间注意力强化和融合得到特征图;利用特征映射模块将所述特征图转化为特征分布;

30、相似度计算模块,用于:根据所述特征分布进行相似度计算,确定ui图标匹配结果。

31、第三方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

32、第四方面,本技术提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。

33、第五方面,本技术提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。

34、有益效果:本技术提供的适应于复杂场景的ui图标匹配方法及相关装置,具有以下优点:本技术实施例提供的适应于复杂场景的ui图标匹配方法及相关装置,通过对图像编码器的网络结构进行改进,利用改进的vit骨干将所述图像拆分成多个边长相同的图像块,并基于图像块作局部注意力与全局注意力表征,得到特征图-3;利用改进的特征金字塔对所述特征图-3进行上采样、空间注意力强化和融合得到特征图;利用特征映射模块将所述特征图转化为特征分布;再根据所述特征分布进行相似度计算,确定ui图标匹配结果;适应了图标分辨率变化以及图标偏移两类问题场景。

35、本技术中vit骨干图像编码器采用改进的vit骨干、改进的特征金字塔,vit骨干选择vit-small结构,融合了局部注意力和全局注意力,对于图像特征较为相似的图标,混合局部注意力特征的骨干框架更利于区分这些相似的图标。改进的特征金字塔先对特征图-3两次上采样,得到一共三张不同尺寸的特征图,利用空间注意力机制强化空间上有效信息的提取,增强轮廓信息的过滤;输出特征图不仅融合了三个不同尺度的粒度,还获得了三张图的空间特征强化。采用nce损失训练vit骨干,增大相似图标的特征相似性不同图标的特征差异性。

36、另外,在进一步地实施方案中,针对存在相似图标的场景,本技术中采用数据增强手段pca主成分分析,标记出图标的核心特征,再将标记后的图标送入编码器模型以得到特征分布;提高了图标匹配的准确度。

本文地址:https://www.jishuxx.com/zhuanli/20240802/258587.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。