技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种模型训练以及页面检测方法、装置、介质及设备与流程 > 正文

一种模型训练以及页面检测方法、装置、介质及设备与流程

国知局
2024-12-06 13:06:22

本说明书涉及计算机，尤其涉及一种模型训练以及页面检测方法、装置、介质及设备。

背景技术：

1、目前，随着智能手机的日益普及，各种应用程序深入人们的日常生活。这些应用程序为人们带来各种服务，极大地增强了人们日常生活中的便利性和效率，改变了人们获取信息、社交互动、工作学习和娱乐消遣的方式。但是，也有部分应用程序，通过虚假广告等方式对用户的隐私等权益造成损害。

2、因此，为了保护用户权益，对应用程序展示的页面进行检测显得尤为必要。传统的检测方法是通过人工在应用程序展示的页面上进行操作，确定操作后的应用程序展示的结果与操作前应用程序页面上展示的内容是否匹配，但人工的方式检测的效率较低。

3、在当前的技术中，可以先通过人工智能技术与海量数据训练大语言模型，再利用训练出的大语言模型对检测任务进行自动化导航并检测，以提高巡查检测的效率。通过大语言模型，将需要在应用程序展示的页面上进行操作的描述文本与页面图像输入大语言模型，描述文本用于表示在对页面图像对应的页面执行自动检测时需要在页面中触控的目标控件，而大语言模型输出预测的在页面图像对应的页面中触控的目标控件位置的坐标，进而可以将确定出的位置的坐标发送至检测程序，实现对页面图像对应的页面进行自动检测。然而，利用大语言模型执行自动化导航的过程中，大语言模型预测在页面图像上应该触控的目标控件位置的坐标时，会受到语言分词的影响，导致预测的坐标与实际坐标相差较大，不能准确完成检测任务。

4、为此，本说明书提供了一种模型训练以及页面检测方法、装置、介质及设备。

技术实现思路

1、本说明书提供一种模型训练以及页面检测方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种模型训练方法，包括：

4、获取样本页面图像，所述样本页面图像对应的导航文本以及标签文本，所述导航文本用于表示在对所述样本页面图像对应的页面执行自动检测时需要在所述页面中触控的目标控件，所述标签文本中记录有所述目标控件在所述页面中的实际页面坐标；

5、将所述样本页面图像与所述导航文本输入到预设的大语言模型，以使所述大语言模型根据所述导航文本，确定输出文本，所述输出文本中包含有所述目标控件在所述页面中所在位置的预测坐标表征；

6、将所述预测坐标表征输入到待训练的坐标解码器，得到所述目标控件在所述页面中所在位置的预测坐标；

7、根据所述预测坐标与所述实际页面坐标之间的差异，确定综合损失值，以根据所述综合损失值，对所述坐标解码器进行训练，所述差异与所述综合损失值之间呈正相关。

8、可选的，根据所述预测坐标与所述实际页面坐标之间的差异，确定综合损失值，具体包括：

9、确定所述输出文本中除所述预测坐标表征以外的其余文本，作为第一其余文本，以及确定所述标签文本中除所述实际页面坐标以外的其余文本，作为第二其余文本；

10、根据所述预测坐标与所述实际页面坐标之间的差异，确定第一损失值，以及根据所述第一其余文本与所述第二其余文本之间的差异，确定第二损失值；

11、根据所述第一损失值和所述第二损失值，确定所述综合损失值；

12、根据所述综合损失值，对所述坐标解码器进行训练，具体包括：

13、根据所述综合损失值，对所述坐标解码器以及所述大语言模型进行联合训练。

14、可选的，根据所述预测坐标与所述实际页面坐标之间的差异，确定综合损失值，具体包括：

15、将所述实际页面坐标输入到预设的坐标编码器，得到所述实际页面坐标对应的实际坐标表征；

16、根据所述预测坐标与所述实际页面坐标之间的差异，确定第一损失值，以及根据所述实际坐标表征与所述预测坐标表征之间的差异，确定第三损失值；

17、根据所述第一损失值与所述第三损失值，确定所述综合损失值。

18、可选的，根据所述综合损失值，对所述坐标解码器进行训练，具体包括：

19、根据所述综合损失值，对所述坐标解码器以及所述坐标编码器进行联合训练。

20、可选的，将所述样本页面图像与所述导航文本输入到预设的大语言模型，具体包括：

21、将所述样本页面图像输入到预设的图像编码器，得到所述样本页面图像的图像特征，以及将所述导航文本输入到预设的文本编码器，得到所述导航文本的文本特征；

22、将所述文本特征与所述图像特征拼接，确定综合特征；

23、将所述综合特征输入预设的大语言模型。

24、可选的，根据所述综合损失值，对所述坐标解码器进行训练，具体包括：

25、根据所述综合损失值，对所述坐标解码器以及所述文本编码器进行联合训练。

26、可选的，在将所述文本特征与所述图像特征拼接，确定综合特征之前，所述方法还包括：

27、将所述图像特征输入到预设的多层感知机，得到所述多层感知机输出的转换后特征；

28、将所述文本特征与所述图像特征拼接，确定综合特征，具体包括：

29、将所述文本特征与所述转换后特征拼接，确定综合特征。

30、可选的，根据所述综合损失值，对所述坐标解码器进行训练，具体包括：

31、根据所述综合损失值，对所述坐标解码器以及所述多层感知机进行联合训练。

32、可选的，将所述样本页面图像与所述导航文本输入到预设的大语言模型，具体包括：

33、将所述样本页面图像输入到预设的图像编码器，得到所述样本页面图像的图像特征，以及将所述导航文本输入到预设的文本编码器，得到所述导航文本的文本特征；

34、将所述图像特征输入到预设的多层感知机，得到所述多层感知机输出的转换后特征；

35、将所述文本特征与所述转换后特征拼接，确定综合特征；

36、将所述综合特征输入预设的大语言模型；

37、根据所述预测坐标与所述实际页面坐标之间的差异，确定综合损失值，具体包括：

38、确定所述输出文本中除所述预测坐标表征以外的其余文本，作为第一其余文本，以及确定所述标签文本中除所述实际页面坐标以外的其余文本，作为第二其余文本，以及，将所述实际页面坐标输入到预设的坐标编码器，得到所述实际页面坐标对应的实际坐标表征；

39、根据所述预测坐标与所述实际页面坐标之间的差异，确定第一损失值，根据所述第一其余文本与所述第二其余文本之间的差异，确定第二损失值，以及根据所述实际坐标表征与所述预测坐标表征之间的差异，确定第三损失值；

40、根据所述第一损失值、所述第二损失值以及所述第三损失值，确定所述综合损失值；

41、根据所述综合损失值，对所述坐标解码器、所述文本编码器、所述多层感知机、所述坐标编码器以及所述大语言模型进行联合训练。

42、本说明书提供了一种页面检测方法，包括：

43、获取页面图像与所述页面图像对应的导航文本，所述导航文本用于表示在对所述页面图像对应的页面执行自动检测时需要在所述页面中触控的目标控件；

44、将所述页面图像与所述导航文本输入到预设的大语言模型，以使所述大语言模型根据所述导航文本，确定输出文本，所述输出文本中包含有所述目标控件在所述页面中所在位置的预测坐标表征；

45、将所述预测坐标表征输入到预先训练的坐标解码器中，得到所述目标控件在所述页面中所在位置的预测坐标，所述坐标解码器是通过上述模型训练方法训练得到的；

46、根据所述预测坐标，调整所述输出文本，以根据调整后的输出文本对所述页面图像对应的页面执行自动检测。

47、本说明书提供了一种模型训练装置，包括：

48、样本获取模块，用于获取样本页面图像，所述样本页面图像对应的导航文本以及标签文本，所述导航文本用于表示在对所述样本页面图像对应的页面执行自动检测时需要在所述页面中触控的目标控件，所述标签文本中记录有所述目标控件在所述页面中的实际页面坐标；

49、样本预测模块，用于将所述样本页面图像与所述导航文本输入到预设的大语言模型，以使所述大语言模型根据所述导航文本，确定输出文本，所述输出文本中包含有所述目标控件在所述页面中所在位置的预测坐标表征；

50、样本解码模块，用于将所述预测坐标表征输入到待训练的坐标解码器，得到所述目标控件在所述页面中所在位置的预测坐标；

51、训练模块，用于根据所述预测坐标与所述实际页面坐标之间的差异，确定综合损失值，以根据所述综合损失值，对所述坐标解码器进行训练，所述差异与所述综合损失值之间呈正相关。

52、本说明书提供了一种页面检测装置，包括：

53、数据获取模块，用于获取页面图像与所述页面图像对应的导航文本，所述导航文本用于表示在对所述页面图像对应的页面执行自动检测时需要在所述页面中触控的目标控件；

54、数据预测模块，用于将所述页面图像与所述导航文本输入到预设的大语言模型，以使所述大语言模型根据所述导航文本，确定输出文本，所述输出文本中包含有所述目标控件在所述页面中所在位置的预测坐标表征；

55、数据解码模块，用于将所述预测坐标表征输入到预先训练的坐标解码器中，得到所述目标控件在所述页面中所在位置的预测坐标，所述坐标解码器是通过上述模型训练方法训练得到的；

56、检测模块，用于根据所述预测坐标，对所述页面图像对应的页面执行自动检测。

57、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练以及页面检测方法。

58、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现模型训练以及页面检测方法。

59、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

60、本说明书提供的模型训练方法，获取样本页面图像，样本页面图像对应的导航文本以及标签文本，导航文本用于表示在对样本页面图像对应的页面执行自动检测时需要在页面中触控的目标控件，标签文本中记录有目标控件在页面中的实际页面坐标。将样本页面图像与导航文本输入到预设的大语言模型，以使大语言模型根据导航文本，确定输出文本，输出文本中包含有目标控件在页面中所在位置的预测坐标表征。将预测坐标表征输入到待训练的坐标解码器，得到目标控件在页面中所在位置的预测坐标。根据预测坐标与实际页面坐标之间的差异，确定综合损失值，以根据综合损失值，对坐标解码器进行训练，差异与综合损失值之间呈正相关。

61、通过上述训练模型的方法，使得训练完成的坐标解码器能够对大语言模型输出的预测坐标表征进行纠正，避免大语言模型受到的语言分词的影响，导致预测的坐标与实际坐标相差较大的问题，提高页面检测准确性。