技术新讯 > 电子通信装置的制造及其应用技术 > 网站检测方法、装置、设备及存储介质与流程  >  正文

网站检测方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-10-09 14:34:44

本申请实施例涉及计算机,尤其涉及一种网站检测方法、装置、设备及存储介质。

背景技术:

1、随着计算机技术的发展,网络应用已非常普遍,人们可通过网络进行社交通信、在线支付购物以及学习等,网站是否安全是通过网页进行在线活动的基本保障。

2、现有的网站检测方法中,一种方法是通过爬虫爬取待检测网站的页面信息,页面信息为文本或图片,根据待检测网站与欺诈网站种子的文本相似度或图片相似度来确定待检测网站是否为欺诈网站。

3、然而,针对每天上亿的网站的页面信息,若每个网站的页面信息都要爬取,所需的网络和cpu资源消耗较多。而且欺诈网站可通过限制页面有效时间、爬虫对抗技术和验证机制等来对抗爬虫,导致获取到页面信息的比例越来越低,因此网站检测成功率较低。

技术实现思路

1、本申请实施例提供一种网站检测方法、装置、设备及存储介质,可减少网络和cpu资源消耗,提高网站检测成功率。

2、第一方面,本申请实施例提供一种网站检测方法,包括:

3、获取历史网址访问记录,所述历史网址访问记录中包括目标类型网站的访问记录,所述目标类型网站的访问热度小于预设阈值;

4、针对所述历史网址访问记录中的每一访问对象,将所述访问对象的访问网址按照访问时间的先后顺序排序,得到所述访问对象的访问网址的访问顺序;

5、根据所述访问对象的访问网址的访问顺序和访问网址的域名,确定所述访问对象的访问网址的域名排序,将所述访问对象的访问网址的域名排序中连续访问同一域名的记录进行处理,得到所述访问对象的访问域名跳转序列,将所述历史网址访问记录中每一访问对象的访问域名跳转序列组成访问域名跳转序列集合;

6、将所述访问域名跳转序列集合输入词嵌入模型,输出所述域名向量集合,所述域名向量集合包括所述访问域名跳转序列集合中每个域名的域名向量;

7、根据预设异常网站域名的域名向量集合,从所述域名向量集合中确定出满足预设条件的域名向量,将所述满足预设条件的域名向量对应的域名确定为异常网站的域名。

8、第二方面,本申请实施例提供一种网站检测装置,包括:

9、获取模块,用于获取历史网址访问记录,所述历史网址访问记录中包括目标类型网站的访问记录,所述目标类型网站的访问热度小于预设阈值;

10、第一处理模块,用于针对所述历史网址访问记录中的每一访问对象,将所述访问对象的访问网址按照访问时间的先后顺序排序,得到所述访问对象的访问网址的访问顺序;

11、根据所述访问对象的访问网址的访问顺序和访问网址的域名,确定所述访问对象的访问网址的域名排序,将所述访问对象的访问网址的域名排序中连续访问同一域名的记录进行处理,得到所述访问对象的访问域名跳转序列,将所述历史网址访问记录中每一访问对象的访问域名跳转序列组成访问域名跳转序列集合;

12、第二处理模块,用于将所述访问域名跳转序列集合输入词嵌入模型,输出所述域名向量集合,所述域名向量集合包括所述访问域名跳转序列集合中每个域名的域名向量;

13、确定模块,用于根据预设异常网站域名的域名向量集合,从所述域名向量集合中确定出满足预设条件的域名向量,将所述满足预设条件的域名向量对应的域名确定为异常网站的域名。

14、第三方面,本申请实施例提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面或第二方面的方法。

15、第四方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机程序上运行时,使得所述计算机执行如第一方面或第二方面的方法。

16、第五方面,本申请实施例提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得所述计算机执行如第一方面或第二方面的方法。

17、综上,在本申请实施例中,通过获取历史网址访问记录,历史网址访问记录中包括访问热度小于预设阈值的访问记录,针对历史网址访问记录中的每一访问对象,获取历史网址访问记录中每一访问对象的访问域名跳转序列,历史网址访问记录中每一访问对象的访问域名跳转序列组成访问域名跳转序列集合,接着将访问域名跳转序列集合输入词嵌入模型,输出访问域名跳转序列集合中每个域名的域名向量,组成域名向量集合,然后根据预设异常网站域名的域名向量集合,从该域名向量集合中确定出满足预设条件的域名向量,将满足预设条件的域名向量对应的域名确定为异常网站的域名。由于是根据用户历史网址访问记录获取历史网址访问记录中的每一访问对象的访问域名跳转序列,根据访问域名跳转序列集合和词嵌入模型,输出访问域名跳转序列集合中每个域名的域名向量,进而根据域名向量确定异常网站的域名,从用户的访问行为刻画网站的特征,根据用户历史网址访问记录确定出异常网站的域名可存储在异常网站信息库,使得在网站检测时,只需将待检测网站的域名和异常网站信息库中的异常网站的域名进行匹配即可检测出待检测网站是否为异常网站,因此可减少网络和cpu资源消耗,提高网站检测成功率。

18、进一步地,由于异常网站大多长尾低热度,仅根据历史访问记录获取到的访问域名跳转序列的数量较少,本申请实施例在根据历史网址访问记录确定出访问域名跳转序列集合后,通过有偏随机游走构建出补充的游走域名跳转序列集合,再根据访问域名跳转序列集合、游走域名跳转序列集合和词嵌入模型来提取域名的向量表达,弥补了数据的不足,可以充分学习到低热度的网站特征,提高生成的域名向量的准确度,从而提升异常网站检测的覆盖率,进一步提高网站检测的成功率和准确性。

技术特征:

1.一种网站检测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述针对所述历史网址访问记录中的每一访问对象,将所述访问对象的访问网址按照访问时间的先后顺序排序之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述访问对象的访问网址的访问顺序和访问网址的域名,确定所述访问对象的访问网址的域名排序之后,还包括:

4.根据权利要求1所述的方法,其特征在于,所述预设条件为域名向量之间的相似度大于或等于相似度阈值,所述相似度为域名向量之间的余弦相似度、域名向量之间的欧氏距离、域名向量之间的曼哈顿距离或域名向量之间的皮尔逊系数,所述根据预设异常网站域名的域名向量集合,从所述域名向量集合中确定出满足预设条件的域名向量,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述访问域名跳转序列集合进行随机游走,得到游走域名跳转序列集合,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述访问域名跳转序列集合,构建域名跳转有向图,包括:

8.根据权利要求6所述的方法,其特征在于,根据所述域名跳转有向图中每条边的权重、所述每次游走采样序列长度、预设游走策略和预设总采样序列数量,基于所述域名跳转有向图进行有偏随机游走,得到游走域名跳转序列集合,包括:

9.根据权利要求1-4任一项所述的方法,其特征在于,还包括:

10.一种网站检测装置,其特征在于,包括:

11.一种计算机设备,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机程序上运行时,使得所述计算机执行如权利要求1至9中任一项所述的方法。

13.一种包含指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至9中任一项所述方法。

技术总结本申请实施例提供一种网站检测方法、装置、设备及存储介质,涉及计算机技术领域,该方法包括:针对历史网址访问记录中的每一访问对象,将访问对象的访问网址按照访问时间的先后顺序排序,得到访问对象的访问网址的访问顺序,根据访问对象的访问网址的访问顺序和访问网址的域名,确定访问对象的访问网址的域名排序,根据访问对象的访问网址的域名排序,得到访问对象的访问域名跳转序列,将每一访问对象的访问域名跳转序列组成的访问域名跳转序列集合输入词嵌入模型,输出域名向量集合,根据预设异常网站域名的域名向量集合,从域名向量集合中确定出满足预设条件的域名向量,将满足预设条件的域名向量对应的域名确定为异常网站的域名。技术研发人员:卢扬受保护的技术使用者:广州腾讯科技有限公司技术研发日:技术公布日:2024/9/29

本文地址:https://www.jishuxx.com/zhuanli/20241009/305721.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。