爬虫品牌代理监测、质量评估的方法及设备与流程
- 国知局
- 2024-09-14 14:35:15
本申请涉及计算机领域,尤其涉及一种爬虫品牌代理监测、质量评估的方法及设备。
背景技术:
1、随着大数据技术的发展,用户通过爬虫大量采集公开网络数据,但大量的网络爬虫会对目标网站服务器带来很大的压力,因此很多网站采用了反爬技术,不允许同一个ip短时间内对网站进行高频率的访问,为了应对这种情况,网络爬虫程序开始使用代理ip。
2、现有的解决方案大都通过不断采购代理来解决问题,由于不清楚品牌代理的质量,造成大量爬虫的请求失败,失败后继续频繁的发起请求,造成网络和服务器资源的大部分浪费,提高了获取数据的成本。
3、为了解决这个问题,从而衍生出来了一种代理池的概念,对每个代理ip进行分级使用,但大都只解决了单一问题,比如解决请求失败问题,并不能对整个代理品牌进行综合性评估(例如稳定性、可用性评估等),也不能对品牌代理突发异常进行处理。
技术实现思路
1、本申请的一个目的是提供一种爬虫品牌代理监测、质量评估的方法及设备,解决现有技术中不能对整个品牌代理进行质量评估以及欠缺对品牌代理突发异常的处理的问题。
2、根据本申请的一个方面,提供了一种爬虫品牌代理监测、质量评估的方法,该方法包括:
3、通过多家品牌代理提供的应用程序接口,获取对应的品牌代理ip,并存储每一品牌代理ip的信息;
4、根据设定的阈值及定期监测到的每一品牌代理的代理总量进行预警;
5、对存储的每一品牌代理ip的数量信息进行分析,根据分析结果评估品牌代理ip的质量,并根据评估结果进行调整和优化当前的品牌代理。
6、可选地,存储每一品牌代理ip的信息,包括:
7、对获得的每一品牌代理ip进行数据清洗和数据转换;
8、将处理后的数据分类存储到数据库。
9、可选地,将处理后的数据分类存储到数据库,包括:
10、将处理后的每个品牌ip分为统一的字段,进行存储到数据库中,其中,所述统一的字段包括提取总量、去重总量、三天总量、三天去重后总量及入库时间。
11、可选地,根据设定的阈值及定期监测到的每一品牌代理的代理总量进行预警,包括:
12、通过检测程序从已存储的数据中获取每个品牌的总量;
13、为每一个品牌设定阈值,将品牌的总量与设定的阈值进行比对;
14、根据比对结果触发警报,发送预警信息。
15、可选地,对存储的每一品牌代理ip的数量信息进行分析,根据分析结果评估品牌代理ip的质量,包括:
16、按照指定时间间隔统计品牌代理ip每类日志出现的次数,并存储到数据库;
17、计算每个品牌代理ip的成功率并进行日志数据的分析,根据成功率及分析结果评估品牌代理ip的质量。
18、可选地,计算每个品牌代理ip的成功率并进行日志数据的分析,包括:
19、每间隔10分钟计算每个品牌代理ip的成功率,根据成功率及时间间隔绘制折线图,从折线图上分析每个品牌代理ip的成功率稳定性;
20、从日志数据中获取每个品牌代理ip的请求数量、响应数量、其他错误数量及超时数量,分别将获取到的四项数量按照时间绘制折线图。
21、可选地,根据分析结果评估品牌代理ip的质量之后,包括:
22、根据评估出的品牌代理ip的质量进行品牌排名;
23、若采集程序使用的当前品牌代理出现异常,则采集程序按照品牌排名切换到当前品牌代理后一顺序的品牌代理。
24、根据本申请又一个方面,还提供了一种爬虫品牌代理监测、质量评估的设备,所述设备包括:
25、一个或多个处理器;以及
26、存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
27、根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
28、与现有技术相比,本申请通过多家品牌代理提供的应用程序接口,获取对应的品牌代理ip,并存储每一品牌代理ip的信息;根据设定的阈值及定期监测到的每一品牌代理的代理总量进行预警;对存储的每一品牌代理ip的数量信息进行分析,根据分析结果评估品牌代理ip的质量,并根据评估结果进行调整和优化当前的品牌代理。从而可以实现对品牌代理的综合性评估,并解决品牌代理突发异常问题。
技术特征:1.一种爬虫品牌代理监测、质量评估的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,存储每一品牌代理ip的信息,包括:
3.根据权利要求2所述的方法,其特征在于,将处理后的数据分类存储到数据库,包括:
4.根据权利要求1所述的方法,其特征在于,根据设定的阈值及定期监测到的每一品牌代理的代理总量进行预警,包括:
5.根据权利要求1所述的方法,其特征在于,对存储的每一品牌代理ip的数量信息进行分析,根据分析结果评估品牌代理ip的质量,包括:
6.根据权利要求5所述的方法,其特征在于,计算每个品牌代理ip的成功率并进行日志数据的分析,包括:
7.根据权利要求1所述的方法,其特征在于,根据分析结果评估品牌代理ip的质量之后,包括:
8.一种爬虫品牌代理监测、质量评估的设备,其特征在于,所述设备包括:
9.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。
技术总结本申请的目的是提供一种爬虫品牌代理监测、质量评估的方法及设备,本申请通过多家品牌代理提供的应用程序接口,获取对应的品牌代理IP,并存储每一品牌代理IP的信息;根据设定的阈值及定期监测到的每一品牌代理的代理总量进行预警;对存储的每一品牌代理IP的数量信息进行分析,根据分析结果评估品牌代理IP的质量,并根据评估结果进行调整和优化当前的品牌代理。从而可以实现对品牌代理的综合性评估,并解决品牌代理突发异常问题。技术研发人员:孙文晴,王君受保护的技术使用者:上海蜜度数字科技有限公司技术研发日:技术公布日:2024/9/12本文地址:https://www.jishuxx.com/zhuanli/20240914/294913.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表