一种工作报告的抓取方法、装置、介质及设备与流程
- 国知局
- 2024-11-06 14:51:15
本发明涉及数据抓取,并且更具体地,涉及一种工作报告的抓取方法、装置、介质及设备。
背景技术:
1、为了让员工周报日报编写的更加规范,公司会有专人周末检查每个人的周报日报;由于人数很多,导致挨个查看outlook邮箱和企业微信文档非常耗费时间。如何实现工作报告的快速抓取及分析成为亟待解决的技术问题。
技术实现思路
1、针对现有技术的不足,本发明提供一种工作报告的抓取方法、装置、介质及设备。
2、根据本发明的一个方面,提供了一种工作报告的抓取方法,包括:
3、根据目标工作报告信息,采用图神经网络算法编写抓取脚本;
4、通过抓取脚本,登录目标抓取网址,获取目标工作报告;
5、获取目标工作报告的抓取的位置和状态,标记目标工作报告抓取终点的终点时间戳;
6、根据终点时间戳,从数据源中获取目标工作报告的增量数据;
7、对增量数据进行处理存储,并根据增量数据的位置和状态,更新终点时间戳;
8、根据更新的终点时间戳,持续抓取目标工作报告的数据信息。
9、可选地,根据目标工作报告信息,采用图神经网络算法编写抓取脚本,包括:
10、针对不同类型的工作报告信息,将目标工作报告进行数据划分,生成多个抓取子任务,其中工作报告类型报告:日报、周报、月报、季报以及年报;
11、根据抓取子任务的大小、复杂度、处理需求以及可用资源,为抓取子任务分配计算资源以及处理器,生成多个子任务抓取脚本。
12、可选地,通过抓取脚本,登录目标抓取网址,获取目标工作报告,包括:
13、通过多个抓取子任务登录目标抓取网址;
14、利用并行处理技术对多个抓取子任务在目标抓取网站上进行并行处理,获取多个抓取子任务的抓取数据;
15、对抓取数据进行合并,获取目标工作报告。
16、可选地,根据目标工作报告信息,采用图神经网络算法编写抓取脚本,包括:
17、通过自然语言处理技术将目标工作报告进行转换为词向量表示,获取目标工作报告信息;
18、根据目标工作报告信息将目标工作报告转换成图结构,其中图结构中每个节点代表一个员工,图结构中的边表示员工之间的工作关系;
19、对图结构中的每个节点进行独热编码,构建图神经网络的抓取脚本,其中图神经网络的损失函数为均方差。
20、可选地,对增量数据进行处理存储,包括:
21、根据增量数据的结构和格式,对增量数据进行解析,获取解析增量数据;
22、对解析增量数据进行数据清洗、转换以及筛选,获取处理后的解析增量数据;
23、对解析增量数据进行存储和索引。
24、根据本发明的另一个方面,提供了一种工作报告的抓取装置,包括:
25、编写模块,用于根据目标工作报告信息,采用图神经网络算法编写抓取脚本;
26、第一抓取模块,用于通过抓取脚本,登录目标抓取网址,获取目标工作报告;
27、标记模块,用于获取目标工作报告的抓取的位置和状态,标记目标工作报告抓取终点的终点时间戳;
28、获取模块,用于根据终点时间戳,从数据源中获取目标工作报告的增量数据;
29、更新模块,用于对增量数据进行处理存储,并根据增量数据的位置和状态,更新终点时间戳;
30、第二抓取模块,用于根据更新的终点时间戳,持续抓取目标工作报告的数据信息。
31、根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。
32、根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一方面所述的方法。
33、从而,本申请通过使用图神经网络构建抓取脚本,并采用增量式抓取技术提高日报和周报抓取的效率,从而实现大量工作报告的抓取,提高分析效率。
技术特征:1.一种工作报告的抓取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据目标工作报告信息,采用图神经网络算法编写抓取脚本,包括:
3.根据权利要求2所述的方法,其特征在于,通过所述抓取脚本,登录目标抓取网址,获取目标工作报告,包括:
4.根据权利要求2所述的方法,其特征在于,根据目标工作报告信息,采用图神经网络算法编写抓取脚本,包括:
5.根据权利要求1所述的方法,其特征在于,对所述增量数据进行处理存储,包括:
6.一种工作报告的抓取装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,编写模块,包括:
8.根据权利要求7所述的装置,其特征在于,第一抓取模块,包括:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
技术总结本发明公开了一种工作报告的抓取方法、装置、介质及设备。其中,方法包括:根据目标工作报告信息,采用图神经网络算法编写抓取脚本;通过抓取脚本,登录目标抓取网址,获取目标工作报告;获取目标工作报告的抓取的位置和状态,标记目标工作报告抓取终点的终点时间戳;根据终点时间戳,从数据源中获取目标工作报告的增量数据;对增量数据进行处理存储,并根据增量数据的位置和状态,更新终点时间戳;根据更新的终点时间戳,持续抓取目标工作报告的数据信息。技术研发人员:王浩,薛富恩受保护的技术使用者:北京安锐卓越信息技术股份有限公司技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/324456.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表