一种分布式链表的数据采集方法、装置、电子设备与流程
- 国知局
- 2024-07-31 23:11:41
本申请涉及数据采集,尤其涉及一种分布式链表的数据采集方法、装置、电子设备及存储介质。
背景技术:
1、随着互联网行业和大数据技术的不断发展,互联网用户激增,各种系统产生了大量的数据信息,为了充分发挥大数据的作用,需要将大量数据进行汇聚,进一步对数据进行分析和挖掘,充分释放数据的价值,在数据汇聚过程中经常用到数据采集技术。
2、相关技术中,通常采用分布式爬虫技术或数据库同步技术进行数据采集,但是当一个采集任务出现异常,就会导致数据不完整,入库会出现大量脏数据,导致采集数据效率低的问题。
技术实现思路
1、本申请实施例的目的是提供一种分布式链表的数据采集方法、装置、电子设备及存储介质,用以解决采集数据效率低的问题。
2、为解决上述技术问题,本申请实施例是这样实现的:
3、第一方面,本申请实施例提供一种分布式链表的数据采集方法,应用于采集主机,包括:接收由任务主机发送的第一任务组节点的请求任务,所述第一任务组节点包括由所述任务主机生成含有多个任务组节点的单向链表中的第一个任务组节点;所述第一任务组节点的请求任务包括:请求采集所述第一任务组节点中子任务的任务数据的任务;若所述第一任务组节点的请求任务带有双向链表,从所述双向链表的尾部取出第一子任务,所述双向链表用于指向上一子任务节点和下一子任务节点;执行所述第一子任务,得到第一子任务的执行结果信息,所述第一子任务的执行结果信息包括:所述第一子任务的任务数据、状态信息以及对应的下一子任务的请求任务中的一种或多种;在所述第一子任务的执行结果信息中,未带有对应的下一子任务的请求任务的情况下,采集所述第一子任务对应的双向链表中的任务数据并存储至数据库。
4、第二方面,本申请实施例提供一种分布式链表的数据采集装置,包括:接收模块,用于接收由任务主机发送的第一任务组节点的请求任务,所述第一任务组节点包括由所述任务主机生成含有多个任务组节点的单向链表中的第一个任务组节点;所述第一任务组节点的请求任务包括:请求采集所述第一任务组节点中子任务的任务数据的任务;获取模块,用于若所述第一任务组节点的请求任务带有双向链表,从所述双向链表的尾部取出第一子任务,所述双向链表用于指向上一子任务节点和下一子任务节点;执行模块,用于执行所述第一子任务,得到第一子任务的执行结果信息,所述第一子任务的执行结果信息包括:所述第一子任务的任务数据、状态信息以及对应的下一子任务的请求任务中的一种或多种;采集模块,用于在所述第一子任务的执行结果信息中,未带有对应的下一子任务的请求任务的情况下,采集所述第一子任务对应的双向链表中的任务数据并存储至数据库。
5、第三方面,本申请实施例提供一种电子设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一种分布式链表的数据采集方法。
6、第四方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现上述一种分布式链表的数据采集方法。
7、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述一种分布式链表的数据采集方法。
8、第六方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述一种分布式链表的数据采集方法。
9、采用本申请实施例的技术方案,采集主机接收由任务主机发送的第一任务组节点的请求任务,其中,第一任务组节点包括由任务主机生成含有多个任务组节点的单向链表中的第一个任务组节点,第一任务组节点的请求任务包括:请求采集第一任务组节点中子任务的任务数据的任务;若第一任务组节点的请求任务带有双向链表,从双向链表的尾部取出第一子任务,双向链表用于指向上一子任务节点和下一子任务节点;执行第一子任务,得到第一子任务的执行结果信息,第一子任务的执行结果信息包括:第一子任务的任务数据、状态信息以及对应的下一子任务的请求任务中的一种或多种;在第一子任务的执行结果信息中,未带有对应的下一子任务的请求任务的情况下,采集第一子任务对应的双向链表中的任务数据并存储至数据库。可见,由于双向链表能够指向第一子任务对应的上一子任务节点和下一子任务节点,因此,当第一子任务中未带有对应的下一子任务的请求任务,该双向链表中的各节点中的子任务执行完毕,将双向链表中各节点中完整的任务数据存储至数据库。能够获取双向链表中完整的任务数据后再存储至数据库,无需执行一个子任务就存储一个子任务的数据,能够解决采集数据效率低的问题。
技术特征:1.一种分布式链表的数据采集方法,其特征在于,应用于采集主机,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述执行所述第一子任务,得到第一子任务的执行结果信息之后,包括:
3.根据权利要求1所述的方法,其特征在于,所述执行所述第一子任务,得到第一子任务的执行结果信息之后,包括:
4.根据权利要求1所述的方法,其特征在于,所述在所述第一子任务的执行结果信息中,未带有对应的下一子任务的请求任务的情况下,采集所述第一子任务对应的双向链表中的任务数据并存储至数据库,包括:
5.根据权利要求1所述的方法,其特征在于,包括:
6.根据权利要求1所述的方法,其特征在于,所述采集所述第一子任务对应的双向链表中的任务数据并存储至数据库之后,包括:
7.一种分布式链表的数据采集装置,其特征在于,所述装置包括:
8.一种电子设备,其特征在于,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-6任一项所述的一种分布式链表的数据采集方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-6任一项所述的一种分布式链表的数据采集方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的一种分布式链表的数据采集方法。
技术总结本申请实施例公开了一种分布式链表的数据采集方法和装置,属于数据采集技术领域,能够解决采集数据效率低的问题。包括:接收由任务主机发送的单向链表中的第一任务组节点的请求任务;第一任务组节点的请求任务包括:请求采集第一任务组节点中子任务的任务数据的任务;若第一任务组节点的请求任务带有双向链表,从双向链表的尾部取出第一子任务;执行第一子任务,得到第一子任务的执行结果信息,第一子任务的执行结果信息包括:第一子任务的任务数据、状态信息以及对应的下一子任务的请求任务中的一种或多种;在第一子任务的执行结果信息中未带有对应的下一子任务的请求任务的情况下,采集第一子任务对应的双向链表中的任务数据并存储至数据库。技术研发人员:刘鹏亚,陈旭昭,何成宇,张建,种少飞受保护的技术使用者:中移雄安信息通信科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196327.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。