技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于主从架构的可信数据采集方法、装置、设备及介质与流程  >  正文

基于主从架构的可信数据采集方法、装置、设备及介质与流程

  • 国知局
  • 2024-07-31 23:09:23

本发明涉及大数据领域,特别涉及一种基于主从架构的可信数据采集方法、装置、设备及介质。

背景技术:

1、数据采集工具是大数据平台的功能之一,而实现可信数据采集工具需要融合区块链及加密算法。利用可信数据采集工具实现数据汇聚,主要目的是实现数据的可信性。数据的可信性是指在特定情境下,数据被认为是真实、可靠和值得信任的程度。在数据驱动的业务应用、决策和分析中,数据的可信性至关重要,因为基于不可信数据的应用、决策可能导致错误的结果和误导性的结论。

2、数据的可信性可以从数据来源的可靠性、数据准确性和完整性、数据处理的透明性、数据隐私和安全性、可解释性和可理解性以及独立的验证和审计这些方面来评估。但现有的数据采集方法往往无法完全满足上述要求,因此当前迫切的需要一种数据采集方法来保证数据采集的可信性要求。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于主从架构的可信数据采集方法、装置、设备及介质,可以利用智能合约对数据来源进行可信性认证,保证采集数据可信。其具体方案如下:

2、第一方面,本技术公开了一种基于主从架构的可信数据采集方法,包括:

3、利用智能合约将远程数据源、主采集器、从采集器以及数据集注册到区块链;

4、利用所述主采集器基于所述数据集对所述远程数据源进行增量数据的采集,以得到若干数据块;

5、根据所述若干数据块构造默克尔树,以根据所述默克尔树确定所述若干数据块对应的根哈希值,并将所述根哈希值写入链上数据集合约;

6、利用所述从采集器从所述链上数据集合约获取所述根哈希值,并从所述远程数据源重新获取若干当前数据块,以验证所述若干当前数据块与所述若干数据块以及所述根哈希值的一致性,若通过验证,则表征采集的所述增量数据可信,完成数据采集。

7、可选的,所述利用智能合约将远程数据源、主采集器、从采集器以及数据集注册到区块链,包括:

8、确定所述远程数据源的数据源关键属性,并生成所述数据源关键属性的哈希指纹,将所述哈希指纹注册到区块链的数据源合约;

9、获取主采集器的主采集器表以及从采集器的从采集器表,以基于所述主采集器表确定所述主采集器的主采集器关键属性,基于所述从采集器表确定所述从采集器的从采集器关键属性,并将所述主采集器关键属性以及所述从采集器关键属性注册至所述区块链的采集器合约;

10、确定所述主采集器对应的主采集器程序以及所述从采集器对应的从采集器程序,并将所述主采集器程序以及所述从采集器程序打包为容器镜像,以将所述容器镜像注册至所述区块链的所述采集器合约;

11、获取数据集的数据集表,并确定所述数据集表的数据集关键属性,以将所述数据集关键属性注册到所述区块链的数据集合约。

12、可选的,所述利用所述主采集器基于所述数据集对所述远程数据源进行增量数据的采集,以得到若干数据块,包括:

13、基于所述数据集的库表元数据确定数据采集的起始时间以及截止时间,以基于所述起始时间以及所述截止时间构造数据块查询语句;

14、将所述主采集器连接所述远程数据源,并通过所述主采集器执行所述数据块查询语句,以进行数据采集,得到若干数据块。

15、可选的,所述根据所述若干数据块构造默克尔树,以根据所述默克尔树确定所述若干数据块对应的根哈希值,包括:

16、分别基于预设数据格式对所述若干数据块进行格式转换,以得到若干转换数据,并通过所述若干转换数据计算所述若干数据块对应的若干哈希值;

17、基于所述若干哈希值构造默克尔树,并根据所述默克尔树确定所述若干数据块对应的根哈希值。

18、可选的,所述分别基于预设数据格式对所述若干数据块进行格式转换,以得到若干转换数据,包括:

19、将所述若干数据块转换为csv的文本,以得到第一转换数据,并将所述第一转换数据转换为base64格式的数据,以得到第二转换数据。

20、可选的,所述根据所述若干数据块构造默克尔树,以根据所述默克尔树确定所述若干数据块对应的根哈希值,并将所述根哈希值写入链上数据集合约之后,还包括:

21、通过所述主采集器基于所述数据集对所述远程数据源进行扫描,以确定所述远程数据源是否发生数据变动;

22、若发生数据变动,则确定所述若干数据块在所述远程数据源中对应的数据是否发生变动;

23、若发生变动,则基于改变的数据对所述若干数据块进行数据同步,以得到变更后数据块,并基于所述变更后数据块更新所述默克尔树。

24、可选的,所述利用所述从采集器从所述链上数据集合约获取所述根哈希值,并从所述远程数据源重新获取若干当前数据块,以验证所述若干当前数据块与所述若干数据块以及所述根哈希值的一致性,包括:

25、将所述从采集器连接所述远程数据源,并从所述远程数据源重新获取数据,以得到若干当前数据块;

26、计算所述若干当前数据块的哈希值,以得到第一哈希值,并重新计算所述若干数据块的哈希值,以得到第二哈希值;

27、利用所述从采集器获取所述链上数据集合约的所述根哈希值,并比较所述第一哈希值、所述第二哈希值以及所述根哈希值是否完全一致。

28、第二方面,本技术公开了一种基于主从架构的可信数据采集装置,包括:

29、参数注册模块,用于利用智能合约将远程数据源、主采集器、从采集器以及数据集注册到区块链;

30、数据采集模块,用于利用所述主采集器基于所述数据集对所述远程数据源进行增量数据的采集,以得到若干数据块;

31、哈希值计算模块,用于根据所述若干数据块构造默克尔树,以根据所述默克尔树确定所述若干数据块对应的根哈希值,并将所述根哈希值写入链上数据集合约;

32、数据验证模块,用于利用所述从采集器从所述链上数据集合约获取所述根哈希值,并从所述远程数据源重新获取若干当前数据块,以验证所述若干当前数据块与所述若干数据块以及所述根哈希值的一致性,若通过验证,则表征采集的所述增量数据可信,完成数据采集。

33、第三方面,本技术公开了一种电子设备,包括:

34、存储器,用于保存计算机程序;

35、处理器,用于执行所述计算机程序以实现如前述的基于主从架构的可信数据采集方法。

36、第四方面,本技术公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如前述的基于主从架构的可信数据采集方法。

37、本技术中,首先利用智能合约将远程数据源、主采集器、从采集器以及数据集注册到区块链,然后利用所述主采集器基于所述数据集对所述远程数据源进行增量数据的采集,以得到若干数据块,并根据所述若干数据块构造默克尔树,以根据所述默克尔树确定所述若干数据块对应的根哈希值,并将所述根哈希值写入链上数据集合约,最后利用所述从采集器从所述链上数据集合约获取所述根哈希值,并从所述远程数据源重新获取若干当前数据块,以验证所述若干当前数据块与所述若干数据块以及所述根哈希值的一致性,若通过验证,则表征采集的所述增量数据可信,完成数据采集。由此可知,通过本技术的方法,需要通过智能合约将远程数据源、主采集器、从采集器以及数据集注册到区块链,然后利用主采集器基于远程数据源进行数据采集,得到若干数据块,然后根据采集到的若干数据块构造默克尔树,并确定若干数据块对应的根哈希值;然后利用从采集器获取根哈希值,并从所述远程数据源重新获取若干当前数据块,以验证若干当前数据块与若干数据块以及根哈希值的一致性,若通过验证,则说明采集的增量数据可信,完成数据采集。这样一来,可以合理运用链上链下一体化的数链融合技术,利用智能合约对数据来源进行可信性认证,以防利用去中心化的主从采集机制和基于区块链的存证审计等,保证采集数据的完整性、准确性、真实性、安全性及可审计性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196128.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。