技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于分布式架构的多源文件数据管理方法及系统与流程 > 正文

一种基于分布式架构的多源文件数据管理方法及系统与流程

国知局
2024-08-02 14:42:04

本发明涉及数据管理，具体为一种基于分布式架构的多源文件数据管理方法及系统。

背景技术：

1、随着互联网的普及和数字化转型的推进，各个行业领域产生的数据不断涌现，使得处理和管理大量的多源数据成为必须面临的问题，面对不断增长的数据量以及高复杂性的数据存储管理需求，需要提供更加灵活和强大的数据管理方法，分布式架构的先进管理方法因具备高度的可扩展性和强大的数据整合能力，能够很好地适应当前不断增长的数据量和数据管理需求。

2、现有技术如公告号为cn113051221b的发明专利，为数据存储方法、装置、介质、设备及分布式文件系统，该方法包括：启动元数据分析进程，并基于元数据分析进程从元数据管理节点获取待分析元数据；通过元数据分析进程对待分析元数据进行解析处理，得到待存储元数据；基于元数据分析进程将待存储元数据存储到目标数据库中，能够降低分布式文件系统处理数据时对内存的消耗，提升元数据的解析性能。

3、现有技术如公告号为cn113282564b的发明专利，为数据存储方法、系统、节点和存储介质，该系统包括由管理节点和多个数据节点构成的分布式文件系统、云存储系统和多个云盘，多个数据节点共用同一云盘。管理节点响应于客户端的数据存储请求，从多个云盘中确定目标云盘以及在目标云盘挂载的数据节点中确定预设数量的数据节点，将预设数量的数据节点的标识发送至客户端。预设数量的数据节点中的第一数据节点接收客户端发送的数据块，将数据块存入目标云盘，将数据块的写入事件日志同步至预设数量的数据节点中的第二数据节点。目标云盘将数据块的多个副本存入云存储系统中。通过该方案，保证了数据的安全可靠存储，并降低了数据块的副本数量，减少存储成本。

4、综上所述，目前的文件数据管理中，在执行上传存储的这一过程中，没有根据文件数据的基本特征进行分析，导致在进行分布式存储时所进行分割得到的数据块数目并不能完全与文件数据相适配，使文件数据出现存储冗余或不必要的数据复制现象，从而造成存储空间的浪费，并极大地抑制了数据存储和处理的效率，因此，期望一种基于分布式架构的多源文件数据管理方法及系统。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于分布式架构的多源文件数据管理方法及系统，能够有效解决上述背景技术中涉及的问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：根据本技术实施例的一个方面，提供了一种基于分布式架构的多源文件数据管理方法，包括：多源上传端点响应接收文件数据上传管理请求，并将响应的上传端点记为源端点，将源端点接收的文件数据记为源文件数据。

3、统计源文件数据的特征信息以及源端点的文件上传模式参数进行解析，获取源文件数据的第一压缩分块机制。

4、根据所述源文件数据的第一压缩分块机制，对源文件数据执行压缩分块处理，获取源文件数据的各切割数据块。

5、根据所述源文件数据的各切割数据块，同步统计源端点的存储节点集群当前状态信息，并进行过滤得到源文件数据的各切割数据块所对应的目标存储节点进行存储管理。

6、在上述实施例的基础上，所述源文件数据的特征信息，包括源文件数据的文本字节数、图形字节数、视频字节数、字节累计总数。

7、在上述实施例的基础上，所述源端点的文件上传模式参数，包括源端点的各次验证上传的文件数据校核特征信息以及有效上传模式数据。

8、所述各次验证上传的文件数据校核特征信息为各次验证上传的文件数据特征值以及文件数据字节总数。

9、所述有效上传模式数据包括各次验证上传的文件数据对应的有效执行压缩比以及数据块上传执行分割总数。

10、在上述实施例的基础上，所述统计源文件数据的特征信息以及源端点的文件上传模式参数进行解析，具体过程包括：根据源文件数据的特征信息，通过预设回归分析算法进行数值归一拟合处理，得到源文件数据特征值，并根据预定义的特征值许可范围差，划分得到源文件数据隶属特征值区间。

11、从源文件数据的特征信息中统计源文件数据的字节累计总数，并根据预定义的字节许可范围差，定位得到源文件数据的字节归属范围区间。

12、将各次验证上传的文件数据特征值与源文件数据隶属特征值区间进行映射比较，若某次验证上传的文件数据特征值处于源文件数据隶属特征值区间内，则将该次验证上传的文件数据标定为先行文件数据，由此遍历统计各先行文件数据。

13、提取各次验证上传的文件数据字节总数，从中筛分各先行文件数据字节总数，并与源文件数据的字节归属范围区间进行比对，若某先行文件数据字节总数处于源文件数据的字节归属范围区间内，则将该先行文件数据标定为预参考文件数据，由此遍历统计各预参考文件数据。

14、根据各次验证上传的文件数据对应的有效执行压缩比以及数据块上传执行分割总数，从中统计各预参考文件数据对应的有效执行压缩比以及数据块上传执行分割总数。

15、在上述实施例的基础上，所述源文件数据的第一压缩分块机制，分别包括源文件数据的第一预置执行压缩比以及源文件数据的第一预置执行数据块分割总数，具体获取过程为：根据各预参考文件数据对应的有效执行压缩比以及数据块上传执行分割总数，并通过去除极值以及求取均值处理，得到预参考文件数据的参照有效执行压缩比以及预参考文件数据的数据块上传执行参照分割总数。

16、将预参考文件数据的参照有效执行压缩比作为源文件数据的第一预置执行压缩比。

17、将预参考文件数据的数据块上传执行参照分割总数作为源文件数据的第一预置执行数据块分割总数。

18、在上述实施例的基础上，所述源端点的存储节点集群当前状态信息，具体包括当前执行任务队列信息和当前空间网络性能信息。

19、所述当前执行任务队列信息包括当前各存储节点的在执行任务总数、待执行任务总数、待执行任务汇聚容量值以及当前各存储节点的各在执行任务的剩余传输容量和平均执行传输速度。

20、所述当前空间网络性能信息包括当前各存储节点的网络带宽利用率、网络传输速率和网络信号强度。

21、在上述实施例的基础上，所述过滤得到源文件数据的各切割数据块所对应的目标存储节点进行存储管理，具体过程为：根据所述当前执行任务队列信息，经聚类处理得到当前各存储节点的第一权重因子。

22、根据所述当前空间网络性能信息，经聚类处理得到当前各存储节点的第二权重因子。

23、根据当前各存储节点的第一权重因子以及当前各存储节点的第二权重因子，导入预置过滤模型处理得到当前各存储节点的存储执行优先级。

24、将当前各存储节点的存储执行优先级按照从高到低的顺序进行排列，得到存储节点的存储执行优先级排列次序。

25、统计源文件数据的切割数据块数目，记为存储节点指定筛分数目，并从存储节点的存储执行优先级排列次序中以存储节点指定筛分数目进行依次提取得到各目标存储节点。

26、根据各目标存储节点，并与源文件数据的各切割数据块进行对应匹配，得到源文件数据的各切割数据块所对应的目标存储节点，由此进行存储管理。

27、在上述实施例的基础上，所述过滤得到源文件数据的各切割数据块所对应的目标存储节点进行存储管理，还包括：通过预设哈希算法测算得到源文件数据的各切割数据块的初始预期哈希值以及储后测定哈希值。

28、将源文件数据的各切割数据块的初始预期哈希值与储后测定哈希值进行比对处理，若源文件数据的某切割数据块的初始预期哈希值与储后测定哈希值一致，则判断该切割数据块成功存储，反之，若源文件数据的某切割数据块的初始预期哈希值与储后测定哈希值不一致，则判断该切割数据块存储失败，并重新对该数据块进行上传存储。

29、在上述实施例的基础上，所述预置过滤模型，具体为：

30、

31、其中，βj表示当前存储节点j的存储执行优先级，αj为当前存储节点j的第一权重因子，μj为当前存储节点j的第二权重因子，为预设第一权重因子的修正系数，为预设第二权重因子的修正系数，εj当前存储节点j的权重

32、因子累加值，εj＝αj+μj，为预设权重因子累加参考值，j为各存储节点编号，j＝1,2,...,p，p为存储节点总数。

33、根据本技术实施例的另一个方面，提供了一种基于分布式架构的多源文件数据管理系统：包括：管理请求响应接收模块，用于通过多源上传端点响应接收文件数据上传管理请求，并将响应的上传端点记为源端点，将源端点接收的文件数据记为源文件数据。

34、压缩分块机制获取模块，用于统计源文件数据的特征信息以及源端点的文件上传模式参数进行解析，获取源文件数据的第一压缩分块机制。

35、压缩分块处理模块，用于根据所述源文件数据的第一压缩分块机制，对源文件数据执行压缩分块处理，获取源文件数据的各切割数据块。

36、存储管理模块，用于根据所述源文件数据的各切割数据块，同步统计源端点的存储节点集群当前状态信息，并进行过滤得到源文件数据的各切割数据块所对应的目标存储节点进行存储管理。

37、相对于现有技术，本发明的实施例至少具有如下有益效果：

38、(1)本发明通过提供一种基于分布式架构的多源文件数据管理方法及系统，在执行文件数据上传存储的这一过程中，能够有效解析源文件数据的特征信息并分析得到源文件数据的第一压缩分块机制，弥补了当前没有根据文件数据的基本特征进行分析而造成的存储局限性，能够有力避免在存储管理时出现存储冗余或不必要的数据复制现象，进一步保障文件数据的存储管理效率和存储灵活性。

39、(2)本发明通过获取源文件数据的第一压缩分块机制，包括源文件数据的第一预置执行压缩比以及源文件数据的第一预置执行数据块分割总数，实现对源文件数据进行分析并获取适配的压缩比例和数据块分割数目，通过适配的压缩比例和数据块分割数目并进行压缩分块处理，可以有效降低文件数据在实际压缩过程中的处理复杂性，既能够避免压缩过大和数据块分割过多而造成文件损坏，也可避免压缩过小和数据块分割较少而造成存储空间浪费，进而以最大程度利用管理资源，促进存储空间的高效合理应用，并提高了文件数据存储和处理的效率。

40、(3)本发明还通过过滤得到源文件数据的各切割数据块所对应的目标存储节点进行存储管理，能够根据源端点的存储节点集群当前状态信息，将每个切割数据块分配至适合的目标存储节点进行存储，从而可以更好地实现存储节点的动态负载均衡，避免过载节点的出现，进一步提高系统的整体管理效率和资源利用率。

41、当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。