技术新讯 > 电子通信装置的制造及其应用技术 > 动态自适应的海量文件数据上云迁移方法及装置与流程  >  正文

动态自适应的海量文件数据上云迁移方法及装置与流程

  • 国知局
  • 2024-08-02 14:26:17

本发明涉及云计算,尤其是涉及动态自适应的海量文件数据上云迁移方法及装置。

背景技术:

1、数据迁移(又称分级存储管理,hierarchical storage management,hsm)是一种将离线存储与在线存储融合的技术,它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库(简称带库)等二级大容量存储设备上;

2、数据上云是指将数据存储和处理的过程迁移到云计算平台上,云计算平台提供了虚拟化的资源,包括计算、存储和网络等,可以帮助用户更高效地管理和利用数据,数据上云可以带来许多好处,包括灵活性、可扩展性、成本效益和安全性等方面的优势;

3、随着各种上“云”需求铺面而来,客户数据迁移上云工作显得尤其重要,数据迁移的挑战来自很多方面,例如客户网络环境的不稳定性、数据迁移工作所使用的网络仍然在跑业务数据、迁移工作不能过多抢占业务网络资源而影响客户现有业务系统等等,因此迫切需要研究突破动态自适应的海量文件数据上云迁移方法及装置。

4、上述中的现有技术方案存在以下缺陷:现有的数据迁移复制技术,不能解决客户上云需求下,数据迁移抢占业务网络的问题,不能动态自适应进行大规模数据迁移工作。

技术实现思路

1、本发明的目的是提供动态自适应的海量文件数据上云迁移方法及装置。

2、为实现上述目的,本发明提供了如下技术方案:

3、一种动态自适应的海量文件数据上云迁移装置,包括以下步骤:

4、步骤s1:数据库连接初始化;

5、步骤s2:配置迁移数据源,迁移源数据的ip地址、用户名、密码、协议,通常为ssh协议;

6、步骤s3:源数据连接测试;

7、步骤s4:配置数据迁移目标;

8、步骤s5:迁移目标连接测试;

9、步骤s6:迁移网络监控初始化;

10、步骤s7:动态自适应控制模块初始化;

11、步骤s8:并发读控制模块初始化;

12、步骤s9:并发写控制模块初始化;

13、步骤s10:基于步骤s8初始化的n个工作任务,及步骤s2的迁移源配置信息,连接迁移源,启动并发读数据工作,同时记录读日志;

14、步骤s11:基于步骤s10读入的数据,写入数据缓存队列;

15、步骤s12:基于步骤s9初始化的n个工作任务,及步骤s4的迁移目标配置信息,连接迁移目标,启动并发写数据工作,从数据缓存队列读取数据,写入迁移源,同时记录写日志;

16、步骤s13:数据迁移读写工作完成之后,通过文件的数量、大小、时间戳、文件摘要等维度对源端和目标端的数据进行校验。

17、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s1中数据库连接初始化,具体包括:

18、采用java vm作为基础运行环境,利用java数据库连接池进行高性能、可靠的数据库连接。

19、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s3中源数据连接测试,具体包括:

20、根据源数据配置信息,对源数据进行连接测试,确保s2步骤中配置信息正确,如果发现配置信息错误,连接失败则给出提示,流程重新返回到步骤s2。

21、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s4中配置数据迁移目标,具体包括:

22、迁移目标的ip地址、用户名、密码、协议(通常为ssh或者hdfs协议),如果是对象存储系统则包括:服务商、桶名称(bucket)、秘钥id(access key id)、秘钥(access key)、文件或目录名。

23、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s5中迁移目标连接测试,具体包括:

24、对配置好的迁移目标进行测试,确保配置正确,如果配置错误,重新返回到s4进行迁移目标配置。

25、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s6中迁移网络监控初始化,具体包括:

26、带宽利用率计算方法:[(流量n-流量n-1)*8/带宽]*100%。

27、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s7中动态自适应控制模块初始化,包括:

28、当步骤s7中动态自适应控制模块初始化后,定时读取步骤s6中网络监控的数据,对步骤s8中的并发读控制模块及步骤s9中的并发写控制控制的并发任务数量进行动态自适应控制,具体步骤如下:

29、(1)基准迁移带宽占用率r0=单个工作任务的迁移带宽占用率,表示在客户实际网络环境下,单个迁移任务执行数据迁移时的网络带宽利用率。这个数值是把迁移工具部署在客户网络环境中,多次执行单个迁移任务,记录每次执行一定量的数据迁移时网络带宽利用率占用率,最后取算术平均值。

30、r0=avg(r1+r2+…rn)

31、假定在客户实际网络环境下,客户期望的目标带宽利用率为t0(例如80%),数据迁移过程中,周期性监测网络实际带宽利用率为u0(例如50%)

32、(2)当t0>u0时,表示迁移网络利用没有达到目标,网络带宽利用率不够,需要动态增加迁移工作任务,提升网络带宽利用率,加快数据迁移速度,需要动态增加的并发工作任务数量计算如下:

33、addn=(t0–u0)/r0(addn取整数)

34、(3)当t0<u0时,表示网络利用超过了目标,网络带宽利用率超标,需要动态减少并发迁移工作任务,降低网络带宽利用率,降低数据迁移速度,需要动态减少的工作任务数量计算如下:

35、subn=(u0–t0)/r0(subn取整数)

36、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s8中并发读控制模块初始化,包括:

37、接受动态自适应控制模块的调度,动态增加或者减少数据迁移读工作任务,动态加快或者降低数据迁移读速度,提升或者降低网络带宽利用率。

38、作为本发明所述动态自适应的海量文件数据上云迁移方法的一种优选方案,其中,所述步骤s9中并发写控制模块初始化,包括:

39、接受动态自适应控制模块的调度,动态增加或者减少数据并且迁移写工作任务,动态加快或者降低数据迁移写速度,提升或者降低网络带宽利用率。

40、动态自适应的海量文件数据上云迁移装置,包括源数据读控制器、带宽利用率监测模块、目标数据写控制器和动态自适应控制模块。

41、综上,本发明的有益技术效果为:

42、本发明根据客户网络环境及带宽占用控制需求,基于迁移网络带宽利用率,动态自适应控制并发数据读写,赋予客户大规模数据上云的动态自适应能力,针对不同客户的网络传输占用需求,一方面避免数据迁移工作过度抢占用户业务网络资源,另一方面能够动态提升迁移网络资源利用率,提升客户数据上云效率,降低数据迁移成本。

本文地址:https://www.jishuxx.com/zhuanli/20240801/242767.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。