用于数据去重复的方法、设备和计算机程序产品与流程
- 国知局
- 2024-07-31 22:36:17
本公开涉及数据保护领域,并且更具体地,涉及用于数据去重复的方法、设备和计算机程序产品。
背景技术:
1、数据的价值在当今社会已被大众广泛认知,对于存储产品来说,诸如数据复制和数据备份的用于保护数据的功能是非常重要的。随着社会信息化的发展和数据量的快速增长,数据备份系统中需要备份和恢复的数据也越来越多。数据去重复技术已作为一种数据无损压缩技术被广泛应用在数据备份系统中。
2、在线去重复技术指的是在数据存储到存储设备上的同时进行重复数据删除流程,换句话说,在数据存储到硬盘之前,重复数据就已经被去除掉了。恢复点目标是组织期望在灾难期间从数据丢失中恢复的最大时间间隔。如果未满足恢复点目标,则在停机期间丢失大量重要数据的可能性会增加。在密集的恢复点目标时间期间对传入的全部数据块进行在线去重复对中央处理单元(cpu)和内存来说都存在着挑战。
技术实现思路
1、根据本公开的实施例,提供了一种用于数据去重复的方法。该方法包括对写入源数据存储系统的第一组数据块进行压缩和去重复,以获得第二组数据块和针对第二组数据块中的数据块的压缩率和重复次数;接收对第一组数据块进行备份的请求;响应于接收到对第一组数据块进行备份的请求,对第二组数据块进行重构以获得第一组数据块;基于压缩率和重复次数,针对第一组数据块中的数据块标记用于去重复的标识,以获得第三组数据块;以及向目的地存储系统传送第三组数据块。
2、在本公开的第二方面中,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
3、在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
4、应当理解,技术实现要素:部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征将通过以下的描述变得容易理解。
技术特征:1.一种用于数据去重复的方法,包括:
2.根据权利要求1所述的方法,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
3.根据权利要求2所述的方法,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
4.根据权利要求3所述的方法,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
5.根据权利要求4所述的方法,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
6.根据权利要求5所述的方法,其中所述第二重复次数阈值大于所述第一重复次数阈值。
7.根据权利要求5所述的方法,其中所述第一标识与所述第三标识不同。
8.根据权利要求7所述的方法,其中所述目的地存储系统读取所述第三组数据块中的数据块的用于去重复的标识,并对所述数据块进行去重复。
9.根据权利要求8所述的方法,其中所述目的地存储系统利用第一散列表来对具有所述第一标识的第一数据块进行去重复,并且利用第二散列表来对具有所述第三标识的第二数据块进行去重复。
10.根据权利要求9所述的方法,其中在所述第一数据块未命中所述第一散列表中的条目时,向所述第一散列表添加与所述第一数据块相对应的条目。
11.一种电子设备,包括:
12.根据权利要求11所述的设备,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
13.根据权利要求12所述的设备,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
14.根据权利要求13所述的设备,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
15.根据权利要求14所述的设备,其中针对所述第一组数据块中的数据块标记用于去重复的标识包括:
16.根据权利要求15所述的设备,其中所述第二重复次数阈值大于所述第一重复次数阈值。
17.根据权利要求15所述的设备,其中所述第一标识与所述第三标识不同。
18.根据权利要求17所述的设备,其中所述目的地存储系统读取所述第三组数据块中的数据块的用于去重复的标识,并对所述数据块进行去重复。
19.根据权利要求18所述的设备,其中所述目的地存储系统利用第一散列表来对具有所述第一标识的第一数据块进行去重复,并且利用第二散列表来对具有所述第三标识的第二数据块进行去重复。
20.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行动作,所述动作包括:
技术总结本公开涉及用于数据去重复的方法。该方法对写入源数据存储系统的第一组数据块进行压缩和去重复,以获得第二组数据块和针对第二组数据块中的数据块的压缩率和重复次数。该方法接收对第一组数据块进行备份的请求。该方法响应于接收到对第一组数据块进行备份的请求,对第二组数据块进行重构以获得第一组数据块。该方法基于压缩率和重复次数,针对第一组数据块中的数据块标记用于去重复的标识,以获得第三组数据块。该方法向目的地存储系统传送第三组数据块。该方法节省目的地存储系统中的物理空间,还减少了目的地存储系统针对数据块进行指纹计算的计算次数和查询去重复表的查询次数,从而节省了处理和存储资源的消耗,并提高了数据备份过程的速度。技术研发人员:姜昌旭,王飞受保护的技术使用者:戴尔产品有限公司技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240731/193819.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。