技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于SaaS软件的数据库复制方法及系统与流程 > 正文

用于SaaS软件的数据库复制方法及系统与流程

国知局
2024-11-06 15:06:27

本技术涉及数据处理，特别涉及一种用于saas软件的数据库复制方法及系统。

背景技术：

1、在软件即服务（saas）领域，服务提供商需为多个客户提供独立的数据存储和业务逻辑处理。每个客户的数据包括但不限于用户信息、交易记录、配置设置等，这些数据通常存储在数据库中。为了满足不同客户的特定需求，服务提供商需要能够快速、准确地复制客户的数据库中的数据，同时确保数据的完整性和一致性。

2、相关技术中，传统的数据复制技术通常涉及直接复制数据库中的现有数据，并将其粘贴到新的数据库中。这种方法简单直接，但并不考虑数据的唯一性约束，特别是主键的唯一性。在多客户环境中，如果简单地复制数据，可能会导致主键冲突，因为每个客户的数据集都需要有唯一的主键来维持数据的完整性。直接复制数据导致不同客户的数据库中出现重复的主键，这违反了数据库的主键约束，可能导致数据插入失败或数据不一致。

技术实现思路

1、本技术实施例提供了一种用于saas软件的数据库复制方法及系统。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

2、第一方面，本技术实施例提供了一种用于saas软件的数据库复制方法，方法包括：

3、连接目标对象使用的saas软件的源数据库，并读取源数据库中每个数据表的每条数据；

4、根据预先制定的主外键生成策略，对每条数据进行主键替换和外键更新，得到多个待复制数据表；主外键生成策略用于在数据库复制过程中自动生成每条数据的新主键对每条数据的旧主键进行主键替换以及使用新主键更新每条数据的外键；

5、检查每个待复制数据表的所有主键是否唯一；

6、在每个待复制数据表的所有主键全部唯一的情况下，将每个待复制数据表复制到目标数据库。

7、可选的，主外键生成策略包括参数获取模块、新id计算模块、主键替换模块以及外键更新模块；

8、根据预先制定的主外键生成策略，对每条数据进行主键替换和外键更新，包括：

9、参数获取模块获取当前时间戳和预设偏移量；

10、新id计算模块根据当前时间戳和预设偏移量，对每条数据计算出新id，得到每条数据的新id；

11、主键替换模块将每条数据的新id作为新主键替换每条数据的旧主键，以对每条数据进行主键替换；

12、外键更新模块根据每条数据的新id更新每条数据的外键，以对每条数据进行外键更新。

13、可选的，根据当前时间戳和预设偏移量，对每条数据计算出新id，得到每条数据的新id，包括：

14、统计每条数据的数据量；

15、采用哈希函数对每条数据的数据量进行哈希处理，以将每条数据的数据量转化为固定长度的哈希值，得到每条数据的目标哈希值；

16、根据预设偏移量，对当前时间戳进行动态调整，以增加当前时间戳的区分度，得到目标时间戳；

17、基于每条数据的目标哈希值与目标时间戳，计算每条数据的新id。

18、可选的，基于每条数据的目标哈希值与目标时间戳，计算每条数据的新id，包括：

19、采用哈希函数对每条数据的目标哈希值与目标时间戳进行组合哈希处理，得到每条数据的组合哈希值；

20、根据每条数据的组合哈希值，计算每条数据的新id；其中，每条数据的新id的计算公式为：

21、

22、其中，为每条数据的新id，和是整数，用户控制位移的位数，为每条数据的组合哈希值，为异或操作符，为每条数据的数据量，表示位左移操作。

23、可选的，根据每条数据的新id更新每条数据的外键，包括：

24、获取目标对象的数据字典；

25、从数据字典中，获取每条数据的外键；其中，每条数据的外键为其他表中数据的旧主键；

26、存储每条数据的新id与旧主键之间的关联关系，得到源数据库中所有数据表的映射关系；

27、根据每条数据的外键对应的其他表中数据的旧主键，从映射关系中，获取每条数据的外键对应的其他表中数据的新id；

28、将每条数据的外键对应的其他表中数据的旧主键替换为每条数据的外键对应的其他表中数据的新id。

29、可选的，按照以下步骤生成预设偏移量，包括：

30、实时收集每条数据的新id相关数据，新id相关数据包括实际生成的id、系统负载、日期时间；

31、实时捕捉系统状态，生成实时数据流；

32、从新id相关数据以及实时数据流中，提取影响id生成的时间、日期、系统负载、历史偏移量使用情况，得到目标因素集；

33、将目标因素集进行特征构建以及特征转化，得到实时特征数据；

34、将实时特征数据输入预先训练的用于避免id冲突的偏移量确定模型；偏移量确定模型是用于确定避免id冲突的偏移量的数学模型；

35、输出系统状态对应的符合当前时刻的最佳偏移量；

36、将最佳偏移量作为预设偏移量。

37、可选的，按照以下步骤生成预先训练的用于避免id冲突的偏移量确定模型，包括：

38、收集预设时间段中针对任意数据库的任意数据表中每条第一数据生成新id时的历史id相关数据及其历史数据流；

39、从历史id相关数据及其历史数据流中，提取影响id生成的历史时间、历史日期、历史系统负载、历史偏移量使用情况，得到历史因素集；

40、拟合出历史因素集的量化图表，得到每条第一数据的量化图表；

41、将每条第一数据的量化图表发送至客户端进行展示；

42、接收针对展示的图表所输入的用于避免id冲突的历史偏移量，得到每条第一数据的量化图表的历史偏移量；

43、将历史偏移量作为标签对每条第一数据生成新id时的历史id相关数据及其历史数据流进行数据标注，得到多条标注样本，作为模型训练数据；

44、根据模型训练数据，生成预先训练的用于避免id冲突的偏移量确定模型。

45、可选的，根据模型训练数据，生成预先训练的用于避免id冲突的偏移量确定模型，包括：

46、使用随机森林算法创建用于避免id冲突的偏移量确定模型；

47、将模型训练数据输入偏移量确定模型中进行机器学习，输出模型损失值；

48、在模型损失值到达最小时，生成预先训练的用于避免id冲突的偏移量确定模型；或者，

49、在模型损失值未到达最小时，将模型损失值进行反向传播，以更新偏移量确定模型的模型参数，并继续执行将模型训练数据输入偏移量确定模型中进行机器学习的步骤，直到模型损失值到达最小。

50、可选的，用于避免id冲突的偏移量确定模型的模型损失函数为：

51、

52、

53、其中，为模型损失值，为模型训练数据的样本数量，为模型预测的第个样本的预测偏移量，为第个样本的实际偏移量，为用于避免id冲突的偏移量确定模型的模型参数，是第个样本的历史因素集的特征向量，是偏差项，通过最小化损失函数，模型学习到的用于避免id冲突的偏移量确定模型的模型参数和偏差项将使得预测偏移量无限接近实际偏移量，从而有效避免id冲突。

54、第二方面，本技术实施例提供了一种用于saas软件的数据库复制系统，系统包括：

55、连接模块，用于连接目标对象使用的saas软件的源数据库，并读取源数据库中每个数据表的每条数据；

56、替换更新模块，用于根据预先制定的主外键生成策略，对每条数据进行主键替换和外键更新，得到多个待复制数据表；主外键生成策略用于在数据库复制过程中自动生成每条数据的新主键对每条数据的旧主键进行主键替换以及使用新主键更新每条数据的外键；

57、检查模块，用于检查每个待复制数据表的所有主键是否唯一；

58、复制模块，用于在每个待复制数据表的所有主键全部唯一的情况下，将每个待复制数据表复制到目标数据库。

59、本技术实施例提供的技术方案可以包括以下有益效果：

60、在本技术实施例中，一方面，通过实施统一标准下的预先制定的主外键生成策略，自动为每条数据生成新的主键，并更新所有相关的外键，可以确保数据迁移后在多个表之间的引用关系仍然正确，避免了手动更新关联字段的繁琐和出错的可能性，提高了数据操作的效率和准确性；另一方面，通过检查所有待复制数据表的主键的唯一性，减少了数据迁移过程中的主键冲突及其外键引用错误的问题，从而降低了维护成本和潜在的业务中断风险。

61、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。