技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种整库实时数据同步方法及系统与流程 > 正文

一种整库实时数据同步方法及系统与流程

国知局
2024-10-15 09:29:04

本发明涉及实时数据同步，具体涉及一种基于apache flink cdc的整库实时数据同步方法以及一种基于apache flink cdc的整库实时数据同步系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

2、随着大数据时代的到来，实时数据同步成为数据管理的关键技术之一。apacheflink作为流式计算框架，具有高性能、高吞吐量和低延迟的特点，广泛应用于实时数据处理和分析领域。

3、然而，发明人发现，现有的数据同步方法存在一些局限性，如使用flinksql提交同步任务时只能一次提交一个表的同步任务，无法实现整库的一次性同步；同时，提交多个同步任务后会占用flink的多个slot，影响系统的并发性能；此外，整库同步可能还会占用大量的连接资源，导致资源浪费和效率降低。

技术实现思路

1、为了解决现有技术的不足，本发明提供了一种整库实时数据同步方法及系统，基于apache flink cdc实现，实现了高效和灵活的整库实时数据同步，提升了数据同步的效率和资源利用率。

2、为了实现上述目的，本发明采用如下技术方案：

3、第一方面，本发明提供了一种整库实时数据同步方法。

4、一种整库实时数据同步方法，包括以下过程：

5、获取选择的通道信息，所述通道信息代表输入源和输出源之间的映射关系集合；

6、判断各个任务的通道信息是否来源于一个数据源，如是，则将各个任务聚合为一个任务；如否，则以输入源的数据库识别码为主键进行各个任务的聚合，得到聚合后的任务；

7、以聚合后的任务进行整库实时数据同步。

8、作为本发明第一方面进一步的限定，在整库实时数据同步过程中，根据预置规则分析输入源中的表结构、字段类型及长度，推荐目标数据库的表结构，根据推荐的目标数据库的表结构，创建目标数据库的表。

9、作为本发明第一方面更进一步的限定，目标数据库的表结构，包括字段名、数据类型和长度。

10、作为本发明第一方面进一步的限定，分析输入源数据库和目标数据库之间的数据类型差异，根据数据类型差异，进行字段映射配置推荐，识别字段类型转换规则。

11、作为本发明第一方面进一步的限定，使用kafka作为输出源。

12、作为本发明第一方面更进一步的限定，配置mysql作为数据同步的输入源，配置kafka作为数据同步的输出源，使得数据在输入源和输出源之间实现流转和序列化；

13、数据同步任务被提交后，根据配置信息生成相应的任务执行计划；

14、提交配置好的数据同步任务，根据任务配置生成并执行数据同步流程；

15、利用kafka进行数据流的分发和处理，支持并发订阅数据流。

16、第二方面，本发明提供了一种整库实时数据同步系统。

17、一种整库实时数据同步系统，包括：

18、通道选择单元，被配置为：获取选择的通道信息，所述通道信息代表输入源和输出源之间的映射关系集合；

19、任务聚合单元，被配置为：判断各个任务的通道信息是否来源于一个数据源，如是，则将各个任务聚合为一个任务；如否，则以输入源的数据库识别码为主键进行各个任务的聚合，得到聚合后的任务；

20、整库同步单元，被配置为：以聚合后的任务进行整库实时数据同步。

21、第三方面，本发明提供了一种整库实时数据同步系统。

22、一种整库实时数据同步系统，包括：

23、任务分类模块、cdc源管理模块、通道管理模块、实时任务模块、消息队列模块和任务监控模块；

24、任务分类模块，用于对实时同步任务进行分类管理；

25、cdc源管理模块，用于支持多种数据库数据源的同步，通过系统提供的界面进行cdc源的配置，配置过程包括数据库类型选择、输入连接信息和权限验证；

26、通道管理模块，用于根据不同库字段类型，根据预置规则自动识别并转换不同数据库系统中的字段类型进行推荐匹配同步字段，支持用户手动改变数据映射规则，将源数据库的结构和数据类型映射到目标数据库；

27、实时任务模块，用于任务的创建、监控和调度的实时管理，通过系统界面创建数据同步任务，并监控任务的执行状态和性能指标；

28、任务监控模块，用于实时监控数据流的状态和性能，包括读取量、写入量、读取速率、写入速率，当数据同步过程中出现异常情况时通过预设的告警机制生成告警信息；

29、消息队列模块，用于使得系统支持kafka作为输入源和输出源，处理不同格式的数据进行同步。

30、第四方面，本发明提供了一种计算机设备，包括：处理器和计算机可读存储介质；

31、处理器，适于执行计算机程序；

32、计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如本发明第一方面所述的整库实时数据同步方法。

33、第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如本发明第一方面所述的整库实时数据同步方法。

34、与现有技术相比，本发明的有益效果是：

35、本发明创新的提出了一种基于apache flink cdc的整库实时数据同步方法及系统，解决了flinksql只能一次提交一个表的同步任务、提交多个任务后占用flink的多个slot、以及整库同步占用多个连接的问题，实现了高效和灵活的整库实时数据同步，提升了数据同步的效率和资源利用率。

36、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种整库实时数据同步方法，其特征在于，包括以下过程：

2.如权利要求1所述的整库实时数据同步方法，其特征在于，

3.如权利要求2所述的整库实时数据同步方法，其特征在于，

4.如权利要求1所述的整库实时数据同步方法，其特征在于，

5.如权利要求1所述的整库实时数据同步方法，其特征在于，

6.如权利要求5所述的整库实时数据同步方法，其特征在于，

7.一种整库实时数据同步系统，其特征在于，包括：

8.一种整库实时数据同步系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器和计算机可读存储介质；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-6任一项所述的整库实时数据同步方法。

技术总结本发明提供了一种整库实时数据同步方法及系统，属于实时数据同步技术领域，所述的数据同步方法，包括：获取选择的通道信息，所述通道信息代表输入源和输出源之间的映射关系集合；判断各个任务的通道信息是否来源于一个数据源，如是，则将各个任务聚合为一个任务；如否，则以输入源的数据库识别码为主键进行各个任务的聚合，得到聚合后的任务；以聚合后的任务进行整库实时数据同步；本发明解决了FlinkSQL只能一次提交一个表的同步任务、提交多个任务后占用Flink的多个slot、整库同步占用多个连接的问题，实现了高效和灵活的整库实时数据同步，提升了数据同步的效率和资源利用率。技术研发人员：李扬,孙浩,李重泽,李钊,孙露,卢凤,孙静蕾,王召祺,李欣欣,冯跃受保护的技术使用者：山东亿云信息技术有限公司技术研发日：技术公布日：2024/10/10