一种资产数据批量插入大数据分析平台的数据插入方法与流程
- 国知局
- 2024-08-30 14:34:41
本发明涉及大数据分析,尤其涉及一种资产数据批量插入大数据分析平台的数据插入方法。
背景技术:
1、在对资产数据进行大数据分析时,目前大数据分析平台采用如下资产数据导入方式:资产管理页面导入方式、调用资产管理页面api导入方式。
2、资产管理页面导入方式在进行资产数据导入操作时,当导入的数据集规模较小,系统能够顺畅处理,导入过程迅速且无碍。然而,当导入的数据量超过50万条记录,系统响应显著放缓,具体表现为页面加载时间延长、交互迟滞乃至暂时性无响应状态,造成了明显的等待和操作不便。
3、调用资产管理页面api导入方式在进行资产数据导入时,会遇到数据完整性问题。具体而言,调用资产管理页面api导入数据虽然绕过了前端限制,但当尝试导入大量资产信息时,系统偶尔会出现数据遗漏的现象,即部分资产记录未成功录入系统。这种数据丢失情况不仅影响了资产管理的准确性与可靠性,还可能对后续的资产分析、报告生成等环节造成连锁反应,降低了整体工作效率与数据可信度。
4、综上,现有技术缺乏一种有效的资产数据批量导入方法,能够保证系统顺畅处理且无数据丢失现象,以高效、稳定、准确地处理大量资产数据的导入。
技术实现思路
1、鉴于上述的分析,本发明实施例旨在提供一种资产数据批量插入大数据分析平台的数据插入方法,用以解决现有技术批量导入资产数据时或出现系统响应过慢或出现数据丢失的问题。
2、一方面,本发明实施例提供了一种资产数据批量插入大数据分析平台的数据插入方法,包括如下步骤:
3、s1.建立并发数参数可调的资产数据批量插入工具;
4、s2.接收到数据导入开始指令后,根据待导入资产数据的数据量大小设置上述资产数据批量插入工具的并发数参数;
5、s3.在资产数据批量插入工具中选定待导入资产数据,并控制该资产数据批量插入工具对选定的待导入资产数据依次进行解析、验证,得到标准数据格式的待导入资产数据;
6、s4.控制资产数据批量插入工具对所述标准数据格式的待导入资产数据进行数据预处理,以实现数据格式统一与规范化;
7、s5.建立资产数据批量插入工具与大数据分析平台中目标数据库的数据传输连接,将数据预处理后的待导入资产数据按预设的数据映射规则并遵循上述并发数参数设置分批上传至目标数据库。
8、上述技术方案的有益效果如下:解决了大数据分析平台在处理和导入批量资产数据时采用传统页面导入和api调用存在的性能瓶颈和数据完整性问题。可高效、稳定、准确地处理大量资产数据的导入。资产数据批量插入工具的并发数参数可以自定义,配置简单,交付容易。该工具自动化地解析原始数据文件,验证数据准确性。并且,根据数据预处理逻辑,对数据进行数据清洗,确保数据格式统一与规范化。通过优化的并发数据传输和处理机制,能够将大量数据分批高效地传输至数据库,极大减少了网络往返和数据库操作的次数,从而显著提升了数据导入的速度,缩短了整体耗时。通过并发批量处理策略和事务管理,资产数据批量插入工具能够更加合理地分配和使用系统资源,减少对目标数据库的冲击。具有可复用性,其他使用公司在处理安全大数据分析平台的项目时需要批量导入资产数据可以直接复用。
9、基于上述方法的进一步改进,步骤s2包括如下子步骤:
10、s21.接收到数据导入开始指令后,对待导入资产数据进行扫描,确定待导入资产数据的数据量大小;
11、s22.根据服务器的cpu核数、内存大小,结合上述待导入资产数据的数据量大小,确定该服务器上数据插入的最佳并发数;
12、s23.将资产数据批量插入工具中的并发数参数设置为上述最佳并发数。
13、进一步,步骤s3中的解析包括如下子步骤:
14、s31.在资产数据批量插入工具的配置文件中设置列映射规则,所述列映射规则包括csv文件的列名称与目标数据库的字段名和字段类型之间的映射规则;
15、s32.控制资产数据批量插入工具自动定位指定路径下待导入资产数据对应的所有csv文件,并打开待每一csv文件;
16、s33.控制资产数据批量插入工具按照上述列映射规则对每一csv文件分别进行映射处理,使csv文件的列名称与目标数据库的字段名和字段类型一一对应;
17、s34.对映射处理后的每一csv文件分别按照目标数据库的数据类型要求进行数据类型转换;
18、s35.对数据类型转换后的每一csv文件分别进行结构化处理,得到每一csv文件对应的易于处理的数据结构列表,且列表中每一元素代表一条独立的待导入资产数据。
19、进一步,步骤s3中的验证包括如下子步骤:
20、s36.对数据结构列表中每一元素分别进行必填项检查并修正必填项检查不合格结果,使得所述每一元素都包含非空值;
21、s37.对数据结构列表中每一元素分别进行数据格式验证,包括对每一数值型数据使用正则表达式或内置函数验证其数据格式是否符合预期数据格式,对于不符合预期数据格式的元素进行修正;
22、s38.对数据结构列表中每一元素分别进行数据范围验证,使得每一元素对应的待导入资产数据在合理设定范围内,并且其字符串长度符合目标数据库的最大字段长度限制;
23、s39.对数据结构列表中每一元素分别进行唯一性检查,排除重复记录的待导入资产数据,以确保数据结构列表中每一元素具有数据唯一性;
24、s40.将经过步骤s36-s39处理的数据结构列表,作为标准数据格式的待导入资产数据。
25、进一步,步骤s4包括如下子步骤:
26、s41.控制资产数据批量插入工具对标准数据格式的待导入资产数据进行数据类型转换,使得每列数据的类型正确无误;
27、s42.控制资产数据批量插入工具对数据类型转换后的标准数据格式的待导入资产数据进行文本数据清洗,包括去除无关字符、统一大小写;
28、s43.控制资产数据批量插入工具对文本数据清洗后的标准数据格式的待导入资产数据分别进行时间数据处理,使得待导入资产数据中所有时间数据的格式一致,并处于同一时区;
29、s44.控制资产数据批量插入工具对时间数据处理后的标准数据格式的待导入资产数据进行空值替换,将所有空值替换为指定值。
30、进一步,步骤s5包括如下子步骤:
31、s51.建立资产数据批量插入工具与大数据分析平台中目标数据库的数据传输连接;
32、s52.验证上述数据传输连接是否有效,对于无效的数据传输连接进行数据传输连接中数据库配置信息修正,直到数据传输连接有效;
33、s53.将数据预处理后的待导入资产数据按预设的数据映射规则并遵循上述并发数参数设置分批上传至目标数据库,直到所有待导入资产数据插入完成;
34、s54.关闭资产数据批量插入工具与大数据分析平台中目标数据库的数据传输连接,释放其在服务器上占用的资源。
35、进一步,步骤s53中的数据映射规则包括列映射规则。
36、进一步,步骤s53包括如下子步骤:
37、s531.控制资产数据批量插入工具按照数据映射规则准备sql插入语句;
38、s532.控制资产数据批量插入工具按照其参数中的并发数参数设置,开启多线程批量执行sql插入语句,将数据清洗后的待导入资产数据插入到目标数据库。
39、进一步,步骤s53还包括如下子步骤:
40、s533.在执行步骤s532的插入过程中,控制资产数据批量插入工具记录每条待导入资产数据的插入状态,并统计插入成功的数量,对于插入失败的问题待导入资产数据进行修改后重新插入。
41、进一步,步骤s53还包括如下子步骤:
42、s534.在执行步骤s532的插入过程中,如果遇到数据传输连接断开或数据格式错误,控制资产数据批量插入工具记录错误信息,并将当前批次的所有操作回滚,待数据修正后重新执行当前批次的所有操作,以易防止数据遗漏。
43、提供技术实现要素:部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本发明的重要特征或必要特征,也无意限制本发明的范围。
本文地址:https://www.jishuxx.com/zhuanli/20240830/282803.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。