技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于人工智能的数据优化存储方法及大数据系统与流程 > 正文

一种基于人工智能的数据优化存储方法及大数据系统与流程

国知局
2024-09-11 14:50:51

本发明涉及数据优化存储，具体为一种基于人工智能的数据优化存储方法及大数据系统。

背景技术：

1、数据优化存储是一系列技术和方法的应用，旨在提高数据存储系统的性能、效率和经济性。在现代信息化社会，随着人工智能数据量的爆炸式增长，如何高效地读写和存储这些数据成为了技术发展的重要课题，在进行存储之前，对应平台需读写此类数据，读写完毕后，再进行相关存储。

2、公开号为cn116578568a的申请公开了基于人工智能的数据优化存储方法及大数据系统，鉴于完成调试的检测报告语义挖掘网络是结合多维度学习特征调试所得的，因此可以保障所得到的软件缺陷-修复文本语义对的完整性和匹配性，以减少软件缺陷-修复文本语义对出现偏差和混乱的概率。这样一来，通过软件缺陷-修复文本语义对进行选定软件检测数据的结构化存储决策观点确定，能够提升结构化存储决策观点确定的精度和可信度，从而基于结构化存储决策观点对选定软件检测数据进行准确高效的结构化转换，进而实现结构化的存储优化。

3、其主要针对的是存储过程中的数据优化，保障所存储的数据的完整性以及准确性，并未对存储过程中的读写速率进行相关优化，而且在正常的读写存储过程中，针对于同阶段的不同格式文件，按照时间的先后关系，对此类格式文件一一读写，但此种方式，较为缓慢，因对应格式文件内可能存在多组格式，会导致读写逻辑之间的相互转换，导致其读写速率过于缓慢，从而导致存储速率变慢。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于人工智能的数据优化存储方法及大数据系统，解决了对应格式文件内可能存在多组格式，会导致读写逻辑之间的相互转换，导致其读写速率过于缓慢，从而导致存储速率变慢的问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：一种基于人工智能的数据优化存储方法，包括以下步骤：

3、s1)、对相关人工智能所关联的同阶段数据文件进行接收，并基于不同数据文件的相关属性，识别单格式文件或多格式文件，并对多格式文件进行相关分析，从单格式文件中识别出是否存在同类格式文件，若存在，将同类格式文件标定为对应多格式文件的附属格式文件，若不存在，则确定待读写文件，包括：

4、s11、基于不同数据文件的相关属性，确定多格式文件或单格式文件，针对于多格式文件，识别其内部格式集合，并从若干个单格式文件中，识别本多格式文件的每组格式均对应有相同格式的单格式文件，若存在，将此多格式文件标定为主文件，将相同格式的单格式文件标定为本主文件的附属格式文件，其中多格式文件的每个格式的附属格式文件只存在一组；

5、s12、采用步骤s11的方式，对其他主文件以及相关的附属格式文件一一确认后，进行第一阶段的数据读写，将相关主文件内部不同的格式文件进行分离，并在分离处设置分离标记，再将同一格式文件的数据进行一一读写，本主文件以及相关的附属格式文件全部读写完毕后，得到若干组单格式文件，再确认带有分离标记的格式文件，将其进行组合并删除分离标记，得到原始的主文件；

6、s13、针对于未标定为主文件或其他附属格式文件的其他文件，均标定为待读写文件，并进行后续第二阶段的读写处理；

7、s2)、基于所确定的待读写文件，将待读写文件中的多格式文件分离为若干个单格式文件，并基于过往不同单格式文件的读写速率数据，进行同批次文件分类，再对属于同批次文件进行统一读写，包括：

8、s21、将多格式文件分离为若干个单格式文件，并在分离处设置分离标记，其分离方式与步骤s12中的文件分离方式一致，完成分离后，将所分离后的单格式文件再赋予一组文件标记，其文件标记为i，其中i代表待读写文件中的不同多格式文件，不同的多格式文件其标记i不一致；

9、s22、对多格式文件完成文件分离后，将分离后的单格式文件以及待读写文件中所存在的若干组单格式文件进行同类格式确认，将属于同类格式的单格式文件作为同一格式文件，并将同一格式文件的数据进行一一读写，直至所有的同一格式文件读写完毕；

10、s23、针对于所剩余的不同格式的单格式文件，识别过往对应单格式文件的上一组读写过程的读写速率，并依据时刻变化的读写速率，生成其对应单格式文件的读写速率曲线，再将所有单格式文件的读写速率曲线置于同一坐标系内，其坐标系的横向坐标轴为时间线，其竖向坐标轴为读写速率；

11、在坐标系的y轴上，确定一组距离值为x1的间距区域，其中x1为预设值，其间距区域的边线可对相关的读写速率曲线进行分割，且间距区域在y轴上从圆点o开始逐步向上移动，记录每个移动过程其对应读写速率曲线位于本间距区域范围内的部分线段，并确定部分线段位于对应读写速率曲线的线长占比zb，随着间距区域的移动，其线长占比zb也会跟随发生变化，当zb≥y1时，将此读写速率曲线标定为可选定曲线，当zb＜y1时，不进行任何处理，其中y1为预设值，其间距区域在移动过程中，确认对应间距区域所存在的可选定曲线的最大个数，并将属于同一间距区域的可选定曲线所对应的单格式标定为同批次格式；

12、若不同的同批次格式内存在相同的单格式，则保留优先选定的单格式，剔除后续所选定的单格式；

13、s24、将步骤s23中所确认的属于同批次格式的单格式文件进行统一读写，不同的同批次格式对应的单格式文件全部读写完毕后，再对所剩余的单格式文件进行一一读写；

14、s25、将带有相同文件标记的单格式文件进行选取，再基于分离标记将单格式文件进行组合，完成组合后删除内部的文件标记以及分离标记，得到原始的多格式文件；

15、s3)、本阶段的所有数据文件全部读写完毕后，对不同格式的数据文件进行存储，针对不同格式的数据文件，采用不同的存储区间进行对应存储；包括：

16、s31、针对于单格式文件，建立对应格式的存储区间，对不同的单格式文件进行存储，每个不同存储空间内存储对应单格式的单格式文件；

17、s32、针对于多格式文件，识别内部的格式是否对应有存储指定单格式的存储区间，若只存在一组格式对应存在有单格式的存储区间，则将此多格式文件存储于对应单格式的存储区间内；

18、若存在多组格式对应存在有单格式的存储区间，则将多组格式的不同格式标定为待定格式，识别待定格式相关的文件内容位于多格式文件总内容的具体占比zz，并从多组zz中，选取一组最大值zz所对应的待定格式，将此待定格式所对应的单格式的存储区间标定为选定区间，将此多格式文件存储于选定区间内；

19、若不存在任一一组格式对应有单格式的存储区间，则存储至操作人员所建立的存储区间内，对此多格式文件进行存储。

20、优选的，一种基于人工智能的数据优化存储的大数据系统，包括：

21、文件格式识别端，对相关人工智能所关联的同阶段数据文件进行接收，并基于不同数据文件的相关属性，识别单格式文件或多格式文件；

22、第一阶段读写端，对多格式文件进行相关分析，从单格式文件中识别出是否存在同类格式文件，若存在，将同类格式文件标定为对应多格式文件的附属格式文件并进行读写，若不存在，则确定待读写文件；

23、第二阶段读写端，基于所确定的待读写文件，将待读写文件中的多格式文件分离为若干个单格式文件，并基于过往不同单格式文件的读写速率数据，进行同批次文件分类，再对属于同批次文件进行统一读写，不同的同批次格式对应的单格式文件全部读写完毕后，再对所剩余的单格式文件进行一一读写；

24、文件分类存储端，数据文件全部读写完毕后，对不同格式的数据文件进行存储，针对不同格式的数据文件，采用不同的存储区间进行对应存储。

25、本发明提供了一种基于人工智能的数据优化存储方法及大数据系统。与现有技术相比具备以下有益效果：

26、本发明通过针对对应数据文件中的单格式文件以及多格式文件，针对存在对应附属格式文件的多格式文件，采用分批次同格式的读取方式，对此类多格式文件以及附属格式文件进行相关读取；

27、针对于不存在附属格式的多格式文件，采用文件分割的方式，确认单格式文件，再将同类单格式文件进行统一读取；

28、针对于未出现同类格式的其他单格式文件，通过分析过往的读写速率曲线，分析其是否可进行同频读取，来确定同批次文件，并对同批次文件进行统一读取，采用此种读取方式，便可充分保障其读写速率，无需进行数据之间格式的来回调换，对读写速率进行了有效增强，在进行存储之前获取数据阶段，保障获取数据的速率得到有效增强，便进一步增强了整个阶段文件的存储速率；

29、后续，针对于不同格式的单文件或多文件，采用不同的方式对其进行存储，便于后续对应文件的相关提取，对存储过程进行相关优化。