技术新讯 > 电子电路装置的制造及其应用技术 > 一种自适应多元时序数据协同压缩方法及系统与流程 > 正文

一种自适应多元时序数据协同压缩方法及系统与流程

国知局
2024-08-02 15:25:51

本发明属于数据处理，尤其涉及一种自适应多元时序数据协同压缩方法及系统。

背景技术：

1、随着云计算技术的普及，越来越多的应用部署在云平台上运行，例如搜索引擎、在线办公、电子商务和在线社交网络。云服务需要确保极高的稳定性，如果云服务失败，不仅会导致用户体验下降，还会影响云服务提供商的收入。为了实现有效的异常监测，基于云计算的互联网服务提供商将在云服务系统的各个软硬件级别部署监测程序，收集了数千到数百万个关键性能指标(kpi)，如cpu利用率、每秒查询次数和服务响应时间，比如，kpi数据出现异常数据峰值或突然下降通常表明相关云服务的异常事件，在实际的云监控生产环境中，有大量的平台组件组成云服务，每个组件都收集了许多指标。随着云服务系统的复杂性增加，一个故障会导致多个指标出现异常，这意味着这些指标之间存在相关性。海量监测数据带来的明显挑战是如何抵消数据存储和分析成本的增加，因此，迫切需要应用一种能够保持数据相关性的可靠、准确、高效的压缩方法。

2、压缩感知(cs)算法可以用少量样本准确地重建所有数据，它可以通过利用信号的稀疏特性，从采样不足的噪声观测中稳健地重建信号，这就是cs近年来被广泛应用于时间序列数据压缩研究的原因。

3、但是，cs和其他时间序列压缩方法无法保持变量的相关性，因为大多数现有方法主要关注单变量时间数据，当前虽然提出了针对多元时序数据的压缩方法，但将数据压缩单独应用于每个变量，而忽略了变量之间的相关性，会导致压缩效率较低，并且在对数据进行重建的时候也不能保证数据重建的精度。

技术实现思路

1、鉴于以上现有技术的不足，发明的目的在于提供一种自适应多元时序数据协同压缩方法及系统。

2、本发明第一方面提供一种自适应多元时序数据协同压缩方法，包括：

3、s1：采集运行数据，获得多元时序数据；

4、s2：对所述多元时序数据进行聚类，获得多个聚类分组；

5、s3：对多元时序数据，进行基于多个聚类分组的分组压缩，获得多组压缩时序数据；

6、s4：基于皮尔森相关性系数计算每组压缩时序数据中的多条数据进行线性相关度计算；

7、s5：对线性相关度大于或等于预设阈值的压缩时序数据，通过压缩感知法进行重建，获得重建数据。

8、进一步的，步骤s2中，通过形状距离聚类法对所述多元时序数据进行聚类。

9、进一步的，步骤s2进一步包括：

10、s21：对所述多元时序数据进行预处理，获得预处理时序数据；

11、s22：初始化选择样本点作为聚类中心；

12、s23：基于sbd方法计算所述预处理时序数据中每两个数据的相似度，基于每个数据对应的相似度距离分配至最近的聚类中心，获得多个聚类簇；

13、s24：计算每个聚类簇的平均形状，根据每个聚类簇的平均形状更新聚类中心，获得多个聚类分组。

14、进一步的，步骤s21中，对所述多元时序数据的预处理包括归一化、清洗及平滑滤波。

15、进一步的，步骤s3进一步包括：

16、s31：将每组聚类分组中的多元时序数据作为待压缩信号，通过近似稀疏的基函数表示待压缩信号；

17、s32：将通过基函数表示后的待压缩信号的时序信号，由高维空间映射至低维空间，以完成对多元时序数据的压缩。

18、进一步的，步骤s4中的所述预设阈值为(0，1)区间内的任意值。

19、进一步的，步骤s4还包括：

20、对线性相关度小于预设阈值的压缩时序数据，重新进行聚类及分组压缩，直至重新聚类及分组压缩后的线性相关度大于或等于预设阈值。

21、进一步的，步骤s4中，计算获得的线性相关度的表达式为：

22、

23、其中，r为计算获得的两样本之间的线性相关度，si为第一样本，pi为第二样本，m为每组数据内的样本总数。

24、进一步的，步骤s5还包括：

25、通过arima方法对所述重建数据进行重建精度分析。

26、本发明第二方面提供一种自适应多元时序数据协同压缩系统，用以执行如以上任一项所述的一种自适应多元时序数据协同压缩方法，包括：

27、采集模块：用于采集运行数据，获得多元时序数据；

28、聚类模块：用于对所述采集模块获得的多元时序数据进行聚类，获得多个聚类分组；

29、分组压缩模块：用于对多元时序数据，进行基于多个所述聚类模块获得的聚类分组的分组压缩，获得多组压缩时序数据；

30、相关度计算模块：用于基于皮尔森相关性系数计算所述分组压缩模块获得的每组压缩时序数据中的多条数据进行线性相关度计算；

31、重建模块：用于对线性相关度大于或等于预设阈值的压缩时序数据，通过压缩感知法进行重建，获得重建数据。

32、本发明有益效果如下：

33、本发明提供的一种自适应多元时序数据协同压缩方法及系统，考虑了多元时序数据压缩中的数据相关性问题，并且对应云监控数据往往是监测多个指标，如果只观测一个数据容易造成异常的误报，因此需要关注具有相同物理意义的多元时序数据的问题，本发明通过在数据压缩之前对mts数据进行分组，能够极大地保留数据之间的相关性，这对实际监控的应用有巨大的帮助，另外通过自适应压缩重建机制，在实现数据压缩时能够极大地保留数据之间的相关性，本发明对多元时序数据能够实现协同压缩，并且由于在实际运行过程中，在聚类阶段，数据之间的聚类sbd是根据实际情况实时确定的，因此具有自适应的特性，总体来说本发明考虑了数据之间的相关性，在数据的压缩和重建过程中均能提高效率和精度。

技术特征：

1.一种自适应多元时序数据协同压缩方法，其特征在于，包括：

2.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s2中，通过形状距离聚类法对所述多元时序数据进行聚类。

3.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s2进一步包括：

4.根据权利要求3所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s21中，对所述多元时序数据的预处理包括归一化、清洗及平滑滤波。

5.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s3进一步包括：

6.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s4中的所述预设阈值为(0,1)区间内的任意值。

7.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s4还包括：

8.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s4中，计算获得的线性相关度的表达式为：

9.根据权利要求1所述的一种自适应多元时序数据协同压缩方法，其特征在于，步骤s5还包括：

10.一种自适应多元时序数据协同压缩系统，用以执行如权利要求1-9任一项所述的一种自适应多元时序数据协同压缩方法，其特征在于，包括：

技术总结本发明提供一种自适应多元时序数据协同压缩方法及系统，属于数据处理领域，该方法包括：采集运行数据，获得多元时序数据；对所述多元时序数据进行聚类，获得多个聚类分组；对多元时序数据，进行基于多个聚类分组的分组压缩，获得多组压缩时序数据；基于皮尔森相关性系数计算每组压缩时序数据中的多条数据进行线性相关度计算；对线性相关度大于或等于预设阈值的压缩时序数据，通过压缩感知法进行重建，获得重建数据，本发明考虑了数据之间的相关性，在数据的压缩和重建过程中均能提高效率和精度。技术研发人员：苗子聪,李伟泽,潘晓东,陈丽娜,陈晖受保护的技术使用者：天翼云科技有限公司技术研发日：技术公布日：2024/7/18