技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种数字化服务资源优化存储方法及系统与流程  >  正文

一种数字化服务资源优化存储方法及系统与流程

  • 国知局
  • 2024-07-31 23:25:40

本技术涉及分类计算机,并且更具体地,涉及分类计算机中一种数字化服务资源优化存储方法及系统。

背景技术:

1、随着政策数据管理的日益重要,政府部门和相关机构每天都会产生大量的政策相关数据,包括法规文件、政策指导、执行报告、研究分析等。这些数据不仅需要长期保存,还需要快速检索和分析,以支持政策制定、执行监督和效果评估。

2、在相关技术中通过自适应提升(adaboost)算法对数据分片进行优化管理,将大量数据分散存储在不同的节点或存储单元中,从而减轻单个节点的负载压力。通过数据相似性对数据进行分片,但相似数据中,有一部分是常规检查产生的,访问频率较高,而另一部分则是特殊检查或历史存档数据,访问频率较低,将这些数据放到同一片导致系统资源的较大浪费。

技术实现思路

1、本技术提供了一种数字化服务资源优化存储方法,该方法通过对政策数据的访问频率进行分类,将相近访问频率的政策数据放到同一片,从而采用集成分类器对实时政策数据进行分类并存储,能够提高缓存命中率和数据访问效率。

2、第一方面,本技术实施例提供了一种数字化服务资源优化存储方法,该方法包括:

3、获取政策数据的访问频率;

4、基于所述访问频率对所述政策数据进行层次聚类,得到多层的聚类结果;

5、基于所述多层的聚类结果和所述政策数据的频率类别标签,确定所述多层中的真实层和合并层;

6、基于所述真实层和所述合并层,确定多个基分类器对所述合并层进行分类的类别识别能力;

7、基于所述类别识别能力和所述合并层,对所述多个基分类器进行集成,得到集成分类器;

8、响应于接收到的实时政策数据,采用所述集成分类器对所述实时政策数据进行分类并存储。

9、在上述方案中,通过对政策数据的访问频率进行层次聚类,从而能够获得处于相近访问频率的政策数据的特征。之后,按照得到的聚类结果和政策数据的频率类别标签,将层次聚类中的多层分为真实层和合并层;并通过真实层和合并层,计算多个基分类器对合并层进行分类的类别识别能力;按照类别识别能力和合并层,对多个基分类器进行集成,得到集成分类器;这样,通过基分类器的类别识别能力更新基分类器的权重,从而按照更新的权重对多个基分类器进行集成,以得到集成分类器,使得集成分类将相近访问频率的政策数据放到同一片;从而便于在接收到实时政策数据时,采用集成分类器对实时政策数据进行分类并存储,能够提高缓存命中率和数据访问效率。

10、结合上述第一方面,在某些可能的实现方式中,所述基于所述多层的聚类结果和所述政策数据的频率类别标签,确定所述多层中的真实层和合并层,包括:

11、基于所述多层的聚类结果和所述频率类别标签,确定所述多层中每一层的分类误差;

12、基于所述每一层的分类误差,在所述多层中确定所述真实层和所述合并层。

13、在上述方案中,通过将多层的聚类结果与频率类别标签进行比较,从而得到每一个的分类误差,进而能够按照各层的分类误差,快速且准确地从该多层中划分出真实层和合并层。

14、结合上述第一方面,在某些可能的实现方式中,所述基于所述多层的聚类结果和所述频率类别标签,确定所述多层中每一层的分类误差,包括:

15、针对所述每一层中的每一节点类别,在所述频率类别标签中确定所述每一节点类别对应的多个实际类别;

16、确定所述多个实际类别中每一实际类别的数据量,得到多个数据量;

17、在所述多个数据量中,确定最大值与次最大值之间的比值;

18、基于所述比值和所述多个实际类别的类别数,确定所述每一节点类别的分类误差;

19、对所述每一层中的多个节点类别的分类误差进行均值化处理,得到所述每一层的分类误差。

20、在上述方案中,通过确定每一层中的每一节点类别在频率类别标签中对应的多个实际类别,将该多个实际类别的类别数据与各个实际类别中的数据量进行比较,以得到每一节点类别的分类误差;从而通过该层中的多个节点类别的分类误差的均值,即可快速得到该层的分类误差。

21、结合上述第一方面,在某些可能的实现方式中,所述基于所述每一层的分类误差,在所述多层中确定所述真实层和所述合并层,包括:

22、在所述多层中将分类误差最小的层确定为所述真实层;

23、基于所述真实层,在所述多层中确定所述合并层。

24、在上述方案中,将分类误差最小的层作为真实层,使得真实层的分类结果最接近实际类别的划分,使得合并层的分类结果能够较好地融合真实层中多个节点的分类结果。

25、结合上述第一方面,在某些可能的实现方式中,所述基于所述真实层和所述合并层,确定多个基分类器对所述合并层进行分类的类别识别能力,包括:

26、将所述政策数据输入所述多个基分类器中的任一基分类器,得到所述任一基分类器的第一错分数量,以及,所述任一基分类器对所述合并层中的每一节点类别的第二错分数量;

27、将所述合并层中的每一节点类别对应的政策数据输入所述任一基分类器,得到所述任一基分类器的第三错分数量和错分细分类别数量;其中,所述错分细分类别数量为所述任一基分类器将所述每一节点类别的细分类别错分为其他细分类别的数量;所述细分类别为所述合并层中的每一节点类别在所述真实层中对应的节点类别;

28、基于所述第二错分数量与所述第一错分数量之间的第一比值,以及,所述错分细分类别数量与所述第三错分数量之间的第二比值,确定所述多个基分类器对所述合并层进行分类的类别识别能力。

29、在上述方案中,通过比较基分类器针对全部政策数据的错分情况,以及该基分类器针对任一节点类别的错分情况,来确定该基分类器对合并层进行识别的能力,从而能够简单且快速地得到基分类器的类别识别能力。

30、结合上述第一方面,在某些可能的实现方式中,所述基于所述第二错分数量与所述第一错分数量之间的第一比值,以及,所述错分细分类别数量与所述第三错分数量之间的第二比值,确定所述多个基分类器对所述合并层进行分类的类别识别能力,包括:

31、将所述第一比值和所述第二比值进行融合,得到所述任一基分类器对所述合并层中所述每一节点类别进行分类的候选类别识别能力;

32、基于所述合并层中的多个节点类别对应的候选类别识别能力,确定所述多个基分类器对所述合并层进行分类的类别识别能力。

33、在上述方案中,对于任一基分类器,通过将基分类器对一个合并层中各个节点类别进行分类的候选类别识别能力求均值,即可得到该基分类器对该合并层的类别识别能力;这样,既能够准确分析基分类器进行分类的类别识别能力,还能够降低计算复杂度。

34、结合上述第一方面,在某些可能的实现方式中,所述基于所述类别识别能力和所述合并层,对所述多个基分类器进行集成,得到集成分类器,包括:

35、确定所述真实层中节点的第一节点数量以及所述合并层中节点的第二节点数量;

36、基于所述第一节点数量和所述第二节点数量,确定所述多个基分类器中任一基分类器对所述合并层进行分类的类别识别能力的候选权重;

37、将所述候选权重和所述任一基分类器的类别识别能力进行融合,得到所述任一基分类器的权重系数;

38、基于所述权重系数对所述任一基分类器的初始权重进行更新,得到所述任一基分类器的目标权重;

39、基于所述多个基分类器分别对应的目标权重,对所述多个基分类器进行集成,得到所述集成分类器。

40、结合上述第一方面,在某些可能的实现方式中,所述获取政策数据的访问频率之后,所述方法还包括:

41、基于所述访问频率,对所述政策数据进行多阈值分割,得到多个分割点;

42、基于所述多个分割点中每相邻两个分割点内的频率值,确定多个类别的候选频率值;

43、基于每一类别的候选频率值与其他类别的候选频率值之间的差值,确定所述每一类别的频率类别标签;其中,所述其他类别为所述多个类别中除所述每一类别之外的类别。

44、在上述方案中,通过多阈值分割处理的方式对政策数据的访问频率进行分割,从而按照分割点内的频率值将访问频率划分为多个类别,并按照每一类别的候选频率值与其他类别的候选频率值之间的差值,为每一类别设定频率类别标签;从而能够将访问频率准确划分为多个类别,以及准确标注各个类别的频率类别标签。

45、结合上述第一方面,在某些可能的实现方式中,所述基于所述访问频率,对所述政策数据进行层次聚类,得到多层的聚类结果,包括:

46、对所述政策数据进行词向量转换,得到已转换向量;

47、对所述已转换向量的访问频率进行层次聚类,得到所述多层的聚类结果。

48、在上述方案中,通过将政策数据转换为词向量,以便于能够更加准确的对已转化向量进行层次聚类,从而得到多层的聚类结果。

49、第二方面,提供了一种数字化服务资源优化存储系统,所述系统包括:

50、获取模块,用于获取政策数据的访问频率;

51、聚类模块,用于基于所述访问频率对所述政策数据进行层次聚类,得到多层的聚类结果;

52、第一确定模块,用于基于所述多层的聚类结果和所述政策数据的频率类别标签,确定所述多层中的真实层和合并层;

53、第二确定模块,用于基于所述真实层和所述合并层,确定多个基分类器对所述合并层进行分类的类别识别能力;

54、集成模块,用于基于所述类别识别能力和所述合并层,对所述多个基分类器进行集成,得到集成分类器;

55、分类模块,用于响应于接收到的实时政策数据,采用所述集成分类器对所述实时政策数据进行分类并存储。

56、第三方面,提供了一种服务器,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

57、第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

58、第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197502.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。