技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于元数据关联性的小文件打包方法  >  正文

基于元数据关联性的小文件打包方法

  • 国知局
  • 2024-07-31 23:24:36

本发明属于计算机,具体涉及一种基于元数据关联性的小文件打包方法。

背景技术:

1、目前在对小文件进行合并打包处理时大多分为两类,其一是针对纯文本文件的内容进行关联性计算,首先对文件中的文字进行分词去除,除去文件中一些出现频率较高但是没有明确含义的字或词,比如“的”、“了”等字。采用相关方法获取剩余词组中的高频词,也就是计算词频值。下一步利用关键词构建文件的特征向量,以不同文件之间相同关键词之间的特征向量的曼哈顿距离、欧几里得距离或夹角的余弦值作为文件之间关联性的量化值,并在最后一步采用相关聚类算法对小文件进行聚类处理;该方法产生的元数据量较多,增加了管理系统的存储压力,从而降低了响应速度。

2、另一种是只依据文件类型、文件目录分析关联性,被打包在一起的小文件关联性较弱,而实际情况下用户在短时间内对关联性强的小文件多次访问的概率较高,导致实际访问场景下的效率较低。

技术实现思路

1、本发明的目的是提供一种基于元数据关联性的小文件打包方法,解决了现有技术合并时元数据量过多,存储压力大且合并依据较为简单,导致文件合并结果之间的关联性较差的问题。

2、本发明所采用的技术方案是,基于元数据关联性的小文件打包方法,包括以下步骤:

3、步骤1,获取一批待打包小文件,对小文件中各项关键信息进行提取,并将各项关键信息分别转换为json格式的元数据;

4、步骤2,解析json格式的元数据,构建层次向量模型;

5、步骤3,对层次向量模型进行分析,得到每一对层次向量模型中的向量语义关联性;

6、步骤4,整合层次向量模型之间的关联性,构建关联性矩阵;

7、步骤5,基于关联性矩阵选取大于阈值的小文件进行打包,并且记录小文件到打包文件的映射。

8、本发明的特征还在于,

9、步骤1中各项关键信息包括小文件的使用场景信息和自身属性信息。

10、步骤1中将各项关键信息分别转换为json格式的元数据具体为首先将各项关键信息分别转换成对应的二元组,二元组采用{tag:content}表示,其中,tag为关键信息种类标签,content为关键信息具体内容;

11、再将二元组进行转换,得到json格式的元数据。

12、步骤2中解析json格式的元数据具体为将json格式的元数据中每一项{tag:content}二元组转换为{root,[(tag:content),…],level}的层次向量,整合该json数据对应的所有层次向量,由所有层次向量构成层次向量模型。

13、步骤3具体包括以下步骤:

14、步骤3.1,任意获取一对层次向量模型,分解记为层次向量模型α和层次向量模型β;

15、步骤3.2,从层次向量模型α和层次向量模型β各选取一个二元组,计算两个二元组之间的关联性;

16、步骤3.3,对层次向量模型α和层次向量模型β的二元组进行筛检,若还存在未计算关联性的二元组则返回步骤3.2进行关联性计算;否则,进行步骤3.4;

17、步骤3.4,构建m×n的二维数组,其中m为层次向量模型α的二元组列表的长度,n为层次向量模型β的二元组列表的长度;

18、步骤3.5,选取层次向量模型α和层次向量模型β中关联性最大的二元组进行最佳关联,同时二维数组中对应列的剩余关联性为0;

19、步骤3.6,对层次向量模型α和层次向量模型β的每一对最佳关联二元组的关联性取平均值得到层次向量的总体关联值,具体计算公式如下所示:

20、

21、其中,slvec为层次向量的关联性,avg为平均值计算;

22、步骤3.7,计算层次向量模型α和层次向量模型β的关联性贡献值,具体计算公式如下所示:

23、clvec(α,β)=k-level×slvec(α,β);

24、其中,k为一个略大于1的常数;level为层次向量模型α和层次向量模型β所处的层级;

25、步骤3.8,若层次向量模型α和层次向量模型β中所有二元组均不包含子括号,则进行步骤3.9;否则,选取子括号对应的层次向量,返回步骤3.1进行递归计算;

26、步骤3.9,累计所有层次向量的关联性贡献值,得到层次向量模型的关联性值。

27、步骤3.2中计算两个二元组之间的关联性具体为:

28、若两个二元组中均存在具体含义词汇,采用语义词典得到关联性数值;

29、若两个二元组中至少有一个存在无具体含义的字符,则通过下式计算关联性数值:

30、

31、然后再分别计算两个二元组中种类标签的关联性和具体内容的关联性,具体计算公式如下所示:

32、stpl(tα,tβ)=w·simtag-α,tag-β+(1-w)·simcontent-α,content-β;

33、其中,stpl为二元组的关联性,w为标签相似性的权重。

34、本发明的有益效果是,

35、本发明基于元数据关联性的小文件打包方法通过对小文件关键描述信息的解析,构造层次向量模型,基于层次向量模型能够从内容和结构两方面表述小文件的元数据,充分考虑到了元数据内容在语义上的关联程度,使得最终打包的小文件关联性强,削减了用户访问的平均存取时间,且同时减少了需要管理的小文件元数据量,减轻存储系统的压力,从而提升响应速度。

技术特征:

1.基于元数据关联性的小文件打包方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于元数据关联性的小文件打包方法,其特征在于,步骤1中所述各项关键信息包括小文件的使用场景信息和自身属性信息。

3.根据权利要求1所述的基于元数据关联性的小文件打包方法,其特征在于,步骤1中所述将各项关键信息分别转换为json格式的元数据具体为首先将各项关键信息分别转换成对应的二元组,所述二元组采用{tag:content}表示,其中,tag为关键信息种类标签,content为关键信息具体内容;

4.根据权利要求1所述的基于元数据关联性的小文件打包方法,其特征在于,步骤2中所述解析json格式的元数据具体为将json格式的元数据中每一项{tag:content}二元组转换为{root,[(tag:content),…],level}的层次向量,整合该json数据对应的所有层次向量,由所有层次向量构成层次向量模型。

5.根据权利要求1所述的基于元数据关联性的小文件打包方法,其特征在于,所述步骤3具体包括以下步骤:

6.根据权利要求5所述的基于元数据关联性的小文件打包方法,其特征在于,所述步骤3.2中计算两个二元组之间的关联性具体为:

技术总结本发明公开的基于元数据关联性的小文件打包方法,包括以下步骤:步骤1,获取一批待打包小文件,对小文件中各项关键信息进行提取,并将各项关键信息分别转换为Json格式的元数据;步骤2,解析Json格式的元数据,构建层次向量模型;步骤3,对层次向量模型进行分析,得到每一对层次向量模型中的向量语义关联性;步骤4,整合层次向量模型之间的关联性,构建关联性矩阵;步骤5,基于关联性矩阵选取大于阈值的小文件进行打包,并且记录小文件到打包文件的映射。本发明解决了现有技术合并时元数据量过多,存储压力大且合并依据较为简单,导致文件合并结果之间的关联性较差的问题。技术研发人员:徐鸿韬,李龙海,付少锋,王靖恺受保护的技术使用者:西安电子科技大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/197396.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。