数据指纹生成方法及装置与流程
- 国知局
- 2024-09-05 14:37:29
本发明涉及数据安全,特别是涉及一种数据指纹生成方法及装置。
背景技术:
1、在数据交易中,一个比较大的问题是数据会被盗用,即数据交易出去后,购买方可能将数据再卖给其他人。为了确认数据是否被盗用,现有技术中通常根据原始数据的md5串验证第三方所采用的数据是否为盗用数据。
2、在现有技术中,当第三方所采用的数据与原始数据的md5串一致,则表示数据被盗用。但是第三方盗用数据后,可能会对原始数据进行修改(例如对文本修改,或者引用其中一段),而即使是简单的修改,也会导致md5会有很大的差异,从而无法找到疑似盗用的数据。
技术实现思路
1、有鉴于此,本发明提供一种数据指纹生成方法及装置,在本发明提供的方法中,由于盗用方在盗取数据后为了避免数据失去原先的意义,只会对数据进行微调,因此采用统计值作为数据的特征值,并根据统计值矩阵计算余弦距离及规整,即使数据进行微调后得到的余弦值经过k-shingle和最小哈希算法计算后得到的数据指纹仍会会与原始数据的数据指纹相似,因此通过本发明提供的数据指纹生成方法所生成的数据指纹更能准确的验证数据是否被盗用,进一步保护拥有该数据的产权方的所有权。
2、本发明还提供了一种数据指纹生成装置,用以保证上述方法在实际中的实现及应用。
3、一种数据指纹生成方法,包括:
4、获取目标数据的数字矩阵;
5、根据预先设置的统计值算法,将所述数字矩阵转换成统计值矩阵;
6、计算所述统计值矩阵中每一行对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值;
7、应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号;
8、应用预设的最小哈希算法计算各个所述识别序号,获得所述目标数据对应的数据指纹。
9、上述的方法,可选的,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
10、上述的方法,可选的,所述计算所述统计值矩阵中每一行参数对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值,包括:
11、在所述统计值矩阵的第一行之前设置第零行,所述第零行中的各个参数为预先设置的初始值;
12、计算所述统计值矩阵中除第零行之外的各行与上一行之间的余弦值;
13、对各个所述余弦值进行规整,得到余弦距离规整值。
14、上述的方法,可选的,所述应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号,包括:
15、确定所述k-shingle对应的字符串长度;
16、按照所述字符串长度,将所述余弦距离规整值拆分成至少一组字符串集合;
17、确定所述字符串集合的最大取值;
18、基于所述最大取值及所述字符串长度,对每个所述字符串集合中的各个参数进行计算,获得每个所述字符串集合对应的识别序号。
19、上述的方法,可选的,所述应用预设的最小哈希算法对各个所述识别序号进行处理,获得所述目标数据对应的数据指纹,包括:
20、获取预先设置的最大素数;
21、将所述最大素数代入最小哈希算法,并应用所述最小哈希算法计算每个所述识别序号,获得每个所述识别序号对应的序号哈希值;
22、将各个所述序号哈希值转换成矩阵形式,获得所述目标数据对应的数据指纹。
23、一种数据指纹生成装置,包括:
24、获取单元,用于获取目标数据的数字矩阵;
25、转换单元,用于根据预先设置的统计值算法,将所述数字矩阵转换成统计值矩阵;
26、第一计算单元,用于计算所述统计值矩阵中每一行对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值;
27、第二计算单元,用于应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号;
28、第三计算单元,用于应用预设的最小哈希算法计算各个所述识别序号,获得所述目标数据对应的数据指纹。
29、上述的装置,可选的,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
30、上述的装置,可选的,所述第一计算单元,包括:
31、设置子单元,用于在所述统计值矩阵的第一行之前设置第零行,所述第零行中的各个参数为预先设置的初始值;
32、第二计算子单元,用于计算所述统计值矩阵中除第零行之外的各行与上一行之间的余弦值;
33、规整子单元,用于对各个所述余弦值进行规整,得到余弦距离规整值。
34、上述的装置,可选的,所述第二计算单元,包括:
35、第一确定子单元,用于确定所述k-shingle对应的字符串长度;
36、拆分子单元,用于按照所述字符串长度,将所述余弦距离规整值拆分成至少一组字符串集合;
37、第二确定子单元,用于确定所述字符串集合的最大取值;
38、第三计算子单元,用于基于所述最大取值及所述字符串长度,对每个所述字符串集合中的各个参数进行计算,获得每个所述字符串集合对应的识别序号。
39、上述的装置,可选的,所述第三计算单元,包括:
40、获取子单元,用于获取预先设置的最大素数;
41、第四计算子单元,用于将所述最大素数代入最小哈希算法,并应用所述最小哈希算法计算每个所述识别序号,获得每个所述识别序号对应的序号哈希值;
42、转换子单元,用于将各个所述序号哈希值转换成矩阵形式,获得所述目标数据对应的数据指纹。
43、一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据指纹生成方法。
44、一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的数据指纹生成方法。
45、与现有技术相比,本发明包括以下优点:
46、本发明提供一种数据指纹生成方法,包括:获取目标数据的数字矩阵;根据预先设置的统计值算法,将所述数字矩阵转换成统计值矩阵;计算所述统计值矩阵中每一行对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值;应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号;应用预设的最小哈希算法计算各个所述识别序号,获得所述目标数据对应的数据指纹。应用本发明提供的方法,能够保证被盗用并微调后数据与原始数据的数据指纹相似,提高识别盗用数据的成功的概率,保护拥有该数据的产权方的所有权。
技术特征:1.一种数据指纹生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
3.根据权利要求2所述的方法,其特征在于,所述计算所述统计值矩阵中每一行参数对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值,包括:
4.根据权利要求1或3所述的方法,其特征在于,所述应用k-shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号,包括:
5.根据权利要求4所述的方法,其特征在于,所述应用预设的最小哈希算法对各个所述识别序号进行处理,获得所述目标数据对应的数据指纹,包括:
6.一种数据指纹生成装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述统计值算法至少包括平均值算法、极差算法、方差算法、中位数算法、峰度算法、差值平均算法、差值极差算法和差值方差算法中的至少三个。
8.根据权利要求7所述的装置,其特征在于,所述第一计算单元,包括:
9.根据权利要求6或8所述的装置,其特征在于,所述第二计算单元,包括:
10.根据权利要求9所述的装置,其特征在于,所述第三计算单元,包括:
技术总结本发明提供一种数据指纹生成方法及装置,该方法包括:获取目标数据的数字矩阵;根据预先设置的统计值算法,将所述数字矩阵转换成统计值矩阵;计算所述统计值矩阵中每一行对应的余弦值,获得所述统计值矩阵对应的余弦距离规整值;应用k‑Shingle对所述余弦距离规整值中的各个余弦值进行计算,获得至少一个识别序号;应用预设的最小哈希算法计算各个所述识别序号,获得所述目标数据对应的数据指纹。应用本发明提供的方法,能够保证被盗用并微调后数据与原始数据的数据指纹相似,提高识别盗用数据的成功的概率,保护拥有该数据的产权方的所有权。技术研发人员:覃海平,孔令鲁受保护的技术使用者:湖南亚信软件有限公司技术研发日:技术公布日:2024/9/2本文地址:https://www.jishuxx.com/zhuanli/20240905/287354.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表