一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文件复用检测方法、装置及设备与流程

2022-02-22 04:31:30 来源:中国专利 TAG:


1.本技术涉及文件安全技术领域,具体而言,涉及一种文件复用检测方法、装置及设备。


背景技术:

2.随着企业的发展和日益多变的信息安全形势,工作过程中均会涉及到大量的敏感文件,因此需要一种智能化的手段对其进行准确的识别和恰当的保护。然而,相关技术中,对敏感文件的识别存在以下几个难点:(1)作为在终端设备运行的程序,首先需要源码不可见,同时运行和存储占用资源低,且需要具备跨操作系统支持;(2)需要在事后可追溯,例如前期没有防护住导致文件已经泄露,需要追溯到是通过哪个文件泄露出去的;(3)需要适应各种情况变化,即文件检测仅与内容相关而与其他无关。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种文件复用检测方法、装置及设备,以至少解决文件安全保护中对文件复用的检测缺乏准确性和灵活性的技术问题。
5.根据本技术实施例的一个方面,提供了一种文件复用检测方法,包括:获取待检测的目标文件;从多个复用检测方案中确定所述目标文件的目标检测方案,其中,所述复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;确定所述目标检测方案对应的目标指纹类型,并从所述目标文件对应的多种指纹信息中确定与所述目标指纹类型对应的第一指纹信息;确定目标数据库中每个文件的第二指纹信息,并确定所述第二指纹信息与所述第一指纹信息的相似度,在所述相似度大于预设阈值时,确定所述目标数据库中与所述第二指纹信息对应的文件为所述目标文件的复用文件。
6.根据本技术实施例的另一方面,还提供了一种文件复用检测装置,包括:获取模块,用于获取待检测的目标文件;第一确定模块,用于从多个复用检测方案中确定所述目标文件的目标检测方案,其中,所述复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;第二确定模块,用于确定所述目标检测方案对应的目标指纹类型,并从所述目标文件对应的多种指纹信息中确定与所述目标指纹类型对应的第一指纹信息;第三确定模块,用于确定目标数据库中每个文件的第二指纹信息,并确定所述第二指纹信息与所述第一指纹信息的相似度,在所述相似度大于预设阈值时,确定所述目标数据库中与所述第二指纹信息对应的文件为所述目标文件的复用文件。
7.根据本技术实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行上述的文件复用检测方法。
8.根据本技术实施例的另一方面,还提供了一种文件复用检测设备,包括:处理器以及存储器,所述存储器与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指
令:获取待检测的目标文件;从多个复用检测方案中确定所述目标文件的目标检测方案,其中,所述复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;确定所述目标检测方案对应的目标指纹类型,并从所述目标文件对应的多种指纹信息中确定与所述目标指纹类型对应的第一指纹信息;确定目标数据库中每个文件的第二指纹信息,并确定所述第二指纹信息与所述第一指纹信息的相似度,在所述相似度大于预设阈值时,确定所述目标数据库中与所述第二指纹信息对应的文件为所述目标文件的复用文件。
9.在本技术实施例中,首先获取待检测的目标文件;然后从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;再确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一指纹信息;最后确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。其中,用户可以根据自身对文件相似度检测的需求选择对应的复用检测方案,由终端依据用户选择的复用检测方案从目标文件中确定相应类型的指纹信息,然后和目标数据库中的指纹信息进行相似度比较得到检测结果,该过程不仅提高了对文件复用检测的灵活性,由于可以对多种类型的指纹信息进行检测,也提高了检测结果的准确性,进而解决了文件安全保护中对文件复用的检测缺乏准确性和灵活性的技术问题。
附图说明
10.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
11.图1是根据本技术实施例的一种可选的计算机终端的结构示意图;
12.图2是根据本技术实施例的一种可选的文件复用检测方法的流程示意图;
13.图3是根据本技术实施例的一种可选的文件复用分类的示意图;
14.图4是根据本技术实施例的一种可选的文件复用检测装置的结构示意图。
具体实施方式
15.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
16.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
17.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
18.文件指纹:用于标志一个文件的身份,可将标准窗体转换为敏感信息类型
19.文件复用:针对原始文件进行直接的复制粘贴或是针对原始文件中的内容进行简单的变换修改等操作后得到复用文件,该复用文件与原始文件在本质上仍属于相同的文件。对文件复用的检测是文件安全防泄漏的重要检测环节。
20.实施例1
21.根据本技术实施例,提供了一种文件复用检测方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
22.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文件复用检测方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
23.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
24.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的文件复用检测方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
25.传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
26.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
27.在上述运行环境下,本技术实施例提供了一种可选的文件复用检测方法,如图2所示,该方法至少包括步骤s202-s208,其中:
28.步骤s202,获取待检测的目标文件。
29.本技术实施例中的文件复用检测方法既可以由云端执行,也可以由终端执行,云端主要指网络侧设备,终端可以是计算机、平板电脑等终端设备。以终端为例,首先由终端获取需要进行文件复用检测的目标文件,如在办公场景中,当用户需要将计算机中的某一目标文件进行外发时,计算机会自动对该目标文件进行文件复用检测;可选地,用户也可以在计算机提供的交互界面中自行输入待检测的目标文件,由终端对其进行文件复用检测。
30.图3示出了一种可选的关于文件复用类型的分类,其中,文件复用主要分为低模糊复用和高模糊复用两大类。具体地,低模糊复用中通常可以分为:1)复制粘贴,具体又可以细分为对文件全部内容的复制粘贴和对部分内容的复制粘贴;2)近似复制,包括在文件内容中进行插入、删除、替换操作,或是将文件中的句子进行拆分合并;3)修改复制,主要指对文件中的句子或段落进行重新排序,或是对句法进行修改。高模糊复用中通常可以分为:1)文本复用,主要包括文件中的同义复用,或是针对关键词等信息的摘要复用;2)文件复用,主要包括对文件类型的转换,或是进行文件级的重组等。
31.步骤s204,从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型。
32.针对上述的多种文件复用类型,云端/终端提供了多个复用检测方案,其中,每个复用检测方案至少用于执行以下步骤:设置预设指纹类型,并生成与预设指纹类型对应的指纹信息;基于与预设指纹类型对应的指纹信息和目标数据库中各个文件的指纹信息进行相似度匹配,并依据匹配结果从目标数据库中确定复用文件。
33.具体地,上述多个复用检测方案中至少包括:针对低模糊复用检测的第一检测方案和针对高模糊复用检测第二检测方案,其中,第一检测方案主要基于第一指纹类型的指纹信息对目标文件进行检测,其中,第一指纹类型的指纹信息包括:以段落为单位的指纹信息,该第一指纹类型的指纹信息又称为哈希(hash)指纹;第二检测方案主要基于第二指纹类型的指纹信息对目标文件进行检测,其中,第二指纹类型的指纹信息包括:以关键词为单位的指纹信息,又称为词项(term)指纹,或以文本语义向量为单位的指纹信息,又称为嵌入(embedding)指纹。其中,通过将hash指纹、term指纹和embedding指纹进行结合,可以做到防护的分层,实现定制化的不同等级的防护手段,兼顾效率和效果
34.在本技术一些可选的实施例中,在确定针对目标文件的目标检测方案时,可以在多个复用检测方案中预先设置目标文件的目标检测方案,例如,默认设置目标检测方案为第一检测方案或第二检测方案,当然,也可以默认设置目标检测方案为第一检测方案和第二检测方案,即同时依据第一检测方案和第二检测方案对目标文件进行检测。
35.可选地,也可以响应于目标对象的第一选择指令,从多个复用检测方案中选择与第一选择指令对应的目标检测方案,例如,当用户在计算机中输入待检测的目标文件后,计算机交互界面中显示多个复用检测方案供用户进行选择,如显示高模糊复用检测方案和低模糊复用检测方案供用户选择,然后响应于用户的选择指令,将用户选择的一个或多个复
用检测方案作为目标检测方案。可选地,计算机交互界面中也可以直接显示具体的需要检测的指纹类型供用户进行选择。
36.步骤s206,确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一指纹信息。
37.在本技术一些可选的实施例中,在确定目标检测方案后,还可以响应于目标对象的第二选择指令,从目标检测方案中选择与第二选择指令对应的目标复用文本类型,其中,目标复用文本类型至少包括以下其中之一:与第一指纹类型对应的第一复用文本类型,与第二指纹类型对应的第二复用文本类型或第三复用文本类型。
38.其中,第一复用文本类型主要包括低模糊复用下的复制粘贴、近似复制、修改复制等文件复用类型,这类文件复用主要通过hash指纹进行检测;第二复用文本类型主要包括高模糊复用下的文本复用中的摘要复用,这类文件复用主要通过term指纹进行检测;第三复用文本类型则主要包括高模糊复用下的文本复用中的同义复用,这类文件复用主要通过embedding指纹进行检测。
39.确定目标检测方案后,可以依据用户选择的目标复用文本类型确定具体的目标指纹类型,然后确定目标文件中与目标指纹类型对应的第一指纹信息,其可以是hash指纹、term指纹、embedding指纹中的一种或是其任意组合。
40.步骤s208,确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。
41.可以理解地,在对目标文件进行文件复用检测时,首先需要确定一个文件数据库,通过检测目标文件与文件数据库中的各个文件的相似度,以确定是否存在文件复用情况并找出对应的复用文件。在本技术中,主要是依据文件指纹信息进行检测,因此上述的目标数据库主要指文件指纹数据库,该文件指纹数据库主要由云端依据用户设置的受保护的文件生成。通常,文件指纹数据库中至少包括hash指纹库、term指纹库和embedding指纹库三个大类。
42.在本技术一些可选的实施例中,云端会直接将整个文件指纹数据库发送至终端,通过这种方式,可以保证云端和终端的文件指纹数据库完全一致,从而实现云端和终端对目标文件的文件复用检测的处理结果无差别。
43.考虑到某些场景中,终端由于计算资源有限,无法实现所有类型的指纹信息检测,或是根据用户的需求,不需要对某些受保护文件对应的指纹信息进行检测,为了节省计算资源,云端可以仅将文件指纹数据库中的一部分发送至终端作为目标数据库。
44.具体地,可以确定目标终端所在的场景类型,并将场景类型发送至网络侧设备,即发送至云端,然后目标终端从网络侧设备中接收与场景类型对应的目标数据库。
45.例如,在某一办公场景中,用户仅选择对文件进行低模糊复用检测,此时,为节约终端计算资源,云端可以只将文件指纹数据库中的hash指纹库发送至终端。
46.又例如,云端针对总公司a的全部受保护文件l生成文件指纹数据库x,其中,总公司a包括子公司b和子公司c,全部受保护文件l中包括子公司b的受保护文件m和子公司c的受保护文件n,假如m和n没有交集,那么子公司b的终端在进行文件复用检测时,实际只需要用到受保护文件m对应的部分文件指纹数据库y,而无需用到受保护文件n对应的部分文件
指纹数据库z,因此,在确定目标终端所在的场景为子公司b时,云端可以只发送部分文件指纹数据库y至目标终端作为目标数据库。同理,在确定目标终端所在的场景为子公司c时,云端也可以只发送部分文件指纹数据库z至目标终端作为目标数据库。
47.在确定第二指纹信息与第一指纹信息的相似度时,主要采用目标复用文本类型对应的分类规则计算目标文件的第一指纹信息和第二指纹信息的相似度,其中,具体的分类规则可以使用常见的决策树分类、贝叶斯算法等,以此来计算第一指纹信息和第二指纹信息相似度。
48.具体地,在目标复用文本类型为第一复用文本类型时,计算第一指纹信息的第一哈希值和第二指纹信息的第二哈希值;采用分类规则计算第一哈希值和第二哈希值的相似度。
49.在目标复用文本类型为第二复用文本类型时,计算第一指纹信息的第一关键词向量和第二指纹信息的第二关键词向量;采用分类规则计算第一关键词向量和第二关键词向量的相似度。
50.在目标复用文本类型为第三复用文本类型时,计算第一指纹信息的第一文本语义向量和第二指纹信息的第二文本语义向量;采用分类规则计算第一文本语义向量和第二文本语义向量的相似度。其中,embedding指纹对应的文本语义向量是通过模型预先训练得到的。
51.在本技术一些可选的实施例中,当检测到某一文件对应的第二指纹信息与目标文件的第一指纹信息的相似度大于预设阈值(该预设阈值由用户自行设置)时,确定存在文件复用情况,此时可以输出该文件作为复用文件,同时还可以输出具体的相似类型、相似程度、相似内容占比等信息,实现对文件相似度的分类分层。
52.假如多个文件的相似度均大于预设阈值,可以将所有的文件全部输出,均作为复用文件;也可以对相似度进行排序,输出相似度最高的文件作为复用文件。
53.在本技术实施例中,首先获取待检测的目标文件;然后从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;再确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一指纹信息;最后确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。其中,用户可以根据自身对文件相似度检测的需求选择对应的复用检测方案,由终端依据用户选择的复用检测方案从目标文件中确定相应类型的指纹信息,然后和目标数据库中的指纹信息进行相似度比较得到检测结果,该过程不仅提高了对文件复用检测的灵活性,由于可以对多种类型的指纹信息进行检测,也提高了检测结果的准确性,进而解决了文件安全保护中对文件复用的检测缺乏准确性和灵活性的技术问题。
54.实施例2
55.根据本技术实施例,还提供了一种用于实现上述文件复用检测方法的文件复用检测装置,如图4所示,该装置至少包括获取模块40,第一确定模块42,第二确定模块44和第三确定模块46,其中:
56.获取模块40,用于获取待检测的目标文件。
57.本技术实施例中的文件复用检测方法既可以由云端执行,也可以由终端执行,云端主要指网络侧设备,终端可以是计算机、平板电脑等终端设备。以终端为例,首先由终端获取需要进行文件复用检测的目标文件,如在办公场景中,当用户需要将计算机中的某一目标文件进行外发时,计算机会自动对该目标文件进行文件复用检测;可选地,用户也可以在计算机提供的交互界面中自行输入待检测的目标文件,由终端对其进行文件复用检测。
58.图3示出了一种可选的关于文件复用类型的分类,其中,文件复用主要分为低模糊复用和高模糊复用两大类。具体地,低模糊复用中通常可以分为:1)复制粘贴,具体又可以细分为对文件全部内容的复制粘贴和对部分内容的复制粘贴;2)近似复制,包括在文件内容中进行插入、删除、替换操作,或是将文件中的句子进行拆分合并;3)修改复制,主要指对文件中的句子或段落进行重新排序,或是对句法进行修改。高模糊复用中通常可以分为:1)文本复用,主要包括文件中的同义复用,或是针对关键词等信息的摘要复用;2)文件复用,主要包括对文件类型的转换,或是进行文件级的重组等。
59.第一确定模块42,用于从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型。
60.针对上述的多种文件复用类型,云端/终端提供了多个复用检测方案,其中,每个复用检测方案至少用于执行以下步骤:设置预设指纹类型,并生成与预设指纹类型对应的指纹信息;基于与预设指纹类型对应的指纹信息和目标数据库中各个文件的指纹信息进行相似度匹配,并依据匹配结果从目标数据库中确定复用文件。
61.具体地,上述多个复用检测方案中至少包括:针对低模糊复用检测的第一检测方案和针对高模糊复用检测第二检测方案,其中,第一检测方案主要基于第一指纹类型的指纹信息对目标文件进行检测,其中,第一指纹类型的指纹信息包括:以段落为单位的指纹信息,该第一指纹类型的指纹信息又称为哈希(hash)指纹;第二检测方案主要基于第二指纹类型的指纹信息对目标文件进行检测,其中,第二指纹类型的指纹信息包括:以关键词为单位的指纹信息,又称为词项(term)指纹,或以文本语义向量为单位的指纹信息,又称为嵌入(embedding)指纹。其中,通过将hash指纹、term指纹和embedding指纹进行结合,可以做到防护的分层,实现定制化的不同等级的防护手段,兼顾效率和效果
62.在本技术一些可选的实施例中,在确定针对目标文件的目标检测方案时,可以在多个复用检测方案中预先设置目标文件的目标检测方案,例如,默认设置目标检测方案为第一检测方案或第二检测方案,当然,也可以默认设置目标检测方案为第一检测方案和第二检测方案,即同时依据第一检测方案和第二检测方案对目标文件进行检测。
63.可选地,也可以响应于目标对象的第一选择指令,从多个复用检测方案中选择与第一选择指令对应的目标检测方案,例如,当用户在计算机中输入待检测的目标文件后,计算机交互界面中显示多个复用检测方案供用户进行选择,如显示高模糊复用检测方案和低模糊复用检测方案供用户选择,然后响应于用户的选择指令,将用户选择的一个或多个复用检测方案作为目标检测方案。可选地,计算机交互界面中也可以直接显示具体的需要检测的指纹类型供用户进行选择。
64.第二确定模块44,用于确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一指纹信息。
65.在本技术一些可选的实施例中,在确定目标检测方案后,还可以响应于目标对象的第二选择指令,从目标检测方案中选择与第二选择指令对应的目标复用文本类型,其中,目标复用文本类型至少包括以下其中之一:与第一指纹类型对应的第一复用文本类型,与第二指纹类型对应的第二复用文本类型或第三复用文本类型。
66.其中,第一复用文本类型主要包括低模糊复用下的复制粘贴、近似复制、修改复制等文件复用类型,这类文件复用主要通过hash指纹进行检测;第二复用文本类型主要包括高模糊复用下的文本复用中的摘要复用,这类文件复用主要通过term指纹进行检测;第三复用文本类型则主要包括高模糊复用下的文本复用中的同义复用,这类文件复用主要通过embedding指纹进行检测。
67.确定目标检测方案后,可以依据用户选择的目标复用文本类型确定具体的目标指纹类型,然后确定目标文件中与目标指纹类型对应的第一指纹信息,其可以是hash指纹、term指纹、embedding指纹中的一种或是其任意组合。
68.第三确定模块46,用于确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。
69.可以理解地,在对目标文件进行文件复用检测时,首先需要确定一个文件数据库,通过检测目标文件与文件数据库中的各个文件的相似度,以确定是否存在文件复用情况并找出对应的复用文件。在本技术中,主要是依据文件指纹信息进行检测,因此上述的目标数据库主要指文件指纹数据库,该文件指纹数据库主要由云端依据用户设置的受保护的文件生成。通常,文件指纹数据库中至少包括hash指纹库、term指纹库和embedding指纹库三个大类。
70.在本技术一些可选的实施例中,云端会直接将整个文件指纹数据库发送至终端,通过这种方式,可以保证云端和终端的文件指纹数据库完全一致,从而实现云端和终端对目标文件的文件复用检测的处理结果无差别。
71.考虑到某些场景中,终端由于计算资源有限,无法实现所有类型的指纹信息检测,或是根据用户的需求,不需要对某些受保护文件对应的指纹信息进行检测,为了节省计算资源,云端可以仅将文件指纹数据库中的一部分发送至终端作为目标数据库。
72.具体地,可以确定目标终端所在的场景类型,并将场景类型发送至网络侧设备,即发送至云端,然后目标终端从网络侧设备中接收与场景类型对应的目标数据库。
73.例如,在某一办公场景中,用户仅选择对文件进行低模糊复用检测,此时,为节约终端计算资源,云端可以只将文件指纹数据库中的hash指纹库发送至终端。
74.又例如,云端针对总公司a的全部受保护文件l生成文件指纹数据库x,其中,总公司a包括子公司b和子公司c,全部受保护文件l中包括子公司b的受保护文件m和子公司c的受保护文件n,假如m和n没有交集,那么子公司b的终端在进行文件复用检测时,实际只需要用到受保护文件m对应的部分文件指纹数据库y,而无需用到受保护文件n对应的部分文件指纹数据库z,因此,在确定目标终端所在的场景为子公司b时,云端可以只发送部分文件指纹数据库y至目标终端作为目标数据库。同理,在确定目标终端所在的场景为子公司c时,云端也可以只发送部分文件指纹数据库z至目标终端作为目标数据库。
75.在确定第二指纹信息与第一指纹信息的相似度时,主要采用目标复用文本类型对
应的分类规则计算目标文件的第一指纹信息和第二指纹信息的相似度,其中,具体的分类规则可以使用常见的决策树分类、贝叶斯算法等,以此来计算第一指纹信息和第二指纹信息相似度。
76.具体地,在目标复用文本类型为第一复用文本类型时,计算第一指纹信息的第一哈希值和第二指纹信息的第二哈希值;采用分类规则计算第一哈希值和第二哈希值的相似度。
77.在目标复用文本类型为第二复用文本类型时,计算第一指纹信息的第一关键词向量和第二指纹信息的第二关键词向量;采用分类规则计算第一关键词向量和第二关键词向量的相似度。
78.在目标复用文本类型为第三复用文本类型时,计算第一指纹信息的第一文本语义向量和第二指纹信息的第二文本语义向量;采用分类规则计算第一文本语义向量和第二文本语义向量的相似度。其中,embedding指纹对应的文本语义向量是通过模型预先训练得到的。
79.在本技术一些可选的实施例中,当检测到某一文件对应的第二指纹信息与目标文件的第一指纹信息的相似度大于预设阈值(该预设阈值由用户自行设置)时,确定存在文件复用情况,此时可以输出该文件作为复用文件,同时还可以输出具体的相似类型、相似程度、相似内容占比等信息,实现对文件相似度的分类分层。
80.假如多个文件的相似度均大于预设阈值,可以将所有的文件全部输出,均作为复用文件;也可以对相似度进行排序,输出相似度最高的文件作为复用文件。
81.需要说明的是,本技术实施例中的文件复用检测装置中的各模块与实施例1中的文件复用检测方法的实施步骤一一对应,由于实施例1中已经进行了详尽的描述,本实施例中部分未体现的细节可以参考实施例1,在此不再过多赘述。
82.实施例3
83.根据本技术实施例,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述的文件复用检测方法。
84.可选地,在程序运行时控制非易失性存储介质所在设备执行实现以下步骤:获取待检测的目标文件;从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一指纹信息;确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。
85.实施例4
86.根据本技术实施例,还提供了一种电子设备,该电子设备包括处理器和存储器,其中:存储器与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待检测的目标文件;从多个复用检测方案中确定目标文件的目标检测方案,其中,复用检测方案中至少包括:需要检测的指纹类型,不同的复用检测方案对应不同的指纹类型;确定目标检测方案对应的目标指纹类型,并从目标文件对应的多种指纹信息中确定与目标指纹类型对应的第一
指纹信息;确定目标数据库中每个文件的第二指纹信息,并确定第二指纹信息与第一指纹信息的相似度,在相似度大于预设阈值时,确定目标数据库中与第二指纹信息对应的文件为目标文件的复用文件。
87.在本技术一些可选的实施例中,上述电子设备的具体结构可以参考如图1所示的计算机终端。需要说明的是,图1所示的结构仅为示意,其并不对上述电子设备的结构造成限定,该电子设备的结构可以与图1所示的计算机终端相同,也可以包括比图1中所示更多或更少的组件,还可以具有与图1所示不同的配置。
88.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
89.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
90.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
91.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
92.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
93.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
94.以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献