技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于元素匹配和多级比对的文档比对方法、装置及存储介质与流程  >  正文

基于元素匹配和多级比对的文档比对方法、装置及存储介质与流程

  • 国知局
  • 2024-09-05 14:44:11

本发明涉及电子文档处理,具体涉及一种基于元素匹配和多级比对的文档比对方法、装置及存储介质。

背景技术:

1、随着数字时代的快速发展,电子文档应用普遍,文档对比是文档处理中常见的任务,现有的文本对比方法如最大公共子序列算法、最大公共子串算法、myers差分算法等。

2、文档对比的主要难点在于长文档的比对,长文档页数通常在500页以上。现有的文本对比算法在进行长文档的对比时,存在文本输入时耗时较长,以500页的pdf文档为例,对比耗时可能达到半小时以上,且随着输入内容的增长,长文档中含有较多重复或相似的片段,这些重复、相似的片段会导致公共子串的错误匹配,导致对比结果的准确率显著下降,无法达到全局最优的匹配结果。

技术实现思路

1、为了解决现有技术中长文档对比效率低、准确率低的问题,本发明提供了一种基于元素匹配和多级比对的文档比对方法、装置及存储介质,融合多种相似度文档元素匹配提升准确率及对比速率,再结合myers和lcs两级对比策略缩短对比耗时。

2、本发明的技术目的是通过以下技术方案实现的:

3、一种基于文档元素匹配和多级比对策略的文档快速比对方法,该方法包括以下步骤:

4、步骤1、对pdf的源文档和pdf的目标文档进行预处理,将源文档和目标文档分别转换为结构化数据;结构化数据包括元素及元素含有的字符;

5、步骤2、融合多级元素匹配规则进行源文档与目标文档的元素匹配,元素匹配规则的严格程度逐级增加;

6、步骤3、基于匹配到的元素,依次进行两级比对,第一级比对为myers比对,第二级比对为lcs比对,得到目标文档与源文档匹配元素之间的差异点;

7、步骤4、差异点汇总,计算生成差异点的位置信息,输出对比结果。

8、进一步地,匹配规则包括jaccard相似度匹配、文本相似度匹配及带上下文的文本相似度匹配,jaccard相似度匹配、文本相似度匹配及带上下文的文本相似度匹配的匹配严格程度依次增加。

9、进一步地,进行元素匹配时,按照匹配规则严格程度由低到高的顺序进行元素匹配;按照同一匹配规则对所有元素进行遍历匹配后,对于未匹配的元素采用下一级元素匹配规则进行元素相似度匹配。

10、进一步地,按照每一级匹配规则进行元素匹配时,将源文档的元素分别与目标文档的元素进行相似度匹配,得到目标文档中与源文档的元素相似度最大的两个元素,按照相似大小分别记作j1和j2,j1的相似度为sj1,j2的相似度为sj2,sj1>sj2;

11、若sj1-sj2>设定阈值k,则元素j1与源文档中元素匹配可信度较高。

12、进一步地,当sj1-sj2>设定阈值k时,将元素j1与源文档中所有元素进行相似度匹配,计算得到源文档中与元素j1相似度最大的两个元素分别记作i1和i2,元素i1与元素j1的相似度记作si1,元素i2与元素j1的相似度记作si2,si1>si2;

13、若si1-si2>设定阈值k,则元素j1与元素i1匹配可信度较高,元素j1与元素i1匹配;

14、从源文档和目标文档中剔除已匹配的元素后重复进行源文档中元素与目标文档中元素的匹配,直至完成当前级别匹配规则下的元素匹配。

15、进一步地,在所述步骤3中,计算步骤2中源文档与目标文档中匹配的元素对的差异情况,各匹配元素对的差异计算并行计算,显著降低比对时的时间开销。

16、进一步地,进行myers比对时,根据标点符号将元素对拆分为序列对,将序列对输入myers算法得到句子粒度的差异点;差异点包括增加类型差异点、删除类型差异点和替换类型差异点;增加类型差异点和删除类型差异点作为第一级对比的差异点结果,替换类型差异点进行第二级比对。

17、进一步地,替换类型差异点进行第二级比对时,将替换类型差异点输入lcs算法得到字符级别的差异结果。

18、本发明还提供了一种基于文档元素匹配和多级对比策略的文档快速对比装置,其特征在于,包括:

19、文档结构解析模块,用以调用解析工具将pdf的源文档和pdf的目标文档转换为结构化数据;

20、文档元素匹配模块,基于多级元素匹配规则用以源文档与目标文档之间元素的匹配;

21、文本对比模块,包括第一级文本对比模块和第二级文本对比模块,第一级文本对比模块基于myers算法得到匹配元素的句子级别差异点,第二级文本对比模块基于lcs算法得到字符级别差异点;

22、差异信息输出模块,用以生成差异点的位置信息并输出差异信息。

23、本发明还提供了一种存储介质,包括存储单元,所述存储单元存储有计算机软件,计算机软件按照一种基于文档元素匹配和多级比对策略的文档快速比对方法进行执行。

24、相比与现有技术,本发明的有益效果在于:

25、1、本发明通过多级元素匹配规则进行源文档与目标文档的元素匹配,能够较为准确地检测匹配元素,提升对比的准确率。

26、2、基于myers算法及lcs算法的两级对比,对匹配的元素进行差异比对,先通过myers算法实现句子粒度的比对,再通过lcs实现字符粒度的比对,实现自上而下、先粗后细的对比模式,显著降低对比时的耗时。

技术特征:

1.一种基于文档元素匹配和多级比对策略的文档快速比对方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,匹配规则包括jaccard相似度匹配、文本相似度匹配及带上下文的文本相似度匹配,jaccard相似度匹配、文本相似度匹配及带上下文的文本相似度匹配的匹配严格程度依次增加。

3.根据权利要求2所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,进行元素匹配时,按照匹配规则严格程度由低到高的顺序进行元素匹配;按照同一匹配规则对所有元素进行遍历匹配后,对于未匹配的元素采用下一级元素匹配规则进行元素相似度匹配。

4.根据权利要求3所述的一种基于文档元素匹配和多级对比策略的文档快速比对方法,其特征在于,按照每一级匹配规则进行元素匹配时,将源文档的元素分别与目标文档的元素进行相似度匹配,得到目标文档中与源文档的元素相似度最大的两个元素,按照相似大小分别记作j1和j2,j1的相似度为sj1,j2的相似度为sj2,sj1>sj2;

5.根据权利要求4所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,当sj1-sj2>设定阈值k时,将元素j1与源文档中所有元素进行相似度匹配,计算得到源文档中与元素j1相似度最大的两个元素分别记作i1和i2,元素i1与元素j1的相似度记作si1,元素i2与元素j1的相似度记作si2,si1>si2;

6.根据权利要求5所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,在所述步骤3中,计算步骤2中源文档与目标文档中匹配的元素对的差异情况,各匹配元素对的差异计算并行计算。

7.根据权利要求6所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,进行myers比对时,根据标点符号将元素对拆分为序列对,将序列对输入myers算法得到句子粒度的差异点;差异点包括增加类型差异点、删除类型差异点和替换类型差异点;增加类型差异点和删除类型差异点作为第一级对比的差异点结果,替换类型差异点进行第二级比对。

8.根据权利要求7所述的一种基于文档元素匹配和多级对比策略的文档快速对比方法,其特征在于,替换类型差异点进行第二级比对时,将替换类型差异点输入lcs算法得到字符级别的差异结果。

9.一种基于文档元素匹配和多级对比策略的文档快速对比装置,其特征在于,包括:

10.一种存储介质,其特征在于,包括存储单元,所述存储单元存储有计算机软件,所述计算机软件按照权利要求1-8任意一项所述的方法进行执行。

技术总结本发明涉及一种基于元素匹配和多级比对的文档比对方法、装置及存储介质,该方法包括:步骤1、对PDF的源文档和PFD的目标文档进行预处理,将源文档和目标文档分别转换为结构化数据;结构化数据包括元素及元素含有的字符;步骤2、融合多级元素匹配规则进行源文档与目标文档的元素匹配,元素匹配规则的严格程度逐级增加;步骤3、基于匹配到的元素,依次进行两级比对,第一级比对为Myers比对,第二级比对为LCS比对,得到目标文档与源文档匹配元素之间的差异点;步骤4、差异点汇总,计算生成差异点的位置信息,输出对比结果。本发明通过融合多种相似度的元素匹配,能够较为准确地检测匹配元素,提升对比准确率;基于Myers算法及LCS算法的两级对比,实现自上而下对比,降低对比耗时。技术研发人员:朱耀邦,岳小龙,纪传俊受保护的技术使用者:达观数据有限公司技术研发日:技术公布日:2024/9/2

本文地址:https://www.jishuxx.com/zhuanli/20240905/287921.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。