一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本差异度的计算方法及系统与流程

2022-12-10 17:34:46 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其涉及一种文本差异度的计算方法及系统。


背景技术:

2.随着互联网技术的不断发展与应用,文本数据数量也在不断增长,计算机技术的发展使得文本数据数量呈几何式增长。在这种背景下,利用文本差异化对比技术对文本数据进行差异化分析,可以让相似的文本放在一起,使得人类在检索文本的时候能更有效地获取自己需要的文本。
3.在文本数据量非常大的情况下,利用人工对文本进行差异程度比较时,比较速度慢,操作繁琐,使得用户很难在短时间内了解到文本之间的差异程度。


技术实现要素:

4.本发明提供的文本差异度的计算方法及系统,用于解决现有技术中存在的上述问题,基于待比较的文本的长度和目标莱文斯坦距离计算待比较的文本之间的差异度,解决了在文本数据量非常大情况下,人工比较速度慢、操作繁琐的问题,提高了待比较的文本的差异度的计算效率,同时能够使得用户快速了解待比较的文本之间的差异程度。
5.本发明提供的一种文本差异度的计算方法,包括:
6.获取第一文本的长度和第二文本的长度;
7.在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
8.其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
9.根据本发明提供的一种文本差异度的计算方法,在所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,包括:
10.分别将所述第一文本和所述第二文本拼接成一个字符串,得到所述第一文本对应的第一字符串和所述第二文本对应的第二字符串;
11.将所述第一字符串与所述第二字符串之间的莱文斯坦距离作为所述目标莱文斯坦距离;
12.根据所述第一文本的长度、所述第二文本的长度和所述目标莱文斯坦距离,计算所述差异度。
13.根据本发明提供的一种文本差异度的计算方法,在所述第一文本的长度和所述第
二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度相等的情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,包括:
14.遍历所述第一文本中的每个句子,计算所述第一文本中的任一句子与所述第二文本中第一目标位置的句子之间的莱文斯坦距离,并确定第三字符串和第四字符串的长度的最大值,所述第一目标位置为与所述第一文本中的任一句子所在所述第一文本中的位置相同的位置,所述第三字符串为所述第一文本中的任一句子对应的字符串,所述第四字符串为所述第二文本中第一目标位置的句子对应的字符串;
15.将所述第一文本中的每个句子与所述第二文本中的每个句子之间的莱文斯坦距离之和作为所述目标莱文斯坦距离,并将所述第一文本中的每个句子对应的第三字符串的长度以及所述第二文本中的每个句子对应的第四字符串的长度的最大值之和作为第一文本的长度与第二文本的长度之和;
16.根据所述目标莱文斯坦距离以及所述第一文本的长度与第二文本的长度之和,计算所述差异度。
17.根据本发明提供的一种文本差异度的计算方法,在所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度相等的情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,还包括:
18.遍历所述第一文本中的每个段落,计算所述第一文本中的任一段落与所述第二文本中第二目标位置的段落之间的莱文斯坦距离,并确定第五字符串和第六字符串的长度的最大值,所述第二目标位置为与所述第一文本中的任一段落所在所述第一文本中的位置相同的位置,所述第五字符串为所述第一文本中的任一段落对应的字符串,所述第六字符串为所述第二文本中第二目标位置的段落对应的字符串;
19.将所述第一文本中的每个段落与所述第二文本中的每个段落之间的莱文斯坦距离之和作为所述目标莱文斯坦距离,并将所述第一文本中的每个段落对应的第五字符串的长度以及所述第二文本中的每个段落对应的第六字符串的长度的最大值之和作为第一文本的长度与第二文本的长度之和;
20.根据所述目标莱文斯坦距离以及所述第一文本的长度与第二文本的长度之和,计算所述差异度。
21.根据本发明提供的一种文本差异度的计算方法,所述第一预设条件,包括:
22.所述第一文本的长度或者所述第二文本的长度等于第二预设值。
23.根据本发明提供的一种文本差异度的计算方法,所述方法,还包括:
24.在所述第一文本的长度和所述第二文本的长度满足第二预设条件的情况下,确定所述第一文本与所述第二文本的差异度为第二预设值;
25.其中,所述第一预设条件为所述第一文本的长度或者所述第二文本的长度等于第一预设值。
26.本发明还提供一种文本差异度的计算系统,包括:数据获取模块以及第一计算模块;
27.所述数据获取模块,用于获取第一文本的长度和第二文本的长度;
28.所述第一计算模块,用于在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
29.其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
30.根据本发明提供的一种文本差异度的计算系统,所述系统,还包括:
31.第二计算模块,用于在所述第一文本的长度和所述第二文本的长度满足第二预设条件的情况下,确定所述第一文本与所述第二文本的差异度为第二预设值;
32.其中,所述第二预设条件为所述第一文本的长度或者所述第二文本的长度等于第一预设值。
33.本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现如上述任一种所述文本差异度的计算方法。
34.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本差异度的计算方法。
35.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本差异度的计算方法。
36.本发明提供的文本差异度的计算方法及系统,基于待比较的文本的长度和目标莱文斯坦距离计算待比较的文本之间的差异度,解决了在文本数据量非常大情况下,人工比较速度慢、操作繁琐的问题,提高了待比较的文本的差异度的计算效率,同时能够使得用户快速了解待比较的文本之间的差异程度。
附图说明
37.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是本发明提供的文本差异度的计算方法的流程示意图;
39.图2是本发明提供的文本差异度的计算系统的结构示意图;
40.图3是本发明提供的电子设备的实体结构示意图。
具体实施方式
41.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.图1是本发明提供的文本差异度的计算方法的流程示意图,如图1所示,方法包括:
43.步骤110,获取第一文本的长度和第二文本的长度;
44.步骤120,在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情
况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
45.其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
46.需要说明的是,上述方法的执行主体可以是计算机设备。
47.本发明实施例中,该第一文本和第二文本可以具体为对待比较的文本进行分割处理后得到的文本,更具体为对待比较的文本进行分段处理或者分句处理后得到的文本。
48.本发明实施例中,该第一文本的长度可以具体为第一文本中的句子总数,也可以具体为第一文本中的段落总数。该第二文本的长度可以具体为第二文本中的句子总数,也可以具体为第二文本中的段落总数。
49.本发明实施例中,在第一文本的长度和第二文本的长度满足第一预设条件的情况下,可以具体根据第一文本与第二文本之间的目标莱文斯坦距离、第一文本的长度以及第二文本的长度,计算第一文本与第二文本之间的差异度。该目标莱文斯坦距离可以具体为第一文本中的每个句子包括的字符串与第二文本中的每个句子包括的字符串之间的莱文斯坦距离,也可以具体为第一文本中的每个段落包括的字符串与第二文本中的每个段落包括的字符串之间的莱文斯坦距离。
50.本发明实施例中,该第二预设条件可以具体为第一文本的长度和第二文本的长度均不等于第一预设值,并且第一文本的长度与第二文本的长度不相等(即第一文本中的段落总数与第二文本中的段落总数不相同,或者第一文本中的句子总数与第二文本中的句子总数不相同),也可以具体为第一文本的长度和第二文本的长度均不等于第二预设值,并且第一文本的长度与第二文本的长度相等(即第一文本中的段落总数与第二文本中的段落总数相同,或者第一文本中的句子总数与第二文本中的句子总数相同),该第一预设值可以具体为0。
51.例如,对待比较的文本text1和text2进行分段,得到第一文本t1和第二文本t2,其中,第一文本和第二文本中的段落列表分别为:t1=[t11,t12,t13,...],t2=[t21,t22,t23,...],其中,t11,t12,t13,...分别表示t1中的各个段落;t21,t22,t23,

分别表示t2中的各个段落。由此可以得到t1和t2中包括的段落总数,并将t1中的段落总数作为第一文本的长度,记作len1,将t2中的段落总数作为第二文本的长度,记作len2。
[0052]
又例如,对待比较的文本text1和text2进行分句,得到第一文本t3和第二文本t4,其中,第一文本和第二文本中的句子列表分别为:t3=[t111,t121,t131,...],t4=[t211,t221,t231,...],其中,t111,t121,t131,...分别表示t3中的各个句子;t211,t221,t231,

分别表示t4中的各个句子。由此可以得到t3和t4中包括的句子总数,并将t3中的句子总数作为第一文本的长度,记作len3,将t4中的句子总数作为第二文本的长度,记作len4。
[0053]
以第一文本为t1,第二文本为t2为例,若len1=0或len2=0,则第一文本t1和第二文本t2之间的差异度diffvalue=1。该第一预设条件可以具体为len1≠0,len2≠0且len1≠len2,也可以具体为len1≠0,len2≠0且len1=len2。
[0054]
进一步地,在一个实施例中,所述方法,还可以具体包括:
[0055]
在所述第一文本的长度和所述第二文本的长度满足第二预设条件的情况下,确定所述第一文本与所述第二文本的差异度为第二预设值;
[0056]
其中,所述第一预设条件为所述第一文本的长度或者所述第二文本的长度等于第一预设值。本发明实施例中,在第一文本的长度和第二文本的长度满足第二预设条件的情况下,将第二预设值作为第一文本和第二文本之间的差异度。该第二预设值可以具体用于描述第一文本和第二文本之间的差异程度大小,例如,第二预设值为1代表第一文本和第二文本之间的差异度最大,第二预设值为0代表第一文本和第二文本之间的差异度最小。
[0057]
本发明实施例中,该第二预设条件可以具体为第一文本的长度与该第二文本的长度两者中有一个的文本长度等于第一预设值,该第一预设值可以具体设置为0。在第一预设值为0的情况下,第二预设值可以具体为1。
[0058]
本发明提供的文本差异度的计算方法,基于待比较的文本的长度和目标莱文斯坦距离计算待比较的文本之间的差异度,解决了在文本数据量非常大情况下,人工比较速度慢、操作繁琐的问题,提高了待比较的文本的差异度的计算效率,同时能够使得用户快速了解待比较的文本之间的差异程度。
[0059]
进一步地,在一个实施例中,在所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,可以具体包括:
[0060]
分别将所述第一文本和所述第二文本拼接成一个字符串,得到所述第一文本对应的第一字符串和所述第二文本对应的第二字符串;
[0061]
将所述第一字符串与所述第二字符串之间的莱文斯坦距离作为所述目标莱文斯坦距离;
[0062]
根据所述第一文本的长度、所述第二文本的长度和所述目标莱文斯坦距离,计算所述差异度。
[0063]
本发明实施例中,在第一文本的长度和第二文本的长度均不等于0,且第一文本的长度与第二文本的长度不相等情况下,通过将第一文本中的各个句子或者各个段落包括的字符顺序拼接,得到第一文本对应的字符串,即第一字符串,通过将第二文本中的各个句子或者各个段落包括的字符顺序拼接,得到第二文本对应的字符串,即第二字符串。
[0064]
本发明实施例中,该第一字符串和第二字符串之间的莱文斯坦距离可以具体指将第一字符串和第二字符串中的字符按照语种的不同替换为元字符后,计算替换后的第一字符串和替换后的第二字符串之间的莱文斯坦距离。例如,对于英文等西文字符的一个单词会被替换成一个元字符,中日韩等字符无需替换。
[0065]
本发明实施例中,将该替换后的第一字符串和替换后的第二字符串之间的莱文斯坦距离作为目标莱文斯坦距离。
[0066]
本发明实施例中,将第一字符串中的字符长度作为第一文本的长度,将第二字符串中的字符长度作为第二文本的长度,并得到第一文本的长度和第二文本的长度中的最大值。该差异度可以具体为基于目标莱文斯坦距离与该最大值得到,更具体可以为目标莱文斯坦距离与该最大值的商。
[0067]
例如,在len1≠0,len2≠0且len1≠len2的情况下,则分别将对应第一文本t1和第
二文本t2中的各个段落拼接成一个字符串,得到第一字符串s1和第二字符串s2,再计算第一字符串s1和第二字符串s2之间的莱文斯坦距离distance,确定第一字符串s1和第二字符串s2字符串中字符长度的最大值maxlen,则并计算第一文本t1和第二文本t2之间的差异度diffvalue=distance/maxlen。
[0068]
本发明提供的文本差异度的计算方法,充分利用了文本的语义信息,能够快速计算待比较文本之间的差异度,且算法原理简单,实现起来比较容易。
[0069]
进一步地,在一个实施例中,在所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度相等的情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,包括:
[0070]
遍历所述第一文本中的每个句子,计算所述第一文本中的任一句子与所述第二文本中第一目标位置的句子之间的莱文斯坦距离,并确定第三字符串和第四字符串的长度的最大值,所述第一目标位置为与所述第一文本中的任一句子所在所述第一文本中的位置相同的位置,所述第三字符串为所述第一文本中的任一句子对应的字符串,所述第四字符串为所述第二文本中第一目标位置的句子对应的字符串;
[0071]
将所述第一文本中的每个句子与所述第二文本中的每个句子之间的莱文斯坦距离之和作为所述目标莱文斯坦距离,并将所述第一文本中的每个句子对应的第三字符串的长度以及所述第二文本中的每个句子对应的第四字符串的长度的最大值之和作为第一文本的长度与第二文本的长度之和;
[0072]
根据所述目标莱文斯坦距离以及所述第一文本的长度与第二文本的长度之和,计算所述差异度。
[0073]
本发明实施例中,在第一文本的长度和第二文本的长度均不等于0,且第一文本的长度与第二文本的长度相等情况下,针对对文本进行分句得到的第一文本和第二文本,对于第一文本中的任一句子与第二文本中第一目标位置的句子之间的莱文斯坦距离可以具体为该任一句子对应的字符串与第二文本中的第一目标位置的句子对应的字符串之间的莱文斯坦距离。该第一目标位置可以具体为第二文本中与该任一句子所在第一文本中的位置处于相同位置的第二文本中的句子。该任一句子所在第一文本中的位置可以具体为该句子在第一文本中的总句子的前后顺序确定,例如第一文本和第二文本中的第一句的位置可以记为1,第一文本和第二文本中的第二句可以记为2,以此类推。
[0074]
本发明实施例中,该最大值可以具体为第三字符串中的字符长度与第四字符串中的字符长度中的最大值,该第三字符串可以具体为第一文本中任一句子对应的字符串,该第四字符串可以具体为第二文本中处于第一目标位置的句子对应的字符串。
[0075]
本发明实施例中,该第一文本中的每个句子与第二文本中的每个句子之间的莱文斯坦距离可以具体通过计算第一文本中的任一句子与第二文本中位于第一目标位置的句子之间的莱文斯坦距离,并遍历第一文本中的每个句子得到第一文本中的每个句子与第二文本中的每个句子之间的莱文斯坦距离。需要说明的是,计算第一文本中的任一句子与第二文本中位于第一目标位置的句子之间的莱文斯坦距离时,需要先将任一句子以及第一目标位置的句子对应的字符按照语种替换为元字符后再计算。
[0076]
本发明实施例中,该目标莱文斯坦距离可以具体为将第一文本中的每个句子与第
二文本中的每个句子之间的莱文斯坦距离相加后得到。
[0077]
本发明实施例中,该差异度可以具体为目标莱文斯坦距离以及第一文本的长度与第二文本的长度之和的商,该第一文本的长度与第二文本的长度之和可以具体将第一文本中的每个句子对应的第三字符串的长度以及第二文本中的每个句子对应的第四字符串的长度中的最大值相加得到。
[0078]
例如,在len3≠0和len4≠0且len3=len4的情况下,计算第一文本t3和第二文本t4之间的差异度可以具体为顺序计算第一文本t3中每个句子与第二文本t4中处于第一目标位置的句子的莱文斯坦距离以及第一文本t3中每个句子对应的第三字符串与第二文本t4中处于第一目标位置的句子对应的第四字符串中字符长度的最大值。如,顺序计算t111,t211的莱文斯坦距离distance1;t121,t221的莱文斯坦距离distance2;t131,t231的莱文斯坦距离distance3等,以及t111,t211对应的字符长度的最大值maxlen1;t121,t221对应的字符长度的最大值maxlen2;t131,t231对应的字符长度的最大值maxlen3等。由此,目标莱文斯坦距离totaldistance=distance1 distance2 distance3...;第一文本t3和第二文本t4的长度之和totalmaxlen=maxlen1 maxlen2 maxlen2...;第一文本t3和第二文本t4的差异度diffvalue=totaldistance/totalmaxlen。
[0079]
进一步地,在一个实施例中,在所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度相等的情况下,所述根据第一文本的长度、第二文本的长度以及所述第一文本与所述第二文本之间的目标莱文斯坦距离,计算所述第一文本与所述第二文本的差异度,还包括:
[0080]
遍历所述第一文本中的每个段落,计算所述第一文本中的任一段落与所述第二文本中第二目标位置的段落之间的莱文斯坦距离,并确定第五字符串和第六字符串的长度的最大值,所述第二目标位置为与所述第一文本中的任一段落所在所述第一文本中的位置相同的位置,所述第五字符串为所述第一文本中的任一段落对应的字符串,所述第六字符串为所述第二文本中第二目标位置的段落对应的字符串;
[0081]
将所述第一文本中的每个段落与所述第二文本中的每个段落之间的莱文斯坦距离之和作为所述目标莱文斯坦距离,并将所述第一文本中的每个段落对应的第五字符串的长度以及所述第二文本中的每个段落对应的第六字符串的长度的最大值之和作为所述第一文本的长度与所述第二文本的长度之和;
[0082]
根据所述目标莱文斯坦距离以及所述第一文本的长度与所述第二文本的长度之和,计算所述差异度。
[0083]
本发明实施例中,在第一文本的长度和第二文本的长度均不等于0,且第一文本的长度与第二文本的长度相等情况下,针对对文本进行分段得到的第一文本和第二文本,对于第一文本中的任一段落与第二文本中第二目标位置的段落之间的莱文斯坦距离可以具体为该任一段落对应的字符串与第二文本中的第二目标位置的段落对应的字符串之间的莱文斯坦距离。该第二目标位置可以具体为第二文本中与该任一段落所在第一文本中的位置处于相同位置的第二文本中的段落。该任一段落所在第一文本中的位置可以具体为该段落在第一文本中的总段落的前后顺序确定,例如第一文本和第二文本中的第一段落的位置可以记为1,第一文本和第二文本中的第二段落可以记为2,以此类推。
[0084]
本发明实施例中,该最大值可以具体为第五字符串中的字符长度与第六字符串中
的字符长度中的最大值,该第五字符串可以具体为第一文本中任一段落对应的字符串,该第六字符串可以具体为第二文本中处于第二目标位置的句子对应的字符串。
[0085]
本发明实施例中,该第一文本中的每个段落与第二文本中的每个段落之间的莱文斯坦距离可以具体通过计算第一文本中的任一段落与第二文本中位于第二目标位置的段落之间的莱文斯坦距离,并遍历第一文本中的每个段落得到第一文本中的每个段落与第二文本中的每个段落之间的莱文斯坦距离。需要说明的是,计算第一文本中的任一句子与第二文本中位于第二目标位置的段落之间的莱文斯坦距离时,需要先将任一段落以及第二目标位置的段落对应的字符按照语种替换为元字符后再计算。
[0086]
本发明实施例中,该目标莱文斯坦距离可以具体为将第一文本中的每个段落与第二文本中的每个段落之间的莱文斯坦距离相加后得到。
[0087]
本发明实施例中,该差异度可以具体为目标莱文斯坦距离以及第一文本的长度与第二文本的长度之和的商,该第一文本的长度与第二文本的长度之和可以具体将第一文本中的每个段落对应的第五字符串的长度以及第二文本中的每个段落对应的第六字符串的长度中的最大值相加得到。
[0088]
例如,在len1≠0和len2≠0且len1=len2的情况下,计算第一文本t1和第二文本t2之间的差异度可以具体为顺序计算第一文本t1中每个句子与第二文本t2中处于第二目标位置的段落的莱文斯坦距离,以及第一文本t3中每个段落对应的第五字符串与第二文本t4中处于第二目标位置的段落对应的第六字符串中字符长度的最大值。如,顺序计算t11,t21的莱文斯坦距离distance4;t12,t22的莱文斯坦距离distance5;t13,t23的莱文斯坦距离distance6等,以及t11,t21对应的字符长度的最大值maxlen4;t12,t22对应的字符长度的最大值maxlen5;t13,t23对应的字符长度的最大值maxlen6等。由此,目标莱文斯坦距离totaldistance1=distance4 distance5 distance6...;第一文本t1和第二文本t2的长度之和totalmaxlen1=maxlen4 maxlen5 maxlen6...;第一文本t1和第二文本t2的差异度diffvalue1=totaldistance1/totalmaxlen1。
[0089]
本发明提供的文本差异度的计算方法,充分利用了文本的语义信息,能够快速计算待比较文本之间的差异度,同时利用该差异度能够最大限度的将相似文本聚在一起,简化了聚类的算法复杂度。
[0090]
下面对本发明提供的文本差异度的计算系统进行描述,下文描述的文本差异度的计算系统与上文描述的文本差异度的计算方法可相互对应参照。
[0091]
图2是本发明提供的文本差异度的计算系统的结构示意图,如图2所示,包括:
[0092]
数据获取模块210以及第一计算模块211;
[0093]
所述数据获取模块,用于获取第一文本的长度和第二文本的长度;
[0094]
所述第一计算模块,用于在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
[0095]
其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
[0096]
进一步地,在一个实施例中,所述系统,还可以具体包括:
[0097]
第二计算模块212,用于在所述第一文本的长度和所述第二文本的长度满足第二预设条件的情况下,确定所述第一文本与所述第二文本的差异度为第二预设值;
[0098]
其中,所述第二预设条件为所述第一文本的长度或者所述第二文本的长度等于第一预设值。
[0099]
本发明提供的文本差异度的计算系统,基于待比较的文本的长度和目标莱文斯坦距离计算待比较的文本之间的差异度,解决了在文本数据量非常大情况下,人工比较速度慢、操作繁琐的问题,提高了待比较的文本的差异度的计算效率,同时能够使得用户快速了解待比较的文本之间的差异程度。
[0100]
图3是本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和总线(bus)313,其中,处理器310,通信接口311,存储器312通过总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令,以执行如下方法:
[0101]
获取第一文本的长度和第二文本的长度;
[0102]
在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
[0103]
其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
[0104]
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0105]
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的文本差异度的计算方法,例如包括:
[0106]
获取第一文本的长度和第二文本的长度;
[0107]
在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
[0108]
其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
[0109]
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程
序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本差异度的计算方法,例如包括:
[0110]
获取第一文本的长度和第二文本的长度;
[0111]
在所述第一文本的长度和所述第二文本的长度满足第一预设条件的情况下,根据所述第一文本与所述第二文本之间的目标莱文斯坦距离、所述第一文本的长度以及所述第二文本的长度,计算所述第一文本与所述第二文本的差异度;
[0112]
其中,所述第一预设条件为所述第一文本的长度和所述第二文本的长度均不等于第一预设值,且所述第一文本的长度与所述第二文本的长度不相等或者所述第一文本的长度与所述第二文本的长度相等。
[0113]
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0114]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机电源屏(可以是个人计算机,服务器,或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
[0115]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献