文本内容的匹配方法及装置与流程

2022-05-18 12:35:20 来源：中国专利 TAG：

1.本发明涉及一种自然语言处理技术领域，特别是涉及一种文本内容的匹配方法及装置。

背景技术：

2.随着大数据技术的快速发展，越来越多的应用领域需要对企业数据进行大数据性管理，尤其是针对没有唯一身份编码的对象，通常需要利用名称唯一标识身份来进行相关数据管理，如包括企业名称管理、论文名称管理、试题题目管理等。例如，在利用企业名称作为唯一标识身份进行相关业务管理过程中，需要进行名称的一致性验证，即将一个或多个企业名称，与现有业务数据中的多个企业名称进行比对，以确定企业主体的一致性，从而保证企业身份的真实性。
3.目前，现有的名称的一致性验证通常是通过将名称作为文本内容拆分单字进行一一对比，以确定名称的主体一致性，但是，拆分单字进行一一对比大大降低了匹配效率，使得匹配结果存在冗余，且由于词语组成的特性，拆分单字进行对比还需要大量人工筛选，加大了匹配的负担，从而降低了文本内容的匹配效率。

技术实现要素：

4.有鉴于此，本发明提供一种文本内容的匹配方法及装置，主要目的在于解决现有文本内容的匹配效率低的问题。
5.依据本发明一个方面，提供了一种文本内容的匹配方法，包括：
6.获取待匹配的目标文本内容；
7.按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的；
8.若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容。
9.进一步地，所述获取待匹配的目标文本内容之前，所述方法还包括：
10.获取对比文本内容，并基于所述对比文本内容按照标记词类型进行拆分，所述标记词类型包括区域词类型、特征范围词类型、业务形式词类型；
11.按照拆分后词语构建索引关系，确定索引词，所述索引关系用于表征在索引匹配时的匹配次序；
12.生成与所述索引关系、所述索引词匹配的文本匹配词库，所述文本匹配词库中包含与所述索引词对应的同义词库，以基于所述同义词库中的同义词语进行索引匹配。
13.进一步地，所述按照标记词类型对所述目标文本内容进行分词，得到分词结果包括：
14.利用自然语言处理技术，按照所述标记词类型对所述目标文本内容中的词语进行拆分解析，确定所述词语所对应的标记词类型；
15.按照所述标记词类型对所述词语进行标记，得到包含与所述标记词类型匹配的词语内容的分词结果。
16.进一步地，所述按照标记词类型对所述目标文本内容进行分词，得到分词结果之后，还包括：
17.按照所述分词结果中词语内容的标记词类型确定索引匹配的索引词，以及所述索引词所对应的同义词库；
18.按照所述索引词的索引关系，将所述词语内容与所述同义词库中的同义词语进行比较；
19.若所述同义词语与所述词语内容匹配，则确定所述分词结果与所述索引词匹配。
20.进一步地，所述基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容包括：
21.确定所述分词结果的标记参数，以及所述标记词类型的权重值；
22.基于所述同义词库中索引词所对应的同义词语与所述分词结果之间的占比值，以及所述标记参数、所述权重值计算所述分词结果的相似度值；
23.若所述相似度值大于或等于筛选相似度阈值，则将构建所述索引词的对比文本内容确定为与所述目标文本内容匹配的文本内容。
24.进一步地，所述确定所述标记词类型的权重值包括：
25.获取所述对比文本内容的唯一性参数、干扰性参数以及经验参数；
26.基于权重模型函数计算不同标记词类型对应所述唯一性参数、所述干扰性参数以及所述经验参数的权重值。
27.进一步地，所述获取待匹配的目标文本内容之后，所述方法还包括：
28.解析所述目标文本内容中至少一个目标词语，并获取与所述目标文本内容匹配的对比文本内容中至少一个对比词语；
29.若所述目标词语与所述对比词语完全匹配，则确定所述目标文本内容与所述对比文本内容完全匹配，并输出所述对比文件内容，以作为所述目标文本内容匹配的文本内容；
30.若所述目标词语与至少一个所述对比词语不完全匹配，则确定所述目标文本内容与所述对比文本内容不完全匹配，以执行按照标记词类型对所述目标文本内容进行分词。
31.依据本发明另一个方面，提供了一种文本内容的匹配装置，包括：
32.获取模块，用于获取待匹配的目标文本内容；
33.分词模块，用于按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的；
34.确定模块，用于若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容。
35.进一步地，所述装置还包括：
36.拆分模块，用于获取对比文本内容，并基于所述对比文本内容按照标记词类型进
行拆分，所述标记词类型包括区域词类型、特征范围词类型、业务形式词类型；
37.构建模块，用于按照拆分后词语构建索引关系，确定索引词，所述索引关系用于表征在索引匹配时的匹配次序；
38.生成模块，用于生成与所述索引关系、所述索引词匹配的文本匹配词库，所述文本匹配词库中包含与所述索引词对应的同义词库，以基于所述同义词库中的同义词语进行索引匹配。
39.进一步地，所述分词模块包括：
40.拆分单元，用于利用自然语言处理技术，按照所述标记词类型对所述目标文本内容中的词语进行拆分解析，确定所述词语所对应的标记词类型；
41.标记单元，用于按照所述标记词类型对所述词语进行标记，得到包含与所述标记词类型匹配的词语内容的分词结果。
42.进一步地，所述装置还包括：比较模块，
43.所述确定模块，还用于按照所述分词结果中词语内容的标记词类型确定索引匹配的索引词，以及所述索引词所对应的同义词库；
44.所述比较模块，用于按照所述索引词的索引关系，将所述词语内容与所述同义词库中的同义词语进行比较；
45.所述确定模块，还用于若所述同义词语与所述词语内容匹配，则确定所述分词结果与所述索引词匹配。
46.进一步地，所述确定模块包括：
47.第一确定单元，用于确定所述分词结果的标记参数，以及所述标记词类型的权重值；
48.计算单元，用于基于所述同义词库中索引词所对应的同义词语与所述分词结果之间的占比值，以及所述标记参数、所述权重值计算所述分词结果的相似度值；
49.第二确定单元，用于若所述相似度值大于或等于筛选相似度阈值，则将构建所述索引词的对比文本内容确定为与所述目标文本内容匹配的文本内容。
50.进一步地，所述第一确定单元，具体用于获取所述对比文本内容的唯一性参数、干扰性参数以及经验参数；基于权重模型函数计算不同标记词类型对应所述唯一性参数、所述干扰性参数以及所述经验参数的权重值。
51.进一步地，所述装置还包括：解析模块，输出模块，
52.所述解析模块，用于解析所述目标文本内容中至少一个目标词语，并获取与所述目标文本内容匹配的对比文本内容中至少一个对比词语；
53.所述输出模块，用于若所述目标词语与所述对比词语完全匹配，则确定所述目标文本内容与所述对比文本内容完全匹配，并输出所述对比文件内容，以作为所述目标文本内容匹配的文本内容；
54.所述确定模块，用于若所述目标词语与至少一个所述对比词语不完全匹配，则确定所述目标文本内容与所述对比文本内容不完全匹配，以执行按照标记词类型对所述目标文本内容进行分词。
55.根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述文本内容的匹配方法对应的操作。
56.根据本发明的再一方面，提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
57.所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述文本内容的匹配方法对应的操作。
58.借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：
59.本发明提供了一种文本内容的匹配方法及装置，与现有技术相比，本发明实施例通过获取待匹配的目标文本内容；按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的；若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容，大大提高了文本内容的匹配准确性，减少文本内容的匹配结果冗余，并避免了人工筛选的误差，降低了文本内容匹配的负担，从而提高了文本内容的匹配效率。
60.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
61.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
62.图1示出了本发明实施例提供的一种文本内容的匹配方法流程图；
63.图2示出了本发明实施例提供的另一种文本内容的匹配方法流程图；
64.图3示出了本发明实施例提供的又一种文本内容的匹配方法流程图；
65.图4示出了本发明实施例提供的一种基于匹配引擎实现示意图；
66.图5示出了本发明实施例提供的再一种文本内容的匹配方法流程图；
67.图6示出了本发明实施例提供的一种文本内容的匹配装置组成框图；
68.图7示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
69.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
70.针对企业名称一致性验证通常是通过将名称作为文本内容拆分单字进行一一对比，以确定名称的主体一致性，但是，拆分单字进行一一对比大大降低了匹配效率，使得匹配结果存在冗余，且由于词语组成的特性，拆分单字进行对比还需要大量人工筛选，加大了匹配的负担，从而降低了文本内容的匹配效率本发明实施例提供了一种文本内容的匹配方法，如图1所示，该方法包括：
71.101、获取待匹配的目标文本内容。
72.本发明实施例中，目标文本内容用于表征需要从预设文本范围内匹配是否存在相同文本内容的文本对象，目标文本内容的业务适用范围包括但不限于企业名称、论文题目、试题题目等文本内容，例如，若针对企业名称领域，待匹配的目标文本内容可以为“北京市某通人信息有限公司”，从而进行步骤102中方法进行分词。其中，目标文本内容可以为中文或英文等不同种语言所形成的，且包含多个词语的文本数据，从而可以对目标文本内容进行词语拆分，本发明实施例不做具体限定。
73.需要说明的是，当前执行主体可以为进行文本内容匹配的处理器、服务端、终端、组件等，从而为用户提供文本内容的匹配，因此，当前执行端中待匹配的目标文本内容可以通过接收用户录入或者从选项(通过预先配置选项界面输出选项使用户进行选取)中获取得到的文本内容。
74.102、按照标记词类型对所述目标文本内容进行分词，得到分词结果。
75.本发明实施例中，为了对文本内容与索引词进行对比，从而判断是否匹配，此时，按照标记词对目标文本内容进行分词。其中，所述标记词类型用于表征待进行索引匹配的索引词的类型，以便按照拆分后的分词结果与索引词进行匹配。其中，标记词类型针对不同业务适用范围至少包括区域词、特征范围词、业务形式词，例如，针对业务名称业务适用范围，区域词可以为企业名称所属地区，如“北京市”、“辽宁省”等内容，特征范围词为经营范围词，如“科技”、“互联网”等，业务形式可以为组织形式，如“有限责任公司”、“事务所”，标记词类型还可以包括企业字号、非业务标记词，例如，非业务标记词用于表征不能进行类别划分的所以词语内容，如某华通、某知挂、某里巴巴等，从而作为一类词语进行索引匹配。又如，针对论文题目适用范围，区域词可以为论文科研领域范围，如“生物学”、“信息控制”，特征范围词为科研创新范围词，如“基于神经网络的...”、“基于风能的...”，业务形式可以为论文体系形式，如“研究”、“分析”、“设计”，本发明实施例不做具体限定。
76.需要说明的是，在对目标文本内容进行分词时，是通过标记词类型进行拆分的，此时，具体可以基于自然语言处理技术按照词语特征，如名称词组，将目标文本内容进行拆分，同时，按照标记词类型，进行整合拆分得到的词语，例如，按照词语特征在拆分时，得到“责任”、“公司”词语，但是根据标记词类型“有限责任公司”，将“责任”、“公司”进行整合，得到最终对目标文本内容进行拆分得到的结果，即“有限责任公司”，本发明实施例不做具体限定。同时，由于索引词为基于与目标文本内容匹配的对比文本内容构建的，此时，索引词不仅仅表示为一个词语，而是基于对比文本内容构建的包含多个同义词语的词库，即可以通过查找到索引词，对应到词库，此词库中包含与不同索引词对应的同义词库，以基于同义词库中的同义词语进行一一匹配，还可以基于对比文本内容构建索引词与不同标记词类型对应的词语的同义关系，从而基于拆分得到的分词结果之间与索引词进行匹配，本发明实施例不做具体限定。而本发明实施例中的对比本文内容即为在预设文本范围选取的至少一个与目标文本内容进行对比，以判断是否匹配的文本对象，例如，待匹配的目标文本内容可以为“北京市某通人信息有限公司”，的一个对比文本内容可以为“某通人(北京)研究有限责任公司”，此时，基于多个对比文本内容构索引词，从而基于索引词与目标文本内容的分词结果进行一一匹配。另外，当前执行端中预先建立有包含有全部对比文本内容的文本数据库，从而作为获取对比文本内容的数据依据，当获取到待匹配的目标文本内容时，可以从
文本数据库中获取至少一个对比文本内容，以便构建索引词。
77.103、若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容。
78.本发明实施例中，由于分词结果中包含有不同标记词类型的词语内容，因此，分词结果与索引词匹配具体为此索引词对应的词库中的同义词匹配，此时，也可以为基于分词结果与索引词之间预先建立的同义关系确定分词结果与索引词之间是否匹配，本发明实施例不做具体限定。另外，由于分词结果中可以包含有多个标记词类型的词语内容，因此，在进行索引匹配时，可以为词语内容依次与索引词匹配，若每个词语内容均与索引词匹配，则确定为分词结果与索引词匹配。为了得到准确的匹配的结果，此计算分词结果与索引词之间的相似度值，从而与筛选相似度阈值进行比较，以确定最终作为目标文本内容的匹配结果，如分词结果与索引词之间的相似度值大于筛选相似度阈值，则确定出与目标文本内容匹配的文本内容，即为构建索引词的对比文本内容。
79.在另一个本发明实施例中，为了进一步限定及说明，如图2所示，步骤101获取待匹配的目标文本内容之前，所述方法还包括：
80.201、获取对比文本内容，并基于所述对比文本内容按照标记词类型进行拆分；
81.202、按照拆分后词语构建索引关系，确定索引词；
82.203、生成与所述索引关系、所述索引词匹配的文本匹配词库。
83.本发明实施例中，为了实现基于索引词与拆分得到的分词结果进行匹配，预先基于对比文本内容构建索引词，以便基于分词结果与索引词进行匹配。具体的，获取存储于当前执行主体中的至少一个对比文本内容，并基于标记词类型对对比文本内容进行拆分，此时，可以按照自然语言处理技术将对比文本内容中的各个词语进行整合拆分，实现方式与对目标对比文本内容相同，不再进行赘述。同时，将拆分后得到的各标记词类型的词语建立索引关系，每个按照标记词类型拆分的词语均作为一个索引词，从而构建的索引关系用于表征在索引匹配时的匹配次序，如，按照区域词类型、特征范围词类型、业务形式词类型分别对应的索引词进行依次匹配，本发明实施例不做具体限定。
84.需要说明的是，为了实现基于索引词进行匹配的适用范围，基于索引关系、索引词生成文本匹配词库，此时，文本匹配词库中包含与不同索引词对应的同义词库，以基于同义词库中的同义词语进行索引匹配，即一个文本匹配词库中包含一个对比文本内容中所拆分确定的多个索引词，以及每个索引词所对应的同义词库，此时，同义词库包括不同索引词所匹配的同义词，以便基于分词结果与索引词进行匹配时，若分词结果与索引词的同义词库中的同义词相同，则分词结果与索引词匹配。例如，索引词为“北京”，同义词库中包括同义词“北京市”、“首都”，则当分词结果为“北京市”时，与索引词“北京”的同义词库中的“北京市”匹配，则分词结果“北京市”与索引词“北京”匹配，以计算分词结果“北京市”与索引词“北京”之间的相似度值。
85.在另一个本发明实施例中，为了进一步限定及说明，步骤102按照标记词类型对所述目标文本内容进行分词，得到分词结果包括：
86.利用自然语言处理技术，按照所述标记词类型对所述目标文本内容中的词语进行拆分解析，确定所述词语所对应的标记词类型；
87.按照所述标记词类型对所述词语进行标记，得到包含与所述标记词类型匹配的词语内容的分词结果。
88.为了实现对目标文本内容按照标记词类型进行分词，具体的，基于自然语言处理技术，按照标记词类型对目标文本内容中的各个词语进行拆分解析，即为可以按照已确定的中文词组的词语特征对目标文本内容中的词语进行拆分解析，例如，目标文本内容为“北京市某通人信息有限公司”，则按照区域词类型、特征范围词类型、业务形式词类型对“北京市某通人信息有限公司”中的词语“北京市”、“某通人”、“信息”、“有限”、“公司”进行拆分解析，确定各个词语所对应的标记词类型，即“北京市”对应区域词类型，“信息”对应特征范围词类型，“有限”与“公司”组合对应业务形式词类型，其中，可以将“某通人”作为非业务标记词，从而对上述的各个词语进行标记标记词类型，得到分词结果。
89.在另一个本发明实施例中，为了进一步限定及说明，如图3所示，步骤102按照标记词类型对所述目标文本内容进行分词，得到分词结果之后，还包括：
90.301、按照所述分词结果中词语内容的标记词类型确定索引匹配的索引词，以及所述索引词所对应的同义词库；
91.302、按照所述索引词的索引关系，将所述词语内容与所述同义词库中的同义词语进行比较；
92.303、若所述同义词语与所述词语内容匹配，则确定所述分词结果与所述索引词匹配。
93.由于分词结果包括对目标文本内容进行拆分后得到的所有带有标记词类型的词语内容，为了实现分词结果与索引词之间的匹配，具体的，通过各个索引词的标记词类型以及各个词语内容进行拆分过程中的标记词类型进行对应，确定分词结果中各个词语内容与对应进行匹配的索引词，从而按照索引词的索引关系，将词语内容与匹配的索引词的同义词库中的同义词库进行比较。例如，按照索引关系依次匹配分词结果中包括“北京市”、“有限公司”，即按照索引词1“北京”的同义词库中的同义词语“北京市”、“首都”，以及索引词2“有限责任公司”的同义词库中的同义词语“有限公司”分别依次进行对比，即分词结果中的“北京市”与索引词1“北京”匹配，“有限公司”与索引词2“有限公司”匹配，如图4所示的匹配流程。
94.需要说明的是，由于标记词类型中可以包括非业务标记词的方式对除区域词类型、特征范围词类型、业务形式词类型之外的词语进行标记类型覆盖，因此，在构建索引词时，可以基于预先配置的标记词类型进行构建，从而在进行分词结果与索引词进行匹配时，进一步限定用于标识区分身份的词语，以提高文本内容的匹配准确性。
95.在另一个本发明实施例中，为了进一步限定及说明，步骤103基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容包括：
96.确定所述分词结果的标记参数，以及所述标记词类型的权重值；
97.基于所述同义词库中索引词所对应的同义词语与所述分词结果之间的占比值，以及所述标记参数、所述权重值计算所述分词结果的相似度值；
98.若所述相似度值大于或等于筛选相似度阈值，则将构建所述索引词的对比文本内容确定为与所述目标文本内容匹配的文本内容。
99.由于分词结果可以为多个，索引词可以为多个，在分词结果与索引词匹配时，是指每个分词结果对对应的索引词匹配，此时，为了进一步确定目标文本内容所匹配的文本内容，在分词结果与索引词进行相似度计算，从而与筛选相似度阈值比较，以基于比较结果确定目标文本内容所对应的文本内容，具体的，确定分词结果所对应的标记参数以及标记类型所对应的权重值，以计算相似度值。其中，标记参数k为分词后是否匹配标记词类型中的标记，若匹配则k＝1，不匹配为k＝0；权重值w为表征标记词类型所对应的计算权重数值，以基于相似度计算函数计算出相似度值rank。
100.其中，相似度计算函数为其中，n为分词结果中词语内容以及索引词的个数，k为标记参数，w为权重值，m为同义词库中索引词所对应的同义词语与分词结果之间的占比值，如企业名称在同义词库中与同义词语命中的百分比，可以按照与同义词匹配的个数占比计算得到，本发明实施例不做具体限定。
101.需要说明的是，由于分词结果中的每个词语内容与对应的索引词之间均可以计算得到一个相似度值，此时，筛选相似度阈值为预先设定的一个筛选词语内容的相似度阈值，可以为不同的多个与索引词匹配的相似度阈值，也可以为一个相似度阈值，本发明实施例不做具体限定，以在相似度值大于或等于筛选相似度阈值时，基于构建索引词的对比文本内容确定为匹配此目标文本内容的文本内容，优选的，筛选相似度阈值为60％-90％。
102.在另一个本发明实施例中，为了进一步限定及说明，步骤确定所述标记词类型的权重值包括：获取所述对比文本内容的唯一性参数、干扰性参数以及经验参数；基于权重模型函数计算不同标记词类型对应所述唯一性参数、所述干扰性参数以及所述经验参数的权重值。
103.具体的，在计算相似度值时，标记词类型的权重值可以基于唯一性参数、干扰性参数以及经验参数进行确定，以进行精准的文本内容的匹配。其中，唯一性参数f(x0)为表征标记词类型词相同，而词语内容不同的词语所占比例的加权平均值，干扰性参数f(x1)为表征标记词类型词相同，且词语内容也相同的词语所占比例的加权平均值，此时，加权平均值用于表示待匹配的目标文本内容中只出现一次的词语的分布加权数值，经验参数z为预先设定的人为经验调整参数值，以基于权重模型函数计算不同标记词类型对应所述唯一性参数、所述干扰性参数以及所述经验参数的权重值。其中，权重模型函数weight表示为weight＝f(x0)-f(x1) z，本发明实施例不做具体限定。
104.在另一个本发明实施例中，为了进一步限定及说明，如图5所示，步骤101获取待匹配的目标文本内容之后，所述方法还包括：
105.401、解析所述目标文本内容中至少一个目标词语，并获取与所述目标文本内容匹配的对比文本内容中至少一个对比词语；
106.402、若所述目标词语与所述对比词语完全匹配，则确定所述目标文本内容与所述对比文本内容完全匹配，并输出所述对比文件内容，以作为所述目标文本内容匹配的文本内容；
107.403、若所述目标词语与至少一个所述对比词语不完全匹配，则确定所述目标文本内容与所述对比文本内容不完全匹配，以执行按照标记词类型对所述目标文本内容进行分词。
108.为了提高文本内容的匹配效率以及准确性，在获取目标文本内容按照标记词类型进行分词前，可以首先按照目标文本内容中的每个词语与对比文本内容中的每个词语进行一一匹配，从而确定是否完全匹配，若在不完全匹配的情况下，执行按照标记词类型进行分词的步骤。其中，通过自然语言处理技术对目标文本内容进行词语解析，得到至少一个目标词语，同时获取对比文本内容中的至少一个对比词语，此时对比词语可以为预先对对比文本内容进行词语解析得到的，进而按照一一对比匹配的方式，判断目标词语是否与对比词语完全相同。若目标词语与对比词语完全匹配，则说明目标文本内容与对比文本内容匹配，可以输出对比文件内容，以作为目标文本内容匹配的文本内容。
109.本发明实施例提供了一种文本内容的匹配方法，与现有技术相比，本发明实施例通过获取待匹配的目标文本内容；按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的；若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容，大大提高了文本内容的匹配准确性，减少文本内容的匹配结果冗余，并避免了人工筛选的误差，降低了文本内容匹配的负担，从而提高了文本内容的匹配效率。
110.进一步的，作为对上述图1所示方法的实现，本发明实施例提供了一种文本内容的匹配装置，如图6所示，该装置包括：
111.获取模块51，用于获取待匹配的目标文本内容；
112.分词模块52，用于按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型；
113.确定模块53，用于若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的。
114.进一步地，所述装置还包括：
115.拆分模块，用于获取对比文本内容，并基于所述对比文本内容按照标记词类型进行拆分，所述标记词类型包括区域词类型、特征范围词类型、业务形式词类型；
116.构建模块，用于按照拆分后词语构建索引关系，确定索引词，所述索引关系用于表征在索引匹配时的匹配次序；
117.生成模块，用于生成与所述索引关系、所述索引词匹配的文本匹配词库，所述文本匹配词库中包含与所述索引词对应的同义词库，以基于所述同义词库中的同义词语进行索引匹配。
118.进一步地，所述分词模块包括：
119.拆分单元，用于利用自然语言处理技术，按照所述标记词类型对所述目标文本内容中的词语进行拆分解析，确定所述词语所对应的标记词类型；
120.标记单元，用于按照所述标记词类型对所述词语进行标记，得到包含与所述标记词类型匹配的词语内容的分词结果。
121.进一步地，所述装置还包括：比较模块，
122.所述确定模块，还用于按照所述分词结果中词语内容的标记词类型确定索引匹配的索引词，以及所述索引词所对应的同义词库；
123.所述比较模块，用于按照所述索引词的索引关系，将所述词语内容与所述同义词库中的同义词语进行比较；
124.所述确定模块，还用于若所述同义词语与所述词语内容匹配，则确定所述分词结果与所述索引词匹配。
125.进一步地，所述确定模块包括：
126.第一确定单元，用于确定所述分词结果的标记参数，以及所述标记词类型的权重值；
127.计算单元，用于基于所述同义词库中索引词所对应的同义词语与所述分词结果之间的占比值，以及所述标记参数、所述权重值计算所述分词结果的相似度值；
128.第二确定单元，用于若所述相似度值大于或等于筛选相似度阈值，则将构建所述索引词的对比文本内容确定为与所述目标文本内容匹配的文本内容。
129.进一步地，所述第一确定单元，具体用于获取所述对比文本内容的唯一性参数、干扰性参数以及经验参数；基于权重模型函数计算不同标记词类型对应所述唯一性参数、所述干扰性参数以及所述经验参数的权重值。
130.进一步地，所述装置还包括：解析模块，输出模块，
131.所述解析模块，用于解析所述目标文本内容中至少一个目标词语，并获取与所述目标文本内容匹配的对比文本内容中至少一个对比词语；
132.所述输出模块，用于若所述目标词语与所述对比词语完全匹配，则确定所述目标文本内容与所述对比文本内容完全匹配，并输出所述对比文件内容，以作为所述目标文本内容匹配的文本内容；
133.所述确定模块，用于若所述目标词语与至少一个所述对比词语不完全匹配，则确定所述目标文本内容与所述对比文本内容不完全匹配，以执行按照标记词类型对所述目标文本内容进行分词。
134.本发明实施例提供了一种文本内容的匹配装置，与现有技术相比，本发明实施例通过获取待匹配的目标文本内容；按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的；若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容，大大提高了文本内容的匹配准确性，减少文本内容的匹配结果冗余，并避免了人工筛选的误差，降低了文本内容匹配的负担，从而提高了文本内容的匹配效率。
135.根据本发明一个实施例提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本内容的匹配方法。
136.图7示出了根据本发明一个实施例提供的一种终端的结构示意图，本发明具体实施例并不对终端的具体实现做限定。
137.如图7所示，该终端可以包括：处理器(processor)602、通信接口(communications interface)604、存储器(memory)606、以及通信总线608。
138.其中：处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
139.通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。
140.处理器602，用于执行程序610，具体可以执行上述文本内容的匹配方法实施例中的相关步骤。
141.具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。
142.处理器602可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
143.存储器606，用于存放程序610。存储器606可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
144.程序610具体可以用于使得处理器602执行以下操作：
145.获取待匹配的目标文本内容；
146.按照标记词类型对所述目标文本内容进行分词，得到分词结果，所述标记词类型用于表征待进行索引匹配的索引词的类型；
147.若所述分词结果与所述索引词匹配，则基于所述分词结果与所述索引词之间的相似度值与筛选相似度阈值进行比较，并基于相似度比较结果确定与所述目标文本内容匹配的文本内容，所述索引词为基于与所述目标文本内容对应的对比文本内容构建的。
148.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
149.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

文本内容的匹配方法及装置与流程

相关文献

最热文献