技术新讯 > 计算推算,计数设备的制造及其应用技术 > 结合语义纠错解析的地址相似度匹配系统的制作方法 > 正文

结合语义纠错解析的地址相似度匹配系统的制作方法

国知局
2024-10-21 14:37:22

本发明属于数据处理，尤其涉及结合语义纠错解析的地址相似度匹配系统。

背景技术：

1、在当今快速城市化和科技发展的背景下，智慧城市的概念逐渐成为社会治理领域的关键词之一。在社会治理应用中，地址文本描述可能存在不规范的问题，例如地址包含口语化表达、缩写、错别字、大量无关信息以及指代模糊等非规范表达形式，同时地址也可能存在多个地名表达，包含了该地址的历史变迁，这些都增加了地址的歧义性，导致现有地址查询系统的匹配准确率的下降，从而匹配错误。在传统技术中，通过构建地址要素词库，结合一定的匹配规则，进行层级匹配，这十分依赖词库的完整性以及输入的待查询地址描述的规范性。在地址匹配中仅依靠计算地址文本相似度是难以满足复杂且不规则的地址匹配的，在实际应用也中无法满足大量高效率的定位需求。因此，设计一种能规范地址，提高准确率的依赖的结合语义纠错解析的地址相似度匹配系统成为了急需解决的技术问题。

技术实现思路

1、本发明为解决上述问题，提供了结合语义纠错解析的地址相似度匹配系统。

2、本发明的技术方案，结合语义纠错解析的地址相似度匹配系统，所述匹配系统包括以下模块，

3、数据集模块，获取标准地址数据以及业务地址数据，对应得到得到地址要素数据集与地址要素纠错数据集；获取标准地址要素数据以及历史地址要素别名数据，得到地址要素语义相似度数据集；

4、纠错模块，将地址要素纠错数据集训练，构建地址要素纠错模型，所述地址要素纠错模型包括编码器与解码器，将地址文本处理后得到隐藏层表征信息，利用输入投影矩阵输入softmax层得到纠错后的输出序列，输出为地址的标准形式描述；

5、解析模块，将地址要素数据集训练，构建地址要素解析模型，所述地址要素解析模型包括词嵌入输入层、编码层、注意力层以及crf层，将地址文字转换为词嵌入向量，经扩张卷积操作处理，利用向量矩阵输入softmax层处理，约束得到地址的要素标签序列；

6、倒排索引模块，将标准地址数据输入地址要素解析模型，得到标准地址的要素标签序列信息，并与标准地址数据构建倒排索引，生成地址要素检索库；

7、语义相似度模块，将地址要素语义相似度数据集训练，构建地址要素语义相似度模型；所述地址要素语义相似度模型包括词嵌入子模块、地址要素字符相似度以及地址要素权重，将要素标签序列输入词嵌入子模块，进行向量的余弦相似度计算，得到地址的语义相似度，所述地址要素字符相似度对要素标签序列进行编辑距离算法处理，得到地址的字符串相似度，将语义相似度与字符串相似度依据地址要素权重结合，输出地址的语义相似度总得分；

8、该匹配系统包括以下步骤，

9、s1，将目标地址的信息输入地址要素纠错模型，输出目标地址的标准形式描述；

10、s2，将目标地址的标准形式描述输入地址要素解析模型，得到目标地址的要素标签序列；

11、s3，将目标地址的要素标签序列在地址要素检索库中进行倒排索引，得到地址候选对集合；

12、s4，目标地址与地址候选对集合的要素标签序列输入地址要素语义相似度模型，得到目标地址与各个地址候选对的语义相似度总得分；

13、s5，选择语义相似度总得分最大的地址候选对，将相应的地址信息输出为地址匹配的结果。

14、作为本发明的进一步改进，所述地址要素数据集与地址要素纠错数据集通过按比例选取标准地址数据与业务地址数据，整理制作得到；所述地址要素数据集包含对地址文本中要素标签的标注，所述地址要素纠错数据集包含原始地址描述以及对应标准地址描述的数据对集合；所述地址要素语义相似度数据集通过按比例选取标准地址要素数据与历史地址要素别名数据，整理制作得到；该地址要素语义相似度数据集包括地址要素分割以及n-gram结构的要素数据列表集合。

15、作为本发明的进一步改进，所述地址要素纠错模型将地址文本输入编码器，得到完整语义信息的隐藏层表征信息，再输入解码器得到地址的目标隐藏层表征信息，利用投影矩阵输入softmax层得到纠错后的输出序列，输出得到地址的标准形式描述。

16、作为本发明的进一步改进，所述地址要素解析模型将地址的要素标签以及对应的汉字输入词嵌入输入层，生成汉字的词嵌入向量；编码层通过扩张卷积操作处理词嵌入向量，得到标签概率序列；将标签概率序列输入注意力层，通过以3个不同的向量矩阵作为注意力机制模块，输入softmax层处理，输出最终标签概率序列；将最终标签概率序列输入crf层，约束得到地址要素标签序列。

17、作为本发明的进一步改进，所述地址要素检索库基于搜索引擎elasticsearch进行构建。

18、作为本发明的进一步改进，所述地址要素语义相似度模型将地址的要素标签序列输入词嵌入子模块，生成相应的要素向量，再计算要素向量的余弦相似度，输出为语义相似度；所述语义相似度总得分的计算公式为

19、

20、其中，i表示对应的地址要素类别，wi表示地址要素类别对应的权重值，表示目标地址与地址候选对之间的地址要素类别语义相似度，表示目标地址与地址候选对之间的地址要素类别字符串相似度。

21、采用上述方法后，通过纠错模块处理输入的目标地址信息，将信息中包含的口语化表达、缩写、错别字、大量无关信息以及指代模糊等非规范表达，规范为标准形式描述，排除了地址存在多个地名表达，以及历史变迁带来的地址信息的歧义性，提高了后续匹配地址的准确率，减少匹配错误；通过解析模块将标准地址数据处理，得到要素标签序列并生成地址要素检索库，在输入目标地址进行检索时，将目标地址信息在地址要素检索库中进行索引，找出若干地址候选对并建立集合，随后依据地址要素语义相似度模型，将目标地址的要素标签序列与地址候选对逐一进行计算，得到相应的语义相似度总得分，相较于现有的层级匹配机制，能一次性进行多个候选地址的相似度评分并输出语义相似度最高的候选地址；实现对地址文本的规范化，准确提取地址文本的实体信息，结合语义相似度计算，达到规范地址的作用，降低对要素词库的依赖，从而提高了匹配的准确率与效率，在实际应用中能满足大量高效率的定位需求。

技术特征：

1.结合语义纠错解析的地址相似度匹配系统，其特征在于：所述匹配系统包括以下模块，

2.根据权利要求1所述结合语义纠错解析的地址相似度匹配系统，其特征在于：所述地址要素数据集与地址要素纠错数据集通过按比例选取标准地址数据与业务地址数据，整理制作得到；所述地址要素数据集包含对地址文本中要素标签的标注，所述地址要素纠错数据集包含原始地址描述以及对应标准地址描述的数据对集合；所述地址要素语义相似度数据集通过按比例选取标准地址要素数据与历史地址要素别名数据，整理制作得到；该地址要素语义相似度数据集包括地址要素分割以及n-gram结构的要素数据列表集合。

3.根据权利要求2所述结合语义纠错解析的地址相似度匹配系统，其特征在于：所述地址要素纠错模型将地址文本输入编码器，得到完整语义信息的隐藏层表征信息，再输入解码器得到地址的目标隐藏层表征信息，利用投影矩阵输入softmax层得到纠错后的输出序列，输出得到地址的标准形式描述。

4.根据权利要求2所述结合语义纠错解析的地址相似度匹配系统，其特征在于：所述地址要素解析模型将地址的要素标签以及对应的汉字输入词嵌入输入层，生成汉字的词嵌入向量；编码层通过扩张卷积操作处理词嵌入向量，得到标签概率序列；将标签概率序列输入注意力层，通过以3个不同的向量矩阵作为注意力机制模块，输入softmax层处理，输出最终标签概率序列；将最终标签概率序列输入crf层，约束得到地址要素标签序列。

5.根据权利要求2所述结合语义纠错解析的地址相似度匹配系统，其特征在于：所述地址要素检索库基于搜索引擎elasticsearch进行构建。

6.根据权利要求2所述结合语义纠错解析的地址相似度匹配系统，其特征在于：所述地址要素语义相似度模型将地址的要素标签序列输入词嵌入子模块，生成相应的要素向量，再计算要素向量的余弦相似度，输出为语义相似度；所述语义相似度总得分的计算公式为

技术总结本发明涉及结合语义纠错解析的地址相似度匹配系统，构建标准地址纠错数据集训练地址纠错模型，可以实现对地址文本的规范化，构建地址要素数据集训练地址要素解析模型，可以实现准确提取地址文本的实体信息，基于标准地址要素数据与历史地址要素别名数据训练，构建地址要素语义相似度模型，文本规范化结合语义相似度计算，降低对要素词库的依赖，从而提高了匹配的准确率与效率。技术研发人员：周川,卢蔚,金洁,何芳,余正,杨晨,翁盛强,沈郑伟,王超,陈恒俊,李旭超,贾振,章凯城,潘潇潇,黄奥婕受保护的技术使用者：温州设计集团有限公司技术研发日：技术公布日：2024/10/17