技术新讯 > 计算推算,计数设备的制造及其应用技术 > 城乡区域类型识别方法与流程 > 正文

城乡区域类型识别方法与流程

国知局
2024-10-21 14:36:51

本技术属于数据处理，具体涉及一种城乡区域类型识别方法。

背景技术：

1、近年来一些金融欺诈案例时常发生，且农村区域和城市区域发生的欺诈案例多有不同，如果能够根据用户办理金融业务的地址识别出区域类型，就可以进行一些特定的反欺诈宣传，从而避免一些欺诈行为的发生。目前业内常用的区域类型识别主要是根据用户提供的地址进行解析，获取到详细的居委会或村委会，然后根据居委会或者村委会进一步获取到对应的城乡分类编码，以此确定城乡区域类型。然而，金融产品的申请流程存在大量的用户手填地址，根据输入习惯，用户一般情况下提供的地址信息可能不够完整、精确，这就导致城乡区域识别的准确率不高。

技术实现思路

1、本技术的目的在于提供一种城乡区域类型识别方法，以提高城乡区域类型识别的准确性。

2、本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面，提供一种城乡区域类型识别方法，包括：

4、对待查询地址文本进行行政区划识别，以确定所述待查询地址文本包含的初始行政区域链路；所述初始行政区域链路是指所述待查询地址文本中的行政区域按顺序排列形成的路径；

5、当所述初始行政区域链路存在行政区域缺失时，根据所述初始行政区域链路在预设索引树中查找，以根据查找结果生成所述待查询地址文本对应的修正行政区域链路；其中，所述预设索引树是以行政区域为节点、以行政区域间的行政区划关系为节点间的连接关系而构建的；

6、当所述修正行政区域链路不包含所述预设索引树中叶子节点对应的行政区域时，根据所述修正行政区域链路中最末级行政区域的数据计算所述待查询地址文本对应的城乡概率；所述城乡概率表示所述待查询地址文本为农村区域的概率；

7、根据所述待查询地址文本对应的城乡概率确定所述待查询地址文本的城乡区域类型。

8、根据本技术实施例的一个方面，提供一种城乡区域类型识别装置，包括：

9、行政区划识别模块，用于对待查询地址文本进行行政区划识别，以确定所述待查询地址文本包含的初始行政区域链路；所述初始行政区域链路是指所述待查询地址文本中的行政区域按顺序排列形成的路径；

10、查找模块，用于当所述初始行政区域链路存在行政区域缺失时，根据所述初始行政区域链路在预设索引树中查找，以根据查找结果生成所述待查询地址文本对应的修正行政区域链路；其中，所述预设索引树是以行政区域为节点、以行政区域间的行政区划关系为节点间的连接关系而构建的；

11、概率计算模块，用于当所述修正行政区域链路不包含所述预设索引树中叶子节点对应的行政区域时，根据所述修正行政区域链路中最末级行政区域的数据计算所述待查询地址文本对应的城乡概率；所述城乡概率表示所述待查询地址文本为农村区域的概率；

12、第一类型确定模块，用于根据所述待查询地址文本对应的城乡概率确定所述待查询地址文本的城乡区域类型。

13、在本技术的一个实施例中，行政区划识别模块具体用于：

14、将所述初始行政区域链路中的各级行政区域按照从高到低的顺序排列，得到第一行政区域链路；

15、将所述初始行政区域链路中的各级行政区域按照从低到高的顺序在所述预设索引树中查找，得到至少一条第二行政区域链路；

16、将所述至少一条第二行政区域链路分别与所述第一行政区域链路比较，得到所述修正行政区域链路。

17、在本技术的一个实施例中，概率计算模块具体用于：

18、获取所述修正行政区域链路中最末级行政区域对应的农村置信度和农村覆盖率中的至少一个；其中，所述农村置信度是根据所述最末级行政区域对应的兴趣点列表数据生成的，所述农村覆盖率表示所述最末级行政区域包含的农村行政区域的占比；

19、根据所述农村置信度和所述农村覆盖率中的至少一个确定所述待查询地址文本对应的城乡概率。

20、在本技术的一个实施例中，概率计算模块具体用于：

21、根据所述修正行政区域链路查询地图数据，以获取所述最末级行政区域对应的兴趣点列表数据；所述兴趣点列表数据包括多个兴趣点，所述兴趣点为城镇兴趣点或农村兴趣点；

22、计算所述兴趣点列表数据中农村词汇的词频分数；所述农村词汇是指兴趣点的描述数据中，用于描述兴趣点属于农村区域的词汇；

23、确定距离所述待查询地址文本在预设范围内的兴趣点所包含的农村词汇，将所述预设范围内的最高词频分数作为所述待查询地址文本对应的农村置信度。

24、在本技术的一个实施例中，概率计算模块具体用于：

25、对所述兴趣点列表数据中各个兴趣点的描述标签进行分词处理，以提取所述各个兴趣点包含的功能词汇，并将属于农村区域的功能词汇作为农村词汇；其中，所述功能词汇用于描述所述兴趣点的功能；

26、统计功能词汇总数、各个农村词汇的出现次数、兴趣点总数以及各个农村词汇对应的兴趣点数量，所述农村词汇对应的兴趣点数量是指包含该农村词汇的兴趣点数量；

27、对于一个农村词汇：将所述农村词汇的出现次数与所述农村词汇对应的兴趣点数量相乘后除以所述功能词汇总数，得到第一值；将所述兴趣点总数除以所述农村词汇的出现次数后取对数，得到第二值；将所述第一值和所述第二值的乘积作为所述农村词汇的词频分数。

28、在本技术的一个实施例中，概率计算模块具体用于：

29、根据所述预设索引树获取所述修正行政区域链路中最末级行政区域包含的叶子节点行政区域；所述叶子节点行政区域是指所述预设索引树中叶子节点对应的行政区域；

30、将所述最末级行政区域包含的叶子节点行政区域中，农村行政区域的占比作为所述待查询地址文本对应的城乡概率。

31、在本技术的一个实施例中，概率计算模块具体用于：

32、获取所述修正行政区域链路中最末级行政区域对应的多个预设指标特征对应的特征数据，所述预设指标特征是根据样本地址文本确定的、对城乡区域类型识别的信息增益符合条件的指标特征；

33、将所述多个预设指标特征对应的特征数据输入预设分类模型，得到所述预设分类模型输出的所述待查询地址文本对应的城乡概率。

34、在本技术的一个实施例中，所述装置还包括：

35、预设指标确定模块，用于基于多个样本地址文本构成样本地址文本集，所述样本地址文本包括多个候选指标特征的特征数据以及城乡区域类型标签；根据所述样本地址文本集，分别计算各个候选指标特征对城乡区域类型识别的信息增益；将各个候选指标特征对应的信息增益按照从高到低的顺序排列，并将排列在前的预设数量的候选指标特征作为所述多个预设指标特征。

36、在本技术的一个实施例中，所述预设指标确定模块具体用于：

37、对于一个候选指标特征，根据所述样本地址文本集计算所述候选指标特征对应的总信息熵；

38、根据候选指标特征的多个取值区间，将样本地址文本集划分为多个样本子集；其中，一个样本子集对应于一个取值区间；

39、根据各个取值区间对应的样本子集分别计算各个取值区间中所述候选指标特征对应的区间信息熵，以及计算各个样本子集包含的样本地址文本数量在所述样本地址文本集的样本地址文本总数量中的数量占比，并根据各个取值区间的区间信息熵和数量占比的乘积得到各个取值区间的条件熵；

40、将所述总信息熵减去所述各个取值区间的条件熵之和，得到所述候选指标特征的信息增益。

41、在本技术的一个实施例中，所述装置还包括：

42、第二类型确定模块，用于当所述初始行政区域链路不存在行政区域缺失时，根据所述初始行政区域链路在预设索引树中查找，以确定所述待查询地址文本中最末级行政区域在所述预设索引树中对应的叶子节点；将所述叶子节点的城乡编码所指示的城乡区域类型作为所述待查询地址文本的城乡区域类型。

43、根据本技术实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的城乡区域类型识别方法。

44、根据本技术实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器执行所述可执行指令使得所述电子设备执行如以上技术方案中的城乡区域类型识别方法。

45、根据本技术实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的城乡区域类型识别方法。

46、在本技术实施例提供的技术方案中，首先对待查询地址文本进行行政区划识别，以确定待查询地址文本包含的初始行政区域链路；然后，当初始行政区域链路存在行政区域缺失时，根据初始行政区域链路在预设索引树中查找，以根据查找结果生成待查询地址文本对应的修正行政区域链路；接下来，当修正行政区域链路不包含预设索引树中叶子节点对应的行政区域时，根据修正行政区域链路中最末级行政区域的数据计算待查询地址文本对应的城乡概率；最后根据待查询地址文本对应的城乡概率确定待查询地址文本的城乡区域类型，由此，通过查询预设索引树对地址缺失的待查询地址文本进行了修正，进而通过城乡概率计算得到准确的城乡分类概率，从而使得城乡区域识别即使在查询文本不够完整的情况下，也能够活动准确的识别结果，提高了城乡区域识别的准确性。

47、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。