文本解析方法、装置、设备和存储介质与流程
- 国知局
- 2025-01-10 13:39:56
本申请涉及计算机,尤其涉及一种文本解析方法、装置、设备和存储介质。
背景技术:
1、随着移动互联网和信息技术的发展,货运方式发生了很大改变。目前,用户可以通过应用程序下单,货运司机在应用程序上接单,最终完成装货、运货、卸货。
2、应用程序的下单界面包括地址栏和备注区域,在一应用场景中,用户在地址栏上填写的地址可能存在不准确或模糊的情况,而在备注区域中填入了可以反映准确地址位置的文本。针对上述应用场景,可以对上述文本进行解析,得到用户下单的地址,进而将地址自动填入地址栏中,替换原地址,以此简化用户操作。
3、然而,在现有技术中,仅仅是依靠简单的分词技术提取文本中的关键词,进而将上述关键词填入地址栏中,这存在对于文本的解析不够准确的问题。
技术实现思路
1、本申请的主要目的在于提供了一种文本解析方法、装置、计算机设备和存储介质,旨在解决对于文本的解析不够准确的技术问题。
2、为实现上述目的,本申请提供一种文本解析方法,该方法包括:
3、获取第一兴趣点和待解析文本;所述第一兴趣点用于表征预先设置的第一地址;
4、对所述待解析文本进行结构化处理,得到规范化字段;
5、对所述规范化字段进行兴趣点召回,得到n个第二兴趣点;n为大于1的正整数;
6、对所述n个第二兴趣点进行兴趣点过滤,得到m个第二兴趣点;所述m个第二兴趣点为所述n个第二兴趣点中的部分兴趣点;
7、根据所述第一兴趣点与所述m个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点;所述目标兴趣点用于表征所述待解析文本指向的目标地址。
8、可选地,获取待解析文本,包括:
9、获取备注区域的文本;
10、检测所述文本包括的字符类型;
11、若所述文本包括的字符类型满足预设要求,则确定所述文本为待解析文本;
12、其中,所述预设要求包括以下至少一项:
13、文本包括中文;
14、文本不包括乱码;
15、文本不包括电话号码;
16、文本不包括特殊字符。
17、可选地,所述对所述待解析文本进行结构化处理,得到规范化字段,包括:
18、对所述待解析文本进行分词,得到所述待解析文本包括的多个分词;
19、去除所述多个分词中的噪声词;
20、对除燥后的多个分词进行结构化标注,得到所述规范化字段。
21、可选地,所述对所述规范化字段进行兴趣点召回,得到n个第二兴趣点,包括:
22、提取所述待解析文本包括的城市信息;
23、在预设的数据库中对目标关键词进行查询;所述目标关键词包括所述规范化字段和所述城市信息,所述数据库存储有关键词与兴趣点之间的映射关系;
24、若在所述数据库中查询到与所述目标关键词对应的多个兴趣点,则将所述多个兴趣点确定为所述n个第二兴趣点。
25、可选地,所述在预设的数据库中对目标关键词进行查询之后,所述方法还包括:
26、若在所述数据库中未查询到与所述目标关键词对应的多个兴趣点,则分别对所述目标关键词进行自建检索召回得到多个第三兴趣点,对所述目标关键词进行地理区域召回得到多个第四兴趣点,对所述目标关键词进行门址类型召回得到多个第五兴趣点;
27、对所述多个第三兴趣点、所述多个第四兴趣点和所述多个第五兴趣点进行去重;
28、对去重后的所述多个第三兴趣点、所述多个第四兴趣点和所述多个第五兴趣点进行融合,得到所述n个第二兴趣点。
29、可选地,所述对所述n个第二兴趣点进行兴趣点过滤,得到m个第二兴趣点,包括:
30、计算规范化字段与每个第二兴趣点名称之间的最长公共子串;
31、去除所述n个第二兴趣点中对应最长公共子串长度小于预设数值的部分兴趣点,得到所述m个第二兴趣点。
32、可选地,所述根据所述第一兴趣点与所述m个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点,包括:
33、对所述第一兴趣点进行向量化计算,得到所述第一兴趣点对应的第一向量值;
34、对每个第二兴趣点进行向量化计算,得到所述每个第二兴趣点对应的第二向量值;
35、计算所述第一向量值与每个第二向量值之间的相似度数值;
36、若最高相似度数值大于预设阈值,则将所述最高相似度数值对应的第二兴趣点确定为所述目标兴趣点。
37、此外,为实现上述目的,本申请还提供一种文本解析装置,所述文本解析装置包括:
38、获取模块,用于获取第一兴趣点和待解析文本;所述第一兴趣点用于表征预先设置的第一地址;
39、处理模块,用于对所述待解析文本进行结构化处理,得到规范化字段;
40、召回模块,用于对所述规范化字段进行兴趣点召回,得到n个第二兴趣点;n为大于1的正整数;
41、过滤模块,用于对所述n个第二兴趣点进行兴趣点过滤,得到m个第二兴趣点;所述m个第二兴趣点为所述n个第二兴趣点中的部分兴趣点;
42、确定模块,用于根据所述第一兴趣点与所述m个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点;所述目标兴趣点用于表征所述待解析文本指向的目标地址。
43、为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
44、所述计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的文本解析方法的步骤。
45、为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
46、所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的文本解析方法的步骤。
47、与现有技术相比,本申请实施例主要有以下有益效果:
48、本申请提供了一种文本解析方法、装置、设备和存储介质,上述方法包括:获取第一兴趣点和待解析文本;第一兴趣点用于表征预先设置的第一地址;对待解析文本进行结构化处理,得到规范化字段;对规范化字段进行兴趣点召回,得到n个第二兴趣点;n为大于1的正整数;对n个第二兴趣点进行兴趣点过滤,得到m个第二兴趣点;m个第二兴趣点为n个第二兴趣点中的部分兴趣点;根据第一兴趣点与m个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点;目标兴趣点用于表征待解析文本指向的目标地址。本申请实施例中,通过上述方式,确定表征待解析文本指向的目标地址的目标兴趣点,以此提高对于文本解析的准确度。
技术特征:1.一种文本解析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取待解析文本,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述待解析文本进行结构化处理,得到规范化字段,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述规范化字段进行兴趣点召回,得到n个第二兴趣点,包括:
5.根据权利要求4所述的方法,其特征在于,所述在预设的数据库中对目标关键词进行查询之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述n个第二兴趣点进行兴趣点过滤,得到m个第二兴趣点,包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述第一兴趣点与所述m个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点,包括:
8.一种文本解析装置,其特征在于,包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本解析方法的步骤。
技术总结本申请提供了一种文本解析方法、装置、设备和存储介质,上述方法包括:获取第一兴趣点和待解析文本;第一兴趣点用于表征预先设置的第一地址;对待解析文本进行结构化处理,得到规范化字段;对规范化字段进行兴趣点召回,得到N个第二兴趣点;N为大于1的正整数;对N个第二兴趣点进行兴趣点过滤,得到M个第二兴趣点;M个第二兴趣点为N个第二兴趣点中的部分兴趣点;根据第一兴趣点与M个第二兴趣点中每个第二兴趣点之间的相似度,确定目标兴趣点;目标兴趣点用于表征待解析文本指向的目标地址。本申请实施例中,通过上述方式,确定表征待解析文本指向的目标地址的目标兴趣点,以此提高对于文本解析的准确度。技术研发人员:韩沁轩,赵骥受保护的技术使用者:深圳依时货拉拉科技有限公司技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/354559.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表