一种高速公路不合格绿通车模式抽取方法
- 国知局
- 2024-11-21 11:33:55
本技术涉及大数据,具体涉及一种高速公路不合格绿通车模式抽取方法。
背景技术:
1、高速公路鲜活农产品“绿色通道”简称绿通,是装运鲜活农产品的车辆专用通道。现有技术常用统计法处理绿通领域的结构化数据和图像数据,统计法通常只能处理低维度的数据,难以综合考虑司机、车辆、货物三个维度的多种因素。此外,统计方法主要关注数据的显性特征,如平均值、标准差等,缺乏提取深层次、隐性特征的能力,表达复杂关系的能力有限,且往往以数值和图表呈现结果,难以直观展示数据中的复杂模式和关系。因此统计法不能多维度捕捉不合格绿通车的模式和关系,也不能从各个角度全面、准确的直观呈现不合格绿通车的特点。
2、同时,现有技术对于不合格绿通车的模式分析较少,多在时间、省份、货厢、货物种类等常见特点中展开分析,模式定义少且维度单一,无法全面掌握高速公路不合格绿通车的行为特征。
3、此外,现有绿通领域的研究中,数据类型匮乏,大多数研究局限于结构化数据和图像数据,缺乏对于业务文本数据的挖掘。
技术实现思路
1、针对现有技术存在的上述不足,本公开的目的在于提供一种高速公路不合格绿通车模式抽取方法。
2、为实现以上目的,本公开采用如下技术方案:
3、一种高速公路不合格绿通车模式抽取方法,包括以下步骤:
4、a.数据获取并对所获取的数据进行预处理,以构建有效数据集
5、所述数据包括绿通查验过程中产生的查验业务数据和通过网络爬虫技术获取的文本数据,所述查验业务数据包括查验业务文本数据和结构化数据;将网络爬虫技术获取的文本数据和查验业务文本数据整合,得到文本数据集;
6、b.实体定义及标注
7、从人员、车辆和货物三个维度定义不合格绿通车行为特征的实体,使用bio标记法标注文本数据集中的实体;
8、c.构建bert-bilstm-crf模型进行文本数据集的命名实体识别和关系抽取;
9、d.知识融合
10、将文本数据集中抽取出的实体和结构化数据中已有的描述相同实体的信息进行匹配和关联,融合文本数据和结构化数据中的信息;
11、e.构建不合格绿通车模式知识图谱及可视化
12、将已得到的不合格绿通车的知识信息以知识图谱的形式整合及可视化,形成完整直观的不合格绿通车知识表示;
13、f.基于知识图谱计算图相似度、并进行图聚类及可视化图聚类结果
14、使用最大公共子图计算知识图谱结构相似度,采用谱聚类算法将相似度高的图分至同一聚类簇中,相似度低的图分至不同聚类簇;利用图数据库neo4j存储和可视化图聚类结果,得到不合格绿通车的行为特征。
15、优选的,所述步骤a中,数据进行预处理包括文本数据预处理和结构化数据预处理,
16、所述文本数据预处理包括:
17、文本清洗、自定义词典、分词、去停用词、词组合并;
18、删除文本数据中无效、重复、异常的数据;
19、建立高速公路绿通领域业务词典,包括专有名词、交通术语、农产品目类、业务缩略词;
20、结合jieba库中内置的默认词典和自定义词典,采用精确模式对文本分词处理;
21、剔除文本中的标点符号、数字、空格、语气词、连词以及与绿通车主题无关的词;
22、归并语义相同但表述不同的词组;
23、所述结构化数据预处理包括:数据清洗、数据集成、数据变换、数据规约;将结构化数据集中的与绿通车无关的数据进行筛选和删除,剔除异常数据;把不同来源、不同格式、不同数据存储系统的数据整合到一个数据库中,合并重复数据、保留有用的数据,得到一个数据集;将所述数据集进行统一化处理;通过选择、变换和合并数据,仅保留在不合格绿通车模式抽取任务研究和分析中能反映所定义实体和关系的信息。
24、优选的,所述步骤b中,
25、人员维度定义包括司机从业年限、司机信用、司机证件状况和司机驾龄;
26、车辆维度定义包括货厢类型、etc安装情况、预约状况、查验季度、车型、入口省份和查验时间;
27、货物维度定义包括时价范围、当季率、运输损耗率、鲜活度、重量和种类。
28、优选的,所述步骤b中,使用bio标记法标注文本数据集中的实体,包括采用bio标记法给文本数据集打标签,其中,{b-、i-、o-}前缀分别代表了实体的开始文字、中间文字和其他不相关信息。
29、优选的,所述步骤c中命名实体识别,包括:
30、搭建bert-bilstm-crf模型,首先输入文本数据,bert将输入文本作为序列输入到transformer网络中,并通过多层双向编码器对每个词语进行编码,在经过bert层的编码后会得到一个对应的向量作为下一层的输入;
31、经过bert的词向量再进入bilstm网络,自动提取上下文语义特征并将结果输入到crf层;
32、crf层对bilstm层的输出结果进行解码,并对输入句子进行序列标注,最终得到实体标签的分类;
33、所述关系抽取,包括文本数据集实体关系抽取,根据已抽取出的实体定义关系列表,使用bert-bilstm-crf模型抽取实体间的关系。
34、优选的,所述步骤d包括:基于语义相似度进行实体对齐,识别出文本数据集和结构化数据中具有不同表达方式的同一实体,将所述具有不同表达方式的同一实体进行匹配和关联。
35、优选的,所述步骤e包括:
36、构建知识图谱:通过对不合格绿通车实体及关系的抽取,得到了反映不合格绿通车行为特征的模式,将所述反映不合格绿通车行为特征的模式利用知识图谱的方式呈现;
37、知识图谱的存储及可视化:使用图数据库neo4j存储所呈现的知识图谱,neo4jbrowser工具能够对高速公路不合格绿通车模式的知识图谱进行可视化展示。
38、优选的,所述步骤f中,
39、所述计算知识图谱结构相似度,包括使用最大公共子图相似度衡量不合格绿通车模式之间的相似关系,利用每条不合格绿通车模式结构特征进行最大公共子图的图匹配,得到知识图谱的结构相似度矩阵;
40、利用谱聚类算法进行图聚类,谱聚类算法的输入为结构相似度矩阵和自定义聚类数目k,输出为聚类结果,其中聚类数目k能够通过经验法、肘部法则或轮廓系数法选取。
41、优选的,所述步骤f中,所述可视化图聚类结果包括使用图数据库neo4j存储和可视化图聚类结果。
42、与现有技术相比,本技术具有以下技术效果:
43、本技术从文本数据和结构化数据中抽取不合格绿通车的模式,将模式和关系以知识图谱的形式呈现,采用图相似度、图聚类技术分析总结不合格绿通车的规律,得到不合格绿通车的行为特征。
44、本技术方法将模式抽取和知识图谱相融合,从人员、车辆和货物三个维度刻画不合格绿通车的模式,深入挖掘高速公路不合格绿通车领域的文本数据和结构化数据,揭示不合格绿通车的用户画像、行为偏好特征以及趋势等,能够展现实际执行中运输货物及装载的细则,反映司机和货主对政策解读的程度,为收费站查验工作人员的查验工作业务流程优化提供参考,对绿通车领域的业务经验抽取提供技术支撑。
本文地址:https://www.jishuxx.com/zhuanli/20241120/331801.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表