矿用场景下安全信息提取方法、装置、计算机设备和存储介质与流程
- 国知局
- 2024-07-31 23:09:18
本发明涉及文本处理,尤其涉及矿用场景下安全信息提取方法、装置、计算机设备和存储介质。
背景技术:
1、在矿运场景中,矿场工人可能会接收到更改任务的文本信息,出于安全考虑,矿场工人在任务执行过程中不便查看电子设备,因此需要提取文本中的关键词,在电子设备显示该关键词,以使得矿场工人根据文本更改行驶路线。
2、现有的矿用场景下安全信息提取方法通常只是统计词语在文本中的出现的频率,将出现频率较高的字段确定为关键词,然而,某些关键词在文本中的出现频率可能较低,这导致不能从文本中准确的提取关键词。
技术实现思路
1、本发明的主要目的在于提供了矿用场景下安全信息提取方法、装置、计算机设备和存储介质,旨在解决不能从文本中准确的提取关键词的技术问题。
2、为实现上述目的,本发明提供矿用场景下安全信息提取方法,该方法包括:
3、对多个目标文本进行分词处理,得到n个分词集合;每个分词集合包括至少一个分词,n为大于1的正整数;
4、对于任一目标分词,根据所述目标分词在所属分词集合中的出现次数,确定所述目标分词对应的第一权重值;
5、根据所述目标分词对应的聚类类别数量,确定所述目标分词对应的第二权重值;所述聚类类别数量基于对所述n个分词集合中的每个分词进行聚类处理确定;
6、根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值;所述第三权重值基于所述多个目标文本的文本特征确定;
7、根据每个分词对应的目标权重值,确定所述多个目标文本中的关键词。
8、可选地,所述根据所述目标分词在所属分词集合中的出现次数,确定所述目标分词对应的第一权重值,包括:
9、获取所述目标分词在所属分词集合中的出现次数,以及获取所述目标分词所属目标文本中所有分词的出现次数之和;
10、将所述目标分词在所属分词集合中的出现次数,与所述目标分词所述目标文本中所属分词的出现次数之和之间的比值,确定为所述目标分词对应的第一权重值。
11、可选地,所述根据所述目标分词对应的聚类类别数量,确定所述目标分词对应的第二权重值,包括:
12、对所述n个分词集合中的每个分词进行聚类处理,确定所述每个分词对应的聚类类别;
13、将所述目标分词对应的聚类类别数量与n之间的比值,确定为所述目标分词对应的第二权重值。
14、可选地,所述根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值之前,所述方法还包括:
15、提取每个目标文本的文本特征;
16、基于所述每个目标文本的文本特征,确定所述多个目标文本中特定文本的数量;所述特定文本为包括词语的目标文本;
17、根据所述特定文本的数量和所述多个目标文本相关联的语料库,确定所述目标分词对应的第三权重值。
18、可选地,所述根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值,包括:
19、将所述目标分词对应的所述第一权重值、所述第二权重值与第三权重值之间的乘积,确定为所述目标分词对应的目标权重值。
20、可选地,所述根据每个分词对应的目标权重值,确定所述多个目标文本中的关键词,包括:
21、依据目标权重值从大到小的顺序对所述每个分词进行排序,并将排序前m位的分词,确定为所述多个目标文本中的关键词;m为正整数;或者,
22、将对应目标权重值大于或等于预设数值的分词,确定为所述多个目标文本中的关键词。
23、可选地,所述对多个目标文本进行分词处理之前,所述方法还包括:
24、通过预设的正则表达式对多个文本进行文本处理,得到所述多个目标文本。
25、此外,为实现上述目的,本发明还提供矿用场景下安全信息提取装置,所述矿用场景下安全信息提取装置包括:
26、分词模块,用于对多个目标文本进行分词处理,得到n个分词集合;每个分词集合包括至少一个分词,n为大于1的正整数;
27、第一确定模块,用于对于任一目标分词,根据所述目标分词在所属分词集合中的出现次数,确定所述目标分词对应的第一权重值;
28、第二确定模块,用于根据所述目标分词对应的聚类类别数量,确定所述目标分词对应的第二权重值;所述聚类类别数量基于对所述n个分词集合中的每个分词进行聚类处理确定;
29、第三确定模块,用于根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值;所述第三权重值基于所述多个目标文本的文本特征确定;
30、第四确定模块,用于根据每个分词对应的目标权重值,确定所述多个目标文本中的关键词。
31、为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
32、所述计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的矿用场景下安全信息提取方法的步骤。
33、为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
34、所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的矿用场景下安全信息提取方法的步骤。
35、与现有技术相比,本申请实施例主要有以下有益效果:
36、本发明提供了矿用场景下安全信息提取方法、装置、计算机设备和存储介质,上述方法包括:对多个目标文本进行分词处理,得到n个分词集合;每个分词集合包括至少一个分词,n为大于1的正整数;对于任一目标分词,根据目标分词在所属分词集合中的出现次数,确定目标分词对应的第一权重值;根据目标分词对应的聚类类别数量,确定目标分词对应的第二权重值;聚类类别数量基于对n个分词集合中的每个分词进行聚类处理确定;根据目标分词对应的第一权重值、第二权重值和第三权重值,确定目标分词对应的目标权重值;第三权重值基于多个目标文本的文本特征确定;根据每个分词对应的目标权重值,确定多个目标文本中的关键词。本发明实施例中,对于文本中的每个分词,根据该分词对应的第一权重值、第二权重值和第三权重值,确定该分词是否为关键词,其中,上述第一权重值基于分词的词频确定,上述第二权重值基于分词的聚类类别数量确定,上述第三权重值基于文本的文本特征确定;而不是简单的根据各个分词在文本中的出现频率确定关键词。以此,提高了提取关键词的准确性。
技术特征:1.矿用场景下安全信息提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词在所属分词集合中的出现次数,确定所述目标分词对应的第一权重值,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词对应的聚类类别数量,确定所述目标分词对应的第二权重值,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值之前,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词对应的所述第一权重值、所述第二权重值和第三权重值,确定所述目标分词对应的目标权重值,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据每个分词对应的目标权重值,确定所述多个目标文本中的关键词,包括:
7.根据权利要求1所述的方法,其特征在于,所述对多个目标文本进行分词处理之前,所述方法还包括:
8.矿用场景下安全信息提取装置,其特征在于,包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的矿用场景下安全信息提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的矿用场景下安全信息提取方法的步骤。
技术总结本发明提供了矿用场景下安全信息提取方法、装置、计算机设备和存储介质,上述方法包括:对多个目标文本进行分词处理,得到N个分词集合;对于任一目标分词,根据目标分词在所属分词集合中的出现次数,确定目标分词对应的第一权重值;根据目标分词对应的聚类类别数量,确定目标分词对应的第二权重值;根据目标分词对应的第一权重值、第二权重值和第三权重值,确定目标分词对应的目标权重值;根据每个分词对应的目标权重值,确定多个目标文本中的关键词。本发明实施例中,根据该分词对应的第一权重值、第二权重值和第三权重值,确定该分词是否为关键词;而不是简单的根据各个分词在文本中的出现频率确定关键词。以此,提高了提取关键词的准确性。技术研发人员:龚政,丁柏平,杨锋,黄阳彪受保护的技术使用者:深圳市中孚能电气设备有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196119.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表