一种文本串行聚类方法、装置及存储介质与流程
- 国知局
- 2024-10-09 14:34:45
本发明涉及计算机领域,尤其是一种文本串行聚类方法、装置及存储介质。
背景技术:
1、目前针对文本中包含的事件进行聚类,主要依赖于文本聚类技术:通过将待聚类文本转换为特征表示向量,将特征表示向量输入到聚类算法中进行聚类计算,临近相似的向量形成类簇,并将类簇与向量的关系映射为类簇与文本的关系。然而,现今的文本聚类技术,通常对文本进行关键词提取,对提取的关键词进行聚类,因此依赖于关键词提取的准确度,存在一定的信息误差累积,聚类效果差;聚类过程中通常采用单一的算法通过优化算法的参数以得到一个相对满足的结果,聚类效果以及稳定性差。
技术实现思路
1、有鉴于此,为了解决上述技术问题的至少之一,本发明的目的是提供一种文本串行聚类方法、装置、设备及存储介质,提高聚类准确性以及稳定性。
2、本发明实施例提供了一种文本串行聚类方法,包括:
3、获取待处理的文本数据;
4、通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量;
5、通过第一聚类子模块对所述文本特征向量进行第一聚类处理,通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合;
6、对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合;
7、将所述类簇要素集合输入至文本生成模型,生成所述文本数据的概要描述。
8、进一步,所述通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量,包括:
9、通过多头注意力的sentence-bert网络、bert模型以及gpt模型中的其中一种,对所述文本数据进行编码处理,得到文本特征向量。
10、进一步,所述通过第一聚类子模块对所述文本特征向量进行第一聚类处理,包括:
11、通过所述第一聚类子模块根据预设领域值对所述文本特征向量进行第一聚类处理,得到若干个第一类簇以及无聚类的剩余向量数据。
12、进一步,所述通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合,包括:
13、通过所述第二聚类子模块对第一聚类处理结果中的所述剩余向量数据进行第二聚类处理,得到若干个第二类簇;
14、根据所述第一类簇以及所述第二类簇,生成最终类簇集合。
15、进一步,所述对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合,包括:
16、对所述第一类簇以及所述第二类簇进行关键词提取,得到类簇关键词集合;
17、通过多头注意力选择模型对所述第一类簇以及所述第二类簇进行实体识别,得到实体要素集合;
18、所述类簇关键词集合以及所述实体要素集合构成所述类簇要素集合。
19、进一步,所述对所述第一类簇以及所述第二类簇进行关键词提取,得到类簇关键词集合,包括:
20、通过第一关键词提取算法对所述第一类簇以及所述第二类簇进行第一提取处理,得到若干个第一关键词以及所述第一关键词对应的第一权重;
21、通过第二关键词提取算法对所述第一类簇以及所述第二类簇进行第二提取处理,得到若干个第二关键词以及所述第二关键词对应的第二权重;
22、确定所述第一关键词中与所述第二关键词相同的目标关键词;
23、根据所述目标关键词的第一权重、预设第一权重因子、所述目标关键词的第二权重、预设第二权重因子进行加权求和,得到第三权重,所述第三权重作为新的第一权重,删除所述目标关键词的第二权重;
24、根据所述第一权重大于或等于预设阈值的第一关键词以及所述第二权重大于或等于预设阈值的第二关键词,得到类簇关键词集合。
25、进一步,所述将所述类簇要素集合输入至文本生成模型之前,还包括:
26、确定所述类簇关键词集合与所述实体要素集合中包含相同内容的相同关键词,以及所述实体要素集合中与所述相同关键词对应的相同实体要素;
27、对所述相同实体要素进行去嵌套化处理;
28、对所述相同关键词进行删除处理或者对嵌套化处理结果中的相同关键词进行删除处理。
29、本发明实施例还提供一种文本串行聚类装置,包括:
30、获取模块,用于获取待处理的文本数据;
31、编码模块,用于通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量;
32、聚类模块,用于通过第一聚类子模块对所述文本特征向量进行第一聚类处理,通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合;
33、提取模块,用于对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合;
34、生成模块,用于将所述类簇要素集合输入至文本生成模型,生成所述文本数据的概要描述。
35、本发明实施例还提供一种文本串行聚类装置,所述文本串行聚类装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。
36、本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。
37、本发明的有益效果是:
38、通过获取待处理的文本数据,通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量,通过第一聚类子模块对所述文本特征向量进行第一聚类处理,通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合,将文本特征向量的整体特征用于聚类处理,避免了关键词提取准确率等信息损耗传导到聚类处理中,有利于提高聚类效果,通过第一聚类处理结合第二聚类处理实现串行聚类处理,通过不同的聚类组合有利于生成稳定的最终类簇集合,提高聚类的准确性以及稳定性;对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合,将所述类簇要素集合输入至文本生成模型,生成所述文本数据的概要描述,有利于提高概要描述的准确度。
39、为了更好地理解和实施,下面结合附图详细说明本发明。
技术特征:1.一种文本串行聚类方法,其特征在于,包括:
2.根据权利要求1所述文本串行聚类方法,其特征在于:所述通过神经网络模型对所述文本数据进行编码处理,得到文本特征向量,包括:
3.根据权利要求1-2任一项所述文本串行聚类方法,其特征在于:所述通过第一聚类子模块对所述文本特征向量进行第一聚类处理,包括:
4.根据权利要求3所述文本串行聚类方法,其特征在于:所述通过第二聚类子模块对第一聚类处理结果进行第二聚类处理,得到最终类簇集合,包括:
5.根据权利要求4所述文本串行聚类方法,其特征在于:所述对所述最终类簇集合进行关键要素提取处理,得到类簇要素集合,包括:
6.根据权利要求5所述文本串行聚类方法,其特征在于:所述对所述第一类簇以及所述第二类簇进行关键词提取,得到类簇关键词集合,包括:
7.根据权利要求5所述文本串行聚类方法,其特征在于:所述将所述类簇要素集合输入至文本生成模型之前,还包括:
8.一种文本串行聚类装置,其特征在于,包括:
9.一种文本串行聚类装置,其特征在于:所述文本串行聚类装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7中任一项所述方法。
10.一种计算机可读存储介质,其特征在于:所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7中任一项所述方法。
技术总结本发明公开了一种文本串行聚类方法、装置及存储介质,本发明通过神经网络模型对文本数据进行编码处理得到文本特征向量,通过第一聚类子模块对文本特征向量进行第一聚类处理,通过第二聚类子模块对第一聚类处理结果进行第二聚类处理得到最终类簇集合;将文本特征向量的整体特征用于聚类处理,避免了关键词提取准确率等信息损耗传导到聚类处理中,有利于提高聚类效果;通过第一聚类处理结合第二聚类处理实现串行聚类处理,通过不同的聚类组合有利于生成稳定的最终类簇集合,提高聚类准确性以及稳定性;对最终类簇集合进行关键要素提取处理得到类簇要素集合,将类簇要素集合输入至文本生成模型生成文本数据的概要描述,利于提高概要描述的准确度。技术研发人员:康明吉,王舒,王明鹏受保护的技术使用者:广东亿迅科技有限公司技术研发日:技术公布日:2024/9/29本文地址:https://www.jishuxx.com/zhuanli/20241009/305722.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。