融合长文本主题关键词的评论信息智能分类方法与流程
- 国知局
- 2024-12-06 12:16:47
本发明属于评论信息智能处理领域,涉及文本特征增强技术、信息主题提取技术、短文本聚合技术与文本情感分析技术,是一种融合长文本主题关键词的评论信息智能分类方法。
背景技术:
0、技术背景
1、对于社交网络评论主题分析,由于社交网络舆论文本篇幅较短,数据具有稀疏性,且包含大量噪声,导致舆论主题分析效果不佳。目前的短文本主题建模研究中,大多学者主要针对短文本的稀疏性问题进行研究,对于通过聚合形成伪长文档的方法,当不同语义内容的短文本聚合成长文档时,非相关词的共现会产生不连贯主题。对全局文档词共现的方法,只关注文档集中词的信息,忽略了文档内部结构,如词语顺序和语义结构,对于假设每个短文本只包含一个主题的方法,虽然在一定程度上缓解了短文本的稀疏性问题,但同时也让模型无法捕获文档的多元主题。对于社交网络评论情感分析,由于社交网络文本的不规范性,使得短文本具有大量隐含语义,这对文本特征提取要求较高,目前基于深度学习的情感分类方法展现出优良的性能,并能实现初步的语义理解,但对文本中深层次情感特征提取能力还有待进一步提高。
技术实现思路
1、本发明的目的是针对上述不足之处提供了一种融合长文本主题关键词的评论信息智能分类方法,融合深度学习技术,在具体的场景任务下提出优化模型算法,以此实现高一致性的评论文本主题挖掘与高精度的负面评论检测。
2、本发明是采取以下技术方案实现的:
3、s1、利用bert模型提取评论信息文本的话题词向量和评论词向量,利用话题注意力层增强评论信息文本特征;
4、s2、采用umap算法对评论向量进行降维操作,采用hdbscan算法对评论文本进行聚类;
5、s3、构建评论主题核心词集,聚合评论短文本得到评论长文档;
6、s4、采用prodlda神经主题模型进行评论主题提取;
7、s5、通过glove模型与预训练bert模型,将评论文本转换成两种不同类型的词嵌入;
8、s6、利用多层神经网络模型对文本进行局部特征提取与上下文信息捕捉;
9、s7、利用情感分类模型对评论文本实现二分类检测。
10、步骤s1的具体过程,包括如下步骤:
11、s1-1、提取评论信息文本中话题字段,在评论文本中的话题字段后添加“[sep]”标记;
12、s1-2、将标记后的评论文本输入bert模型,通过多层transformer架构学习文本表示,获取最后一个隐藏层输出;
13、s1-3、根据添加的标记,分别获得话题词向量矩阵和评论词向量矩阵,并生成注意力矩阵,获得每个评论词和话题词之间的相似度;
14、s1-4、使用注意力矩阵和步骤s1-3得到的评论词向量矩阵生成加权后的评论词向量矩阵;
15、s1-5、通过池化层将加权后的评论词向量矩阵转换为句向量表示。
16、步骤s2的具体过程,包括如下步骤:
17、s2-1、采用基于流形学习的非线性降维方法umap算法对评论向量进行降维操作,在低维空间保留高维数据的局部和全局拓扑结构;
18、s2-2、采用基于密度的聚类方法hdbscan算法对降维后的评论文本进行聚类分析,获得聚类集。
19、步骤s3的具体过程,包括如下步骤:
20、s3-1、利用tf-idf算法,对于每个聚类集中的词,根据其在该聚类中出现的次数和在整个舆论数据集中出现的频率,计算聚类集中每个词的权重;
21、s3-2、根据每个词在聚类中的权重,从每个聚类中选择权重靠前的若干个词作为核心词,形成评论主题核心词集,并记录每个词的权重;
22、s3-3、对于每个聚类集,按照特定的聚合策略,将聚类中的短文本按一定数量进行聚合,形成长文本。
23、步骤s4的具体过程,包括如下步骤:
24、s4-1、构建prodlda模型,将聚合的评论长文档作为模型输入,将构造的核心词集作为解码器重构目标;
25、s4-2、使用adam优化器和批量归一化等技术训练编码器网络,将文档特征表示转换为潜在的主题分布表示;
26、s4-3、模型训练完成后,使用编码器网络将新输入的评论文本数据转换为潜在的主题分布表示。
27、步骤s5的具体过程,包括如下步骤:
28、s5-1、使用中文分词工具(如jieba库)对预处理后的文本进行分词和词性标注,并对标注的词性进行编码;
29、s5-2、对于文本中的每个词,根据其位置索引和维度索引,计算位置编码;
30、s5-3、输入评论文本,经过词嵌入层,融合步骤s5-1获得的词性编码与步骤5-2获得的位置编码,得到glove词嵌入序列与bert词嵌入序列。
31、步骤s6的具体过程,包括如下步骤:
32、s6-1、将步骤s5-3得到的glove词嵌入序列作神经网络cnn-mhsa层的输入,通过卷积操作提取评论文本的局部特征,经过池化操作、多头注意力操作与特征融合,得到特征向量输出;
33、s6-2、将步骤s5-3得到的bert词嵌入序列作为神经网络bigru-att层的输入,使用两个独立的gru网络分别处理正向和反向的序列数据,在bigru模型输出层之前添加注意力层,通过注意力层输出的加权求和特征向量作为bigru-att层的最终输出特征向量。
34、步骤s7的具体过程,包括如下步骤:
35、s7-1、将s6-1与s6-2得到的两种特征向量进行拼接,得到融合特征向量;
36、s7-2、将融合特征向量输入到全连接层,进行特征变换和降维;
37、s7-3、将全连接层的输出作为softmax分类层的输入得到分类结果。
技术特征:1.一种融合长文本主题关键词的评论信息智能分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s1的具体分析过程,包括如下步骤:
3.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s2的具体分析过程,包括如下步骤,包括如下步骤:
4.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s3的具体分析过程,包括如下步骤,包括如下步骤:
5.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s4的具体分析过程,包括如下步骤,包括如下步骤:
6.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s5的具体分析过程,包括如下步骤,包括如下步骤:
7.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s6的具体分析过程,包括如下步骤,包括如下步骤:
8.根据权利要求1所述的融合长文本主题关键词的评论信息智能分类方法,其特征在于,步骤s7的具体分析过程,包括如下步骤,包括如下步骤:
技术总结本发明属于评论信息智能处理领域,涉及文本特征增强技术、信息主题提取技术、短文本聚合技术与文本情感分析技术,是一种融合长文本主题关键词的评论信息智能分类方法。包括S1、利用BERT模型提取评论信息文本的话题词向量和评论词向量,利用话题注意力层增强评论信息话题特征;S2、采用UMAP算法对评论向量进行降维操作,采用HDBSCAN算法对评论文本进行聚类;S3、构建评论主题核心词集,聚合评论短文本得到评论长文档;S4、采用ProdLDA神经主题模型进行评论主题提取;S5、通过GloVe模型与预训练BERT模型,将评论文本转换成两种不同类型的词嵌入;S6、利用多层神经网络模型对文本进行局部特征提取与上下文信息捕捉;S7、利用情感分类模型对评论文本实现二分类检测。本发明在具体的场景任务下提出优化模型算法,实现了高一致性的评论信息主题挖掘与高精度的评论信息智能分类。技术研发人员:李欣怡,周子阔,姚艳丽,于然,崔彭滔,邵博文,曲洪泽,姜蕴洲,张海明,温馨,王艺霏,陈重韬,李信,李蕴红,王沛然,才鸿飞,臧鹏,王婧,王阳,徐晓川,王珣,沈宇,程明,刘蓁,王宣元,王森,尚芳剑,彭柏,马跃,邢海瀛,那琼澜,王东升,杨峰,娄竞,李坚,吴佳,张宁,张晓东,张卫,夏凡,殷建琳,郑立鹤,刘延杰,瞿鹏,任慧芝受保护的技术使用者:国网冀北电力有限公司信息通信分公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/340410.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表