基于深度学习的主题建模与情感分析方法及系统
- 国知局
- 2024-07-31 23:27:36
本发明涉及自然语言处理相关,具体地说,是涉及基于深度学习的主题建模与情感分析方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,并不必然构成在先技术。
2、随着大数据的发展,基于互联网开放环境采集数据并建模得到相关观点具有重要意义,如医疗领域具有高度的专业化和敏感的伦理问题,医生和患者对ai在医疗领域的应用可能存在不同的观点和认可度,如何准确获取到医生和患者的真实态度至关重要,这将直接影响ai在医疗领域的应用和推广。
3、根据大数据分析得到相关观点的方法,包括主题建模和情感分析两个方面。主题模型是一种无监督工具,线性判别算法(lda)和非负矩阵分解(nmf)等传统模型将文档描述为词袋单词,并将每个文档建模形成潜在主题。结构主题模型(stm)结合了主题建模和文本中的隐含结构,通过提取文本数据中的结构化信息发现主题结构。情感分析是自然语言处理(nlp)中一个具有挑战性的研究课题;情感分析任务的数据类型分为两类:文档级情感分析,涉及特定文档的情感,通常表达的情感是认可或不认可;句子级情感分析侧重于预测句子的情感极性并分类,通常分为积极、中性和消极情绪。
4、然而,现有技术中存在以下不足:
5、主题建模模型的首要任务是把文本嵌入为向量特征,常用的文本嵌入方式如采用bert等模型进行句子嵌入,只关注整个文本的语义表示从而容易丢失文本的详细特征。在对高维特征的向量降维方面,传统的静态降维方式采用预先设定的超参数选择降维维度,缺乏明确指导原则的参数选择难以得到最优的降维维度,从而导致降维时丢失关键特征。针对静态降维的不足,一些降维方法采用基于k-means的动态降维方法,但是k-means的随机化质心和离群点的处理方式会影响聚类生成效果。基于bert的神经主题建模模型bertopic虽然在主题建模的性能优于lda,但是bertopic在主题聚类时容易误判噪声数据。
6、在情感分析方面,大部分情感分析模型如bert等由于最大编码限制问题,采用截断方式选择可处理的最大文本内容,被丢弃的文本中可能包含重要特征,导致无法综合预测长文本的情感倾向。此外,由于长文本内容的复杂性,大部分情感预测模型无法提取文本中不同程度的情感倾向。另一方面,在对智慧医疗评价数据的分级研究中,大部分相似研究只是简单的正负向情感分级。
技术实现思路
1、本发明为了解决上述问题,提出了一种基于深度学习的主题建模与情感分析方法及系统,主题建模阶段融合深度学习、向量优化、主题一致性筛查,情感分析阶段进行了段落分割、变量标注和时序分析,将建模主题与情感分析实现了深层次多维度的分析,能够提高文本数据情感分类的准确性。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明第一方面提供了基于深度学习的主题建模与情感分析方法,包括如下步骤:
4、获取待分析的无标签文本数据集,进行预处理;
5、针对预处理后的数据基于深度学习的特征融合方式进行文本嵌入,动态确定降维维度对嵌入文本降维,对降维后的数据进行聚类得到主题;
6、筛选出与主题相邻分布的噪声数据,计算主题数据和相邻噪声的一致性,针对每个主题重划分噪声数据进行主题优化;
7、将划分主题后的待分析数据,依次进行变量定义、基于知识图谱嵌入进行段落分割、变量标注和设计时序分析提取主题的时间变化和主题发展特征的连续性,分析主题的情感总体倾向,得到情感分析结果。
8、本发明第二方面提供了基于深度学习的主题建模与情感分析系统,包括:
9、数据预处理模块,被配置为获取待分析的无标签文本数据集,进行预处理;
10、神经主题建模模块,被配置为针对预处理后的数据基于深度学习的特征融合方式进行文本嵌入,动态确定降维维度对嵌入文本降维,对降维后的数据进行聚类得到主题;
11、神经主题建模模块,还被配置为筛选出与主题相邻分布的噪声数据,计算主题数据和相邻噪声的一致性,针对每个主题重划分噪声数据进行主题优化;
12、主题情感分析模块,还被配置为将划分主题后的待分析数据,依次进行变量定义、基于知识图谱嵌入进行段落分割、变量标注和设计时序分析提取主题的时间变化和主题发展特征的连续性,分析主题的情感总体倾向,得到情感分析结果。
13、本发明第三方面提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述第一方面的基于深度学习的主题建模与情感分析方法中的步骤。
14、本发明第四方面提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述第一方面的基于深度学习的主题建模与情感分析方法中的步骤。
15、与现有技术相比,本发明的有益效果为:
16、本发明基于深度学习的特征融合方式和向量维度优化器有效地保证所提取主题的质量,主题一致性筛查可以有效地重划分噪声数据。情感分析中的段落分割可以有效地根据内容将长文本分割成短文本,基于bert的预训练微调模型可以有效地标注自定义变量,缩短了训练时间并提高了情感预测的准确率。
17、本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
技术特征:1.基于深度学习的主题建模与情感分析方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于,采用基于bertopic的神经主题建模将数据主题化,包括如下步骤:
3.如权利要求2所述的基于深度学习的主题建模与情感分析方法,其特征在于:动态确定降维维度,对嵌入文本降维,包括如下步骤;
4.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于:
5.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于:主题的情感总体倾向,包括如下步骤:
6.如权利要求5所述的基于深度学习的主题建模与情感分析方法,其特征在于,段落分割包括如下步骤:
7.如权利要求1所述的基于深度学习的主题建模与情感分析方法,其特征在于,还包括对情感分析结果可视化的方法,如下:
8.基于深度学习的主题建模与情感分析系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的基于深度学习的主题建模与情感分析方法中的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的基于深度学习的主题建模与情感分析方法中的步骤。
技术总结本发明涉及自然语言处理技术领域,提出了一种基于深度学习的主题建模与情感分析方法及系统,包括如下步骤:获取待分析的无标签文本数据集,进行预处理;针对预处理后的数据基于深度学习的特征融合方式进行文本嵌入,动态确定降维维度对嵌入文本降维,对降维后的数据进行聚类得到主题;筛选出与主题相邻分布的噪声数据,计算主题数据和相邻噪声的一致性,针对每个主题重划分噪声数据进行主题优化;将划分主题后的待分析数据,分析主题的情感总体倾向,得到情感分析结果。本发明将建模主题与情感分析实现了深层次多维度的分析,解决了降维和长文本的问题,提高了情感分类的细粒度,能够提高文本数据情感分类的准确性。技术研发人员:郑向伟,邓博,刘位龙,陈宣池,孙凯,韩文婷受保护的技术使用者:山东师范大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/197682.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。