技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文本情感分析方法、系统、存储介质及设备 > 正文

一种文本情感分析方法、系统、存储介质及设备

国知局
2024-07-31 23:14:17

本发明涉及自然语言处理，具体的说，是涉及一种文本情感分析方法、系统、存储介质及设备。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、随着人工智能和深度学习技术的迅速发展，自然语言处理（natural languageprocessing, nlp）领域受到越来越多研究者的关注。机器学习和深度学习的算法被研究者们广泛应用于自然语言处理领域的各项任务中。

3、文本情感分析（sentiment analysis）任务是自然语言处理领域中的重要研究方向之一，主要目标包括提炼文本情绪内容并进行分类。情感分析是一种处理带有主观性情感色彩的文本的过程，它涉及到对文本进行分析、处理、归纳和推理。

4、在信息产业时代背景下，文本情感分析扮演着重要的角色。在情感对话方面，情感机器人可以充当情感陪护的角色，为人们提供安慰。在商品和服务评论分析方面，对评价对象和评价表达进行抽取，识别评论中的情感倾向性，对消费者挑选商品、商家改进商品或服务具有一定的辅助作用。

5、常用的文本情感分析方法包括：（1）基于情感词典的情感分析方法，指根据不同情感词典所提供的情感词的情感极性，来实现不同粒度下的情感极性划分；（2）基于传统机器学习的情感分析方法，指通过大量有标注的或无标注的语料，使用统计机器学习算法，抽取特征，最后在进行情感分析输出结果；（3）基于深度学习的情感分析方法，指使用神经网络学习文本特征，对文本中的词语的信息主动保留，从而提取到相应词语的语义信息，实现文本的情感分类。基于情感词典的情感分类方法主要依赖于情感词典的构建，现有的情感词典需要不断地扩充才能满足需要，并且这种方法往往考虑不到上下文之间的语义关系。基于传统机器学习的情感分析方法的主要挑战在于情感特征的提取和分类器的组合选择，不同分类器的组合选择会对情感分析的结果产生影响。基于深度学习的情感分析方法在对文本内容进行情感分析时，往往无法充分利用上下文文本的语境信息，因此可能存在忽略上下文语义的问题，从而影响其分类的准确性。

技术实现思路

1、本发明为了解决上述问题，本发明提供一种文本情感分析方法、系统、存储介质及设备，针对现有预训练语言模型对语义理解不充分且依赖数据质量的问题，通过微调预训练语言模型，实现文本情感分析任务准确率的提升，而且在训练过程中，基于图形处理器内存和训练速度确定预训练语言模型的批样本数量，根据预训练语言模型的拟合程度调整训练轮数，有效提高了预训练语言模型的训练速度。

2、为了实现上述目的，本发明采用如下技术方案：

3、本发明的第一个方面提供一种文本情感分析方法，其包括：

4、获取文本；

5、基于文本，通过文本情感分类模型，得到文本所属情感分类；

6、其中，文本情感分类模型的训练和评估步骤包括：基于图形处理器内存和训练速度确定预训练语言模型的批样本数量；采用训练集对预训练语言模型进行训练，且在训练过程中，根据预训练语言模型的拟合程度调整训练轮数，且在每轮训练结束后，采用验证集对预训练语言模型进行验证，若验证结果优于上一轮的验证结果，则保存本轮预训练语言模型；对于最后一轮保存的预训练语言模型，采用测试集进行评估，将评估结果满足条件的预训练语言模型，作为文本情感分类模型。

7、进一步地，所述批样本数量与图形处理器内存和训练速度成反比。

8、进一步地，所述训练集、验证集和测试集在对预训练语言模型分别进行训练、验证和评估前，进行数据清洗与预处理；

9、所述数据清洗与预处理包括：去除停用词、去除统一资源定位符、去除表情符号、重排每条文本在数据集中的顺序和重构文本与标签对应结构。

10、进一步地，所述采用训练集对预训练语言模型进行训练前，对所述预训练语言模型的学习率、学习率预热比例、权重衰减系数、丢弃法比率和优化器。

11、进一步地，所述采用训练集对预训练语言模型进行训练前，对训练集、验证集和测试集的文本长度平均值、标准差、最大值、最小值和第p百分位数值进行统计，并基于统计结果确定所述预训练语言模型的最大序列长度。

12、进一步地，所述验证结果包括准确率和损失。

13、进一步地，所述评估结果包括平衡f分数、查准率、召回率和准确率。

14、本发明的第二个方面提供一种文本情感分析系统，其包括：

15、数据获取模块，其被配置为：获取文本；

16、情感分类模块，其被配置为：基于文本，通过文本情感分类模型，得到文本所属情感分类；

17、其中，文本情感分类模型的训练和评估步骤包括：基于图形处理器内存和训练速度确定预训练语言模型的批样本数量；采用训练集对预训练语言模型进行训练，且在训练过程中，根据预训练语言模型的拟合程度调整训练轮数，且在每轮训练结束后，采用验证集对预训练语言模型进行验证，若验证结果优于上一轮的验证结果，则保存本轮预训练语言模型；对于最后一轮保存的预训练语言模型，采用测试集进行评估，将评估结果满足条件的预训练语言模型，作为文本情感分类模型。

18、本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，该程序被处理器执行时实现如上述所述的一种文本情感分析方法中的步骤。

19、本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种文本情感分析方法中的步骤。

20、与现有技术相比，本发明的有益效果为：

21、本发明提供了一种文本情感分析方法，其针对现有分析方法对语义理解不充分且依赖数据质量的问题，通过对数据集进行数据清洗与预处理、以及微调预训练语言模型，实现文本情感分析任务准确率的提升。

22、本发明提供了一种文本情感分析方法，其在训练过程中，基于图形处理器内存和训练速度确定预训练语言模型的批样本数量，根据预训练语言模型的拟合程度调整训练轮数，有效提高了预训练语言模型的训练速度。

技术特征：

1.一种文本情感分析方法，其特征在于，包括：

2.如权利要求1所述的一种文本情感分析方法，其特征在于，所述批样本数量与图形处理器内存和训练速度成反比。

3.如权利要求1所述的一种文本情感分析方法，其特征在于，所述训练集、验证集和测试集在对预训练语言模型分别进行训练、验证和评估前，进行数据清洗与预处理；

4.如权利要求1所述的一种文本情感分析方法，其特征在于，所述采用训练集对预训练语言模型进行训练前，对所述预训练语言模型的学习率、学习率预热比例、权重衰减系数、丢弃法比率和优化器。

5.如权利要求1所述的一种文本情感分析方法，其特征在于，所述采用训练集对预训练语言模型进行训练前，对训练集、验证集和测试集的文本长度平均值、标准差、最大值、最小值和第p百分位数值进行统计，并基于统计结果确定所述预训练语言模型的最大序列长度。

6.如权利要求1所述的一种文本情感分析方法，其特征在于，所述验证结果包括准确率和损失。

7.如权利要求1所述的一种文本情感分析方法，其特征在于，所述评估结果包括平衡f分数、查准率、召回率和准确率。

8.一种文本情感分析系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种文本情感分析方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种文本情感分析方法中的步骤。

技术总结本发明涉及自然语言处理技术领域，本发明公开了一种文本情感分析方法、系统、存储介质及设备，包括：通过文本情感分类模型，得到文本所属情感分类；其中，文本情感分类模型的训练和评估步骤包括：基于图形处理器内存和训练速度确定批样本数量；采用训练集对预训练语言模型进行训练，且在训练过程中，根据拟合程度调整训练轮数，且在每轮训练结束后，采用验证集对预训练语言模型进行验证，若验证结果优于上一轮的验证结果，则保存本轮预训练语言模型；对于最后一轮保存的预训练语言模型，采用测试集进行评估，将评估结果满足条件的预训练语言模型，作为文本情感分类模型。实现了文本情感分析任务准确率的提升，且提高了模型的训练速度。技术研发人员：刘治,陈丹阳,孔浩然,马佳霖,蒋亚丽,崔立真受保护的技术使用者：山东大学技术研发日：技术公布日：2024/7/29