文本数据的情感三元组提取方法、装置以及计算机设备
- 国知局
- 2024-09-05 14:24:06
本发明涉及自然语言处理技术与情感分析,特别涉及是一种文本数据的情感三元组提取方法、装置、计算机设备以及存储介质。背景技术:::1、方面级情感三元组抽取(aspect sentiment triplet extraction,aste)是方面级情感分析(aspect-based sentiment analysis,absa)中一个较为复杂的子任务,它不仅要求模型识别出句子中涉及的方面词(aspect)和观点词(opinion),还要准确地判断出观点词所对应的目标方面词是哪个以及它们对应的情感极性(sentiment),从而将这三个元素结合起来生成完整的情感三元组[aspect,opinion,sentiment]。2、然而,目前用以训练aste模型的训练数据的存在以下问题:训练数据的数量稀缺,同时由于aste细粒度的性质,通过人工的方式为其标注数据需要花费大量的成本;训练数据的不具备针对性,目前的aste采用span-based、table-filling、mrc-based和generation-based等模型框架,面对aste问题建模的多样化,难以选择有针对性的训练数据对模型进行训练。技术实现思路1、基于此,本发明的目的在于,提供一种文本数据的情感三元组提取方法、装置、计算机设备以及存储介质,通过文本扩展模型,对样本文本数据进行扩展以及合成,构建合成文本数据,通过特征感知模型,对样本文本数据以及合成文本数据中的句子进行编码处理,获得文本编码特征数据,将样本文本数据以及文本编码特征数据输入至初始情感三元组提取模型中,根据预设的迭代策略,构建若干次迭代次数的增强文本数据,用以对初始情感三元组提取模型进行训练,通过设计迭代策略,来优化模型与训练数据之间的互动,不断提高训练数据的数量和质量,构建更具有针对性的训练数据,能够适配不同框架的情感三元组提取模型,提高模型训练的准确性以及效率,从而实现文本数据的情感三元组的准确提取。2、第一方面,本申请实施例提供了一种文本数据的情感三元组提取方法,包括以下步骤:3、获得样本文本数据,其中,所述样本文本数据包括若干个样本句子;4、根据所述样本文本数据以及预设的文本扩展模型,获得所述样本文本数据的若干个类型的扩展文本数据,将若干个类型的扩展文本数据进行组合,获得合成文本数据;5、将所述样本文本数据以及合成文本数据输入至预设的特征感知模型中进行编码处理,获得文本编码特征数据;6、将所述样本文本数据以及文本编码特征数据输入至初始情感三元组提取模型中,根据所述样本文本数据、文本编码特征数据以及预设的迭代策略,构建若干次迭代次数的增强文本数据,根据若干次迭代次数的增强文本数据以及相应的迭代次数,对所述初始情感三元组提取模型进行训练,获得目标情感三元组提取模型;7、获得待提取文本数据,将所述待提取文本数据输入至目标情感三元组提取模型,获得所述待提取文本数据的情感三元组提取结果。8、第二方面,本申请实施例提供了一种文本数据的情感三元组提取装置,包括:9、数据获得模块,用于获得样本文本数据,其中,所述样本文本数据包括若干个样本句子;10、文本扩展模块,用于根据所述样本文本数据以及预设的文本扩展模型,获得所述样本文本数据的若干个类型的扩展文本数据,将若干个类型的扩展文本数据进行组合,获得合成文本数据,其中,所述合成文本数据包括若干个扩展句子;11、文本编码模块,用于将所述样本文本数据以及合成文本数据输入至预设的特征感知模型中进行编码处理,获得文本编码特征数据,其中,所述文本编码特征数据包括若干个所述样本句子以及扩展句子的编码特征表示;12、模型训练模块,用于将所述样本文本数据以及文本编码特征数据输入至初始情感三元组提取模型中,根据所述样本文本数据、文本编码特征数据以及预设的迭代策略,构建若干次迭代次数的增强文本数据,根据若干次迭代次数的增强文本数据以及相应的迭代次数,对所述初始情感三元组提取模型进行训练,获得目标情感三元组提取模型;13、情感三元组提取模块,用于获得待提取文本数据,将所述待提取文本数据输入至目标情感三元组提取模型,获得所述待提取文本数据的情感三元组提取结果。14、第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述文本数据的情感三元组提取方法的步骤。15、第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本数据的情感三元组提取方法的步骤。16、在本申请实施例中,提供一种文本数据的情感三元组提取方法、装置、计算机设备以及存储介质,通过文本扩展模型,对样本文本数据进行扩展以及合成,构建合成文本数据,通过特征感知模型,对样本文本数据以及合成文本数据中的句子进行编码处理,获得文本编码特征数据,将样本文本数据以及文本编码特征数据输入至初始情感三元组提取模型中,根据预设的迭代策略,构建若干次迭代次数的增强文本数据,用以对初始情感三元组提取模型进行训练,通过设计迭代策略,来优化模型与训练数据之间的互动,不断提高训练数据的数量和质量,构建更具有针对性的训练数据,能够适配不同框架的情感三元组提取模型,提高模型训练的准确性以及效率,从而实现文本数据的情感三元组的准确提取。17、为了更好地理解和实施,下面结合附图详细说明本发明。技术特征:1.一种文本数据的情感三元组提取方法,其特征在于,包括以下步骤:2.根据权利要求1所述的文本数据的情感三元组提取方法,其特征在于,所述根据所述样本文本数据以及预设的文本扩展模型,获得所述样本文本数据的若干个类型的扩展文本数据,将若干个类型的扩展文本数据进行组合,获得合成文本数据,包括步骤:3.根据权利要求1所述的文本数据的情感三元组提取方法,其特征在于,所述将所述样本文本数据以及合成文本数据输入至预设的特征感知模型中进行编码处理,获得文本编码特征数据之前,还包括步骤:4.根据权利要求1至3中任一项权利要求所述的文本数据的情感三元组提取方法,其特征在于,所述根据所述样本文本数据、文本编码特征数据以及预设的迭代策略,构建若干次迭代次数的增强文本数据,包括步骤:5.根据权利要求4所述的文本数据的情感三元组提取方法,其特征在于:所述样本句子包括若干个方面词以及观点词;所述情感三元组提取结果包括情感极性提取结果、方面词提取结果以及观点词提取结果;6.根据权利要求4所述的文本数据的情感三元组提取方法,其特征在于,所述根据若干个所述目标样本句子的编码特征表示以及若干个扩展句子的编码特征表示,采用聚类分析方法,从所述合成文本数据中提取若干个目标扩展句子,包括步骤:7.一种文本数据的情感三元组提取装置,其特征在于,包括:8.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的文本数据的情感三元组提取方法的步骤。9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的文本数据的情感三元组提取方法的步骤。技术总结本发明涉及自然语言处理技术与情感分析技术领域::,特别涉及一种文本数据的情感三元组提取方法、装置、设备以及存储介质,通过设计迭代策略,来优化模型与训练数据之间的互动,不断提高训练数据的数量和质量,构建更具有针对性的训练数据,能够适配不同框架的情感三元组提取模型,提高模型训练的准确性以及效率,从而实现文本数据的情感三元组的准确提取。技术研发人员:薛云,麦卫兴,张政轩受保护的技术使用者:华南师范大学技术研发日:技术公布日:2024/9/2
本文地址:https://www.jishuxx.com/zhuanli/20240905/286230.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表