技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于子标签增强的多视角评论质量排序方法  >  正文

基于子标签增强的多视角评论质量排序方法

  • 国知局
  • 2024-07-31 22:50:27

本发明涉及多模态深度学习和自然语言处理领域,尤其涉及基于子标签增强的多视角评论质量排序方法。

背景技术:

1、电商平台评论质量是影响人民的生活品质和市场交易的重要因素。用户评论不仅能反映商品的质量、服务的水平和消费者的满意度,还能帮助其他消费者做出契合自身的消费决策,同时让商家找出不足并加以改善。

2、现有的评论质量排序技术,主要是利用深度学习模型对评论进行特征提取和向量化,将纯文本特征利用卷积或lstm(长短期记忆网络)方法进行处理,引入文本字符级特征或者利用电商评论打分机制辅助预测评论。目前,在电商平台上,产品和评论往往同时包含文本和图像,相较于单模态数据集,在多模态数据集上进行评论质量排序任务更具现实意义。当前多模态评论质量排序方法通过在不同视角下构建评论和产品的多模态一致性关系,学习可用于评论质量分数预测的多视角表征。

3、然而,在多视角表征学习的框架下,仅使用评论质量分数标签作为模型学习的监督信号,难以为各视角表征的学习传递有效的监督信息,从而无法充分挖掘各视角表征中的模态交互信息,进而影响多视角表征的有效性和评论质量排序模型的性能。因此,本发明提出基于子标签增强的多视角评论质量排序方法。

技术实现思路

1、为了解决上述问题,本发明提出基于子标签增强的多视角评论质量排序方法,包括:

2、步骤s1、获取评论质量排序数据集,生成多视角下的相似性子标签即各视角的相似度分数作为各视角训练的辅助监督信号;

3、步骤s2、将训练的文本和图像分别输入文本编码器、图像编码器中得到文本特征和图像特征;

4、步骤s3、将文本特征和图像特征通过信息交互模块,对模态内和模态间的特征进行融合以得到五个有关评论产品的视角表征。其中,五个视角对分别是评论图文对、评论-产品文本对、评论-产品图像对、评论文本-产品图像对、评论图像-产品文本对;

5、步骤s4、将各视角表征串联得到多视角表征,利用评论质量分数标签监督与多视角表征有关的训练参数的更新,并同时把生成的子标签分别作为五个不同视角表征训练的监督信号以更新与各视角表征相关的训练参数;

6、步骤s5、训练完成后,将待测试文本和图像通过文本编码器和图像编码器生成待测试文本和图像的文本特征及图像特征;

7、步骤s6、将待测试文本特征和图像特征通过训练之后的信息交互模块生成各视角表征,接着利用串联方法得到多视角表征,再将多视角表征输入四层线性神经网络进行预测,最终得到评论质量分数。

8、进一步地,所述步骤s1,相似性子标签生成是借助预训练模型clip来完成。

9、进一步地,所述步骤s2,文本编码器由fast text或glove实现,图像编码器由faster r-cnn实现。

10、进一步地,所述步骤s3,具体包括:

11、将产品和评论的图文特征输入信息交互模块,首先利用线性层将文本特征和图像特征映射到同一维度空间,其中映射后的维度为64,再利用注意力机制对齐不同模态特征以得到五个不同的视角表征:

12、

13、其中是产品和评论文本对视角下的一致性特征表示是评论文本和图像对视角下的一致性特征表示是评论文本-产品图像对视角下的一致性特征表示是评论图像-产品文本对视角下的一致性特征表示是产品和评论图像对视角下的一致性特征表示。

14、信息交互模块表达式为:

15、

16、其中是经过信息交互模块产生的五个视角的最终特征表示是注意力机制操作,为各单模态特征,且分别对应产品文本特征,评论文本特征,产品图像特征,评论图像特征。

17、进一步地,所述步骤s4,具体包括:将五个不同视角表征进行串联得到多视角表征,并将其送入四层线性神经网络以得到预测的质量分数,利用铰链损失函数计算与其真实质量分数之间产生的损失值;同时将步骤s3中生成的各视角表征分别送入五个不同的双层线性神经网络以得到其预测的子标签,利用均方误差损失函数计算与其子标签之间产生的损失值;两者损失值相加即为模型训练时的最终损失值,通过损失梯度回传以更新相关参数。

18、将五个视角特征串联起来得到多视角表征表达式为:

19、

20、损失值计算及参数更新表达式为:

21、

22、其中,n表示样本数量;p是两个样本的真实标签之间的差值;表示产品的其中一条评论的质量预测分数,表示该评论的质量分数较大;表示产品的另外一条评论的质量预测分数,表示该评论的质量分数较小。

23、损失值计算及参数更新表达式为:

24、

25、其中表示均方误差函数是产品的第条评论的视角相似度预测值,是产品的第条评论的视角相似度。

26、损失值最终表达式为:

27、

28、其中是评论的预测质量分数和评论的真实质量分数之间产生的损失值;是视角的预测子标签和视角的子标签之间产生的损失值。

29、本发明具有以下有益效果:

30、1.标注成本低和子标签准确性高,本发明提出基于子标签增强的多视角评论质量排序方法,其中子标签是由预训练模型clip生成,不需要人工手动标注子标签。同时,clip作为强大的图文预训练模型,使用其生成的子标签准确性高。

31、2.评论质量判断能力强。在多视角推理方法中,模型训练时仅使用评论质量分数标签作为模型学习的监督信号难以为各视角表征的学习传递有效的监督信息,本发明引入不同视角的子标签去有效地引导模型充分挖掘各视角表征中的模态交互信息,以增强多视角表征的有效性,最终提高评论质量排序模型的性能。

技术特征:

1.基于子标签增强的多视角评论质量排序方法,其特征在于,该方法包括:

2.根据权利要求1所述的基于子标签增强的多视角评论质量排序方法,其特征在于,所述步骤s1,子标签利用预训练模型clip来生成。

3.根据权利要求1所述的基于子标签增强的多视角评论质量排序方法,其特征在于,所述步骤s2,文本编码器由fast text或glove实现,图像编码器由faster r-cnn实现。

4.根据权利要求1所述的基于子标签增强的多视角评论质量排序方法,其特征在于,所述步骤s3,信息交互模块为注意力机制,将产品和评论的图文特征输入信息交互模块,即利用注意力机制对齐以得到五个不同的视角表征:

5.根据权利要求4所述的基于子标签增强的多视角评论质量排序方法,其特征在于,所述信息交互模块表达式为:

6.根据权利要求1所述的基于子标签增强的多视角评论质量排序方法,其特征在于,所述步骤s4,子标签引导模型训练各视角表征并更新与其相关的参数的具体过程为:将五个不同视角表征进行串联得到多视角表征,并将其送入四层线性神经网络以得到预测的质量分数,利用铰链损失函数计算与其真实质量分数之间产生的损失值;同时将步骤s3中生成的各视角表征分别送入五个不同的双层线性神经网络以得到其预测的子标签,利用均方误差损失函数计算与其子标签之间产生的损失值;两者损失值相加得到模型训练时的最终损失值,通过损失梯度回传以更新相关参数;其中双层线性神经网络的输入维度设置为64,四层线性神经网络的输入维度设置为64×5,经过线性变换之后,双层线性神经网络和四层线性神经网络的输出维度都为1;

技术总结本发明公开了基于子标签增强的多视角评论质量排序方法,包括获取评论质量排序数据集,生成各视角相似度分数作为各视角训练的子标签;将训练的文本和图像输入编码器中得到文本特征和图像特征;将文本特征和图像特征输入信息交互模块,通过融合不同模态的特征以得到五个视角表征;将各视角表征串联以获得多视角表征,并利用评论质量分数标签和子标签监督与视角表征有关的训练参数的更新;训练完成后,将测试文本和图像通过编码器生成文本特征及图像特征;将文本特征和图像特征通过训练后的信息交互模块生成各视角表征,并将其串联后形成的多视角表征输入四层线性神经网络以得到评论质量预测分数。本发明在评论质量排序任务上的性能显著提升。技术研发人员:杨力,熊梦婷,吕凤毛,李天瑞,滕飞,康啊真,邱小平受保护的技术使用者:西南交通大学技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194927.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。