技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于情感视域聚焦的跨模态方面级情感分析方法及系统  >  正文

基于情感视域聚焦的跨模态方面级情感分析方法及系统

  • 国知局
  • 2024-07-31 22:42:20

本发明为计算机感知领域,具体涉及一种基于情感视域聚焦的跨模态方面级情感分析方法及系统。

背景技术:

1、随着互联网和社交媒体的迅速发展,大量包含文本和图片的跨模态内容被创造和分享。这些内容中蕴含着丰富的情感信息,对于理解用户的情感态度和偏好具有重要意义。跨模态方面级情感分析旨在从融合多模态信息(如文本和图片)的角度出发,精准把握和分析特定方面的情感倾向,对于提升情感计算的准确性和深度理解用户生成内容具有重要价值。

2、然而,跨模态方面级情感分析面临着诸多挑战。首先,不同模态之间的信息融合问题。文本和图片作为两种不同的信息载体,如何有效地整合它们的信息,以获得更全面的情感分析结果,是技术上的一个难点。其次,特定方面的情感分析需要模型不仅能理解整体内容的情感,还需能精确地捕捉到与特定方面相关的情感表达,这要求模型具备较强的方面定位和情感识别能力。

3、现有的跨模态情感分析方法大多数侧重于全局情感的判断,往往忽略了方面级的情感分析。此外,这些方法在处理跨模态数据时,常常采用简单的特征拼接或融合策略,缺乏对不同模态数据内在联系的深入挖掘,导致无法有效捕捉跨模态间复杂的互动和影响,从而限制了情感分析的准确性和深度。

技术实现思路

1、本发明针对现有技术在跨模态方面级情感分析领域的不足,提出基于情感视域聚焦的跨模态方面级情感分析方法及系统。

2、本发明设计的一种基于情感视域聚焦的跨模态方面级情感分析方法,包括以下步骤:

3、步骤1:构建图文数据集,该数据集中每一个数据包含一张图片、相应的文本描述、方面词及该方面词对应的情感标签,将该图文数据集分为不相交的训练集与测试集;

4、步骤2:将所述训练集中图片做预处理并将文本及方面词转换为token作为模型的输入,情感标签用于计算深度学习模型的损失函数,所述模型处理过程如下:

5、提取图片、文本和方面词的特征;

6、利用目标方面词的特征向量作为查询向量,通过多头注意力机制的编码器层识别并选取与方面词最为相关的若干子图像特征向量,使用全连接网络层对筛选出的子图像特征向量进行模态特征的空间转换;

7、图片通过多头注意力机制利用方面词特征向量进行更新后,获得新的全局池化表示,将该图片表示作为模态内表示,利用全连接神经网络完成图片情感类别的判断,获得对每种情感倾向的预测置信度;

8、将筛选的子图像特征向量与文本向量进行合并,通过序列的拼接完成跨模态的上下文,然后采用transformer模型处理拼接融合后的特征向量,更新对应的用于分类的方面词向量,将更新后的方面词特征向量与最初的文本全局表示向量相加作为用于分类的特征向量,输入到一个由全连接神经网络构成的序列情感分类器中,进行情感倾向预测;

9、将图片的情感倾向预测与序列情感倾向预测通过动态的模态间调控机制完成加权的求和,计算最终的情感倾向判断;

10、步骤3对模型进行训练和优化,使用训练好的模型进行跨模态方面级情感类别预测。

11、进一步地,步骤2所述图片预处理方式为对于训练集中的每个图像ii∈dtrain,通过裁剪和随机变换的预处理方法进行处理,调整为预训练模型对应的固定输入尺寸,并增强模型的泛化能力,得到预处理后的图像表示i'i。

12、进一步地,步骤2中图片预训练采用resnet模型;利用bert模型对文本及方面词进行特征提取,生成token特征向量。

13、进一步地,使用的多头注意力机制具体如下:

14、给定一个查询数据q和一组数据d,其中q∈rd表示查询向量,d∈rn×l×d表示数据集,n是批次大小,l是数据集中向量的数量,d是向量的维度;

15、首先,将查询数据q和键值数据d通过相应的线性变换转换成查询向量、键向量和值向量,这些变换使得原始数据适应于多头注意力机制的需要,

16、q=linear(q)∈rn×d×1

17、k=linear(d)∈rn×l×1

18、v=linear(d)∈rn×l×1

19、对于每个头计算相似度,计算查询向量和键向量的点乘得到相似度得分s,然后通过除以dk的平方根来进行缩放,以便进行稳定的梯度传播,

20、

21、其中,s表示查询向量和数据集中每个向量的点乘相似度,dk是键向量的维度,即每个头的维度深度;

22、计算注意力分布,对相似度得分s应用softmax函数,计算得到注意力权重a:

23、a=softmax(s,dim=1)∈rn×l×1

24、其中,a表示通过softmax函数计算得到的注意力权重,

25、进行加权汇总:

26、o=vt·a∈rn×d×1

27、然后将o压缩为n×d,表示加权后的输出;

28、对使用的若干个注意力头计算注意力权重的平均值,按照平均权重提取前k个区域:

29、

30、其中,m表示注意力头的个数,idx表示具有最高平均注意力权重的前k个区域的索引。

31、进一步地,transformer模型由编码器组成,每个都是由多层相同的层堆叠而成,编码器层包含一个多头自注意力层和一个简单的前馈神经网络;

32、对于编码器中的每一层l,给定输入x(l),该层的输出x(l+1)可以通过以下步骤计算得到:

33、

34、其中,每个头是自注意力的一个实例,计算如下:

35、

36、

37、其中,和是该层中的参数矩阵;

38、每个编码器层还包含一个前馈神经网络,对多头自注意力层的输出进行进一步的处理:

39、

40、其中,和是该层中的参数。

41、编码器的每一层输出可以表示为:

42、x(l+1)=ffn(l)(mha(l)(x(l)))+x(l)

43、通过重复上述过程,编码器能够逐层处理输入特征,输出最终的特征表示x(l),用于后续任务或进一步的处理。

44、进一步地,所述模态间调控机制由定义的一个权重调整网络实现,该网络由三层组成:第一层是一个线性层,将输入维度从3调整到64;第二层是relu激活函数;第三层是另一个线性层,将维度从64减少到2,该网络用于学习文本特征向量到权重的映射;

45、

46、

47、情感类别的判定方法是基于预测的概率分布pi,数据实体的情感类别可以通过选择具有最高概率的类别来确定:

48、情感类别i=argmax(pi)

49、其中,情感类别i对应于消极、积极或中立中的一个,完成了对单个数据实体情感倾向的判断;

50、模型的预测结果pi与真实情感标签li之间的差异通过交叉熵损失函数来量化:

51、

52、其中,n是批次中数据实体的数量,c是情感类别的数量(对于消极、积极和中立,c=3),yic是一个指示变量,如果数据实体i的真实类别是c,则yic=1,否则为0;pic是模型预测数据实体i属于类别c的概率。

53、进一步地,步骤3所述优化算法是基于计算得到的损失值,采用adamw优化算法对模型参数进行调整。adamw是adam优化器的一个变种,它在权重衰减方面提供了改进。优化过程旨在通过调整模型参数来最小化损失函数,从而减少预测误差:

54、

55、其中,θ表示模型参数,η是学习率,是损失函数对模型参数的梯度。

56、基于同一发明构思,本方案还公开了一种基于情感视域聚焦的跨模态方面级情感分析系统,该系统利用构建图文数据集对构建的模型进行训练和优化,以获取能进行跨模态方面级情感类别预测的模型;

57、所述数据集中每一个数据包含一张图片、相应的文本描述、方面词及该方面词对应的情感标签,所述数据集包括训练集与测试集;

58、所述模型将所述训练集中图片做预处理并将文本及方面词转换为token作为的输入,情感标签用于计算深度学习模型的损失函数,该模型包括以下模块:

59、特征提取模块:提取图片、文本和方面词的特征;

60、模态特征空间转换模块:利用目标方面词的特征向量作为查询向量,通过多头注意力机制的编码器层识别并选取与方面词最为相关的若干子图像特征向量,使用全连接网络层对筛选出的子图像特征向量进行模态特征的空间转换;

61、图片情感类别预测模块:图片通过多头注意力机制利用方面词特征向量进行更新后,获得新的全局池化表示,将该图片表示作为模态内表示,利用全连接神经网络完成图片情感类别的判断,获得对每种情感倾向的预测置信度;

62、序列情感倾向预测模块:将筛选的子图像特征向量与文本向量进行合并,通过序列的拼接完成跨模态的上下文,然后采用transformer模型处理融合后的特征向量,更新对应的用于分类的方面词向量,将更新后的方面词特征向量与最初的文本全局表示向量相加作为用于分类的特征向量,输入到一个由全连接神经网络构成的序列情感分类器中,进行情感倾向预测;

63、跨模块方面级情感类别预测模块:将图片的情感倾向预测与序列情感倾向预测通过动态的模态间调控机制完成加权的求和,计算最终的情感倾向判断。

64、基于同一发明构思,本方案还设计了一种电子设备,包括:

65、一个或多个处理器;

66、存储装置,用于存储一个或多个程序;

67、当一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现基于情感视域聚焦的跨模态方面级情感分析方法。

68、于同一发明构思,本方案还设计了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现基于情感视域聚焦的跨模态方面级情感分析方法。

69、本发明的优点在于:

70、1、研究问题的细粒度:与传统的全文分析方法不同,该模型框架能够区分并独立评估文本中各个实体的情感倾向,为每个对象提供独特的情感评价。此方法不仅考虑了文本整体情感的多样性,也精确识别了图片对文本中不同对象情感分析的具体影响。这种细粒度的分析方法显著提高了情感识别的准确性和可用性,为复杂文本情感的深度解析提供了新的视角。

71、2、情感视域聚焦:

72、设计了一种创新的“视觉情感关注模块”,专为深度挖掘和强化图像与文本之间的情感联系而设计。该模块的独特之处在于其能够精确地从图像中识别并提取与文本方面词密切相关、富含情感价值的关键视觉区域。通过有效地聚焦于这些图像中的情感载体,并筛除可能造成误导或干扰的信息,此模块显著提高了对图像中隐含情感表达的捕获能力,从而为跨模态方面级情感分析带来了更为深刻和精准的理解角度。相比于现有方法强调在图像中寻找与文本方面词直接对应的对象,本研究深入到更为细腻的层面,专注于捕捉图像中细微的情感元素——比如微笑、眼泪等细节,这些元素虽小,却极富表达力,能够显著提升情感分析的准确度和深度。

73、3、构建跨模态上下文完成模态间融合:

74、对图片特征向量进行空间转换,然后与文本特征向量结合,形成一个统一的序列。这一序列随后被输入到transformer模型中,实现了模态间的互相融合。通过这样的处理创建了一个综合的上下文环境,其中图片的关键特征成为了文本情感分析的有力补充。这种跨模态融合策略的采用,不仅维护了每个模态内信息的独特性和完整性,同时也通过高效的信息处理与融合机制,加深了对跨模态内容之间细致关系的理解。

75、4、动态模态间调控机制:

76、采取了一种全面的跨模态分析策略,不仅分别分析图片和文本信息,还将这两种模态视为相辅相成的子任务进行协调处理。关键的创新之处在于开发了一种动态的加权调控机制,这一机制在整合两种模态的输出以做出最终的情感判断时发挥关键作用。通过这种机制,我们能够针对不同的文本和图像情境进行个性化的权重分配,更加精细和灵活地捕捉和解析模态之间的相互作用。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194195.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。