技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于文本情感与图像内容感知的跨模态正负向语义分类方法 > 正文

一种基于文本情感与图像内容感知的跨模态正负向语义分类方法

国知局
2024-10-09 16:08:54

本发明涉及跨模态信息融合分析，具体地讲，涉及一种基于文本情感与图像内容感知的跨模态正负向语义分类方法。

背景技术：

1、随着社交媒体的快速发展，大量负向或未经核实的信息出现并传播，影响了在线社交网络用户，也对线下社会造成了巨大影响。负向信息的制造者经常出于各种目的进行信息宣传，不仅会影响人们的正常生活，甚至会对社会产生重大负面影响。由于每天都有大量的用户发布社交媒体信息，因此自动识别负向信息有利于提供早期预防措施，以尽量减少负向信息产生的负面影响。

2、深度学习在正负向语义分类中起着重要的作用，它可以自动有效地从社交媒体信息的文本和图片学习到包含深度语义信息的特征向量。以长短期记忆(lstm)和门循环单元(gru)为代表的递归神经网络(rnn)及其各种变体，可以有效地捕捉负向信息传播链中每个社交媒体信息的文本之间的时间序列关系，从社交媒体信息中学习隐藏特征。通过卷积层、池化层、全连接层等结构，对输入数据进行卷积运算和池化运算，提取特征并进行学习和分类的卷积神经网络，可以从负向信息中获取关键特征及其高层交互。例如，现有的技术引入递归神经网络（rnn）来捕获潜在的时态语义信息，从相关文本中学习潜在特征，并成功击败了使用手工特征的正负向语义分类模型；利用卷积神经网络获得了社交媒体信息的高层交互及关键特征，在正负向语义分类的过程中展示出了良好的性能。最近，许多研究者认为正负向语义分类任务牵扯的情况非常复杂，因此不能只考虑社交媒体信息中包含的文本和视觉信息，还需要考虑复杂的社会背景信息，将社会背景信息融入到正负向语义分类模型中辅助检测。例如，利用图注意力网络（gat）、图卷积网络（gcn）等图形模型来聚合相邻节点信息，以获得更好的正负向语义分类节点表示。此外，还考虑到隐私问题或数据爬行的限制，可用的社交图数据缺乏实体之间的可靠连接，因此，对社交图上的潜在链接进行补充是非常有必要的，以实现更准确的检测。在图形模型的帮助下，连接的实例可以交换信息，方便彼此的学习。

3、但是，这些研究有一个共同的局限，即只考虑到社交媒体的文本和视觉信息、社会背景信息，没有考虑到社交媒体的评论信息。社交媒体信息的页面结构不仅有文本信息，还包括点赞、转发和大量的评论文本信息。评论中含有对社交媒体信息的态度，而这种深层次的特征神经网络往往难以铺捉到。因此，可以把评论情感极性看作一个极其重要的特征加入到正负向语义分类的模型中。

4、负向信息通常营造更煽情的情节，从而实现快速扩散。社交媒体信息的评论信息中包含大量的质疑、反驳的文本信息，这会大大增加负面情感词汇在评论中的占比。情感倾向分析通常被看作是文本分类问题，一般文本情感可分为正负两类。综合来讲，正向信息的评论中，正面情感词汇较多，即正向评论较多；负向信息的评论中，负面情感词汇较多，即负向评论较多。因此，将评论的情感极性加入到正负向语义分类的模型中是非常有必要的。

5、传统的正负向语义分类模型存在以下不足：

6、传统的正负向语义分类模型大多只关注文本、图像等内容，忽略了社交图特征以及社交媒体信息中大量的评论信息。以往的正负向语义分类方法模态与模态之间融合不彻底，导致特征之间的学习不够充足。由于直接采集的评论文本包含大量的垃圾信息，若不进行清理，将严重干扰实验结果。

技术实现思路

1、本发明要解决的技术问题是提供一种基于文本情感与图像内容感知的跨模态正负向语义分类方法，有效地结合文本、视觉、评论和社交图特征来改进模型，提取四种类型的特征。为了产生更好的社交图特征，在gat的基础上对图拓扑和聚合过程进行改进。然后，进行模态交互和对齐，以实现更好的多模态融合。最后，将增强的多模态特征连接起来进行分类。

2、本发明采用如下技术方案实现发明目的：

3、一种基于文本情感与图像内容感知的跨模态正负向语义分类方法，其特征在于，包括以下步骤：

4、s1：对社交媒体信息进行挖掘分析；

5、 s2：构造多模态正负向语义分类检测架构，包括文本和视觉特征提取器、评论特征提取器及图特征提取器；

6、s3：多模态特征融合；使用共同注意机制来捕获不同模态之间的相互信息，通过学习不同模态特征之间的注意权值来增强跨模态特征；

7、s4：模态对齐；引入模态对齐，通过增强文本特征，使其接近增强的图形特征，以改进在每个模态中学习到的表示；

8、s5：融合多模态特征；

9、s6：对抗性训练分类。

10、作为本技术方案的进一步限定，所述s1的具体步骤为：

11、s11：设为一组有文字有图片的社交媒体信息，对于每组社交媒体信息，且，其中：，和分别表示发布该社交媒体信息的文本、图像及用户，表示的评论；

12、每条评论都是由相应的用户发布的；

13、s12：为了表示用户在社交媒体上的行为，建立一个图 g ：

14、；

15、其中：是节点的集合，包括用户节点、评论节点及社交媒体信息的内容节点；

16、是节点之间的邻接矩阵，用来描述节点之间的关系，包括社交媒体信息的发布、评论及转发；

17、是边的集合；

18、s13：将正负向语义分类定义为一个二元分类任务，表示类别标签，其中表示负向信息，否则，学习函数来预测社交媒体信息的标签。

19、作为本技术方案的进一步限定，文本和视觉特征提取器的工作流程为，使用卷积神经网络和池化层提取句子的语义特征：

20、s211：对于每组社交媒体信息，其文本被填充或截断以具有相同数量的令牌，即，其表示为，其中：，为词嵌入维数，为的第个词的词嵌入；

21、s212：在词嵌入矩阵上应用卷积层，得到特征映射，其中为卷积核的大小，令；

22、s213：在上使用最大池化，得到，使用不同感受野的滤波器来获得不同粒度的语义特征；

23、s214：将所有滤波器的输出连接起来，形成的整体文本特征：

24、（1）。

25、作为本技术方案的进一步限定，评论特征提取器的工作流程为，使用在imagenet数据库上训练的预训练模型resnet50来提取图像的特征：

26、s221：提取resnet50倒数第二层的输出，并将其表示为；

27、s222：其通过一个全连接层得到与文本特征具有相同维数的最终视觉特征，即：

28、（2）

29、其中：为全连接层的权重矩阵；

30、为sigmoid激活函数。

31、作为本技术方案的进一步限定，评论特征提取器的工作流程为：

32、 s231：将评论情感值分为5个星级，分别为1、2、3、4、5，当星级为1、2和3时，评论被判断为消极评论；当星级为4和5时，评论被判断为积极评论，即：

33、（3）

34、其中：为roberta-base-finetuned-chinanews-chinese模型；

35、为评论的情感星级；

36、s232：消极评论的标签被设置成0，积极评论的标签被设置成1；

37、（4）

38、这样每一条评论都根据相应的情感得分获得了对应的标签；

39、s233：将这些标签转换成向量，得到最终的社交媒体信息的评论特征，即：

40、（5）

41、其中：为每条社交媒体信息对应的评论数。

42、作为本技术方案的进一步限定，图特征提取器的工作流程为：

43、社交图数据由于隐私问题或数据爬行的限制缺乏实体之间的可靠连接，所以要推断节点之间的隐藏连接，根据网络同质性，相似的节点比不相似的节点更容易相互连接，因此，计算不同节点之间的特征相似度，并推断相似度高的节点之间的联系，具体来说：

44、s241：定义节点嵌入矩阵为，中有三种类型的节点，使用句子向量作为社交媒体信息的文本和评论节点的初始嵌入，并使用用户发布的社交媒体信息的文本节点嵌入的平均值作为初始用户嵌入，根据节点和计算和之间的相关系数，即：

45、（6）

46、其中：与为和的节点嵌入；

47、如果相似度大于0.5，则它们之间存在潜在的边缘，即：

48、（7）

49、s242：推断出潜在边缘对原始邻接矩阵增强，表示为的元素，表示和之间存在一条边，否则，则增强的邻接矩阵中的元素被定义为：

50、（8）；

51、s243：使用图注意力网络捕获社会图结构信息，使用基于签名注意力的图注意力网络来捕获多方面的相关性，对于节点和它的邻居节点集；

52、首先，计算节点与中各节点的注意力权重集，即：

53、（9）

54、其中：||表示串联运算；

55、和表示可学习参数；

56、和表示节点和，且；

57、为激活函数；

58、然后，使用softmax函数对注意权值进行权值归一化操作，使用softmax函数计算和的归一化权重，即：

59、（10）；

60、s244：为了捕获节点之间的正、负关系，分别利用和来获得相邻节点特征的加权和，然后将两个向量连接在一起，并通过一个全连接层来获得最终的节点特征，的节点特征可获得，即

61、（11）；

62、其中：为全连通层的权重矩阵；

63、为激活函数；

64、为的特征矩阵；

65、s245：对于每个节点，根据式（8）更新其嵌入，得到更新后的节点嵌入矩阵，其中：为节点数，然后采用多头注意机制从不同角度捕捉特征，最后，将每个头部的更新节点嵌入连接在一起作为整体图特征：

66、（12）

67、其中：表示注意力的头数，那么社交媒体信息第个位置的图特征对应于的第列。

68、作为对本技术方案的进一步限定，所述s3的具体步骤为：

69、s31：使用多头自注意机制来增强模态内特征表示，对于文本特征，分别使用，和来计算其查询矩阵、键矩阵和值矩阵，其中：为线性变换，然后，产生了文本模态的多头自注意特征：

70、 (13)

71、其中：表示为第个注意力头部；

72、为输出的线性变换；

73、对、和执行相同的操作来获得相应的特征、和；

74、s32：利用跨模态注意机制生成增强的多模态特征，具体来说，为了对进行文本-视觉跨模态注意，首先执行与上述多头自注意机制相同的操作，但将替换为，得到查询矩阵，将替换为，得到键矩阵和值矩阵，然后得到了交叉模态增强特征：

75、（14）

76、其中：为输出的线性变换；

77、表示基于文本视觉相关性的利用视觉特征增强的文本特征；

78、基于跨模态共同注意的过程，通过交换文本特征和视觉特征的角色，可通过式（11）得到增强的视觉特征。

79、作为本技术方案的进一步限定，所述s4的具体步骤为：

80、s41：对于社交媒体信息，将其增强的图特征和增强的文本特征变换到同一个模态特征空间，即:

81、（15）

82、其中：和是可学习的参数；

83、s42：用mse损失进行模态对齐，以缩小和之间的距离:

84、（16）

85、其中：为社交媒体信息的总数；

86、得到对齐精细的文本特征和图形特征，用于多模态融合。

87、作为本技术方案的进一步限定，所述s5的具体步骤为：

88、s51：再次对和这四种模态特征执行上述的跨模态注意机制，最终得到12个跨模态增强特征:；

89、s52：然后将它们连接起来作为最终的多模态特征：

90、（17）。

91、作为本技术方案的进一步限定，所述s6的具体步骤为：

92、s61：将社交媒体信息最终得到的多模态特征输入到全连接层中来预测是否是负向信息：

93、（18）

94、其中：表示预测为负向信息的概率；

95、s62：然后使用交叉熵损失函数：

96、（19）

97、表示预测为负向信息的概率；

98、最终的损失如下：

99、（20）

100、其中：和用于平衡两个损失的系数。

101、与现有技术相比，本发明的优点和积极效果是：本发明首次将社交媒体信息的文本信息、视觉信息、社会背景信息以及评论情感信息联合建模。为了将这四种模态的特征有效地结合在一起，使用两组特征之间的跨模态协同注意力机制来捕获不同模态之间的相互信息。引入自监督损失来对齐从两个不同视图(即文本视觉视图和社会图视图)学习到的源后表示，旨在提高每个视图下的表示学习。通过以上的增强的跨模态融合，可提升多模态正负向语义分类检测的性能。本发明提出了一种基于社交媒体评论情感分析的多模态正负向语义分类方案。首先提出了一种对社交媒体评论情感分析的策略，即对评论文本中包含的情感词进行挖掘，并提取特征判别评论文本的情感倾向。对社交媒体情感分析可以挖掘正向文本和负向文本的情感差异，作为正负向语义分类的特征。此外，还通过特征提取器提取了社交媒体信息的文本特征、图像特征以及社交图特征。最后，将得到的社交媒体信息的文本特征、图像特征、社交图特征以及评论文本四种模态的特征采用跨模态共注意机制获取每两个模态之间的增强特征，然后将所有增强的模态特征集成到正负向语义分类模型中，进一步提高了正负向语义分类模型的性能。