技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于对抗网络的情感信息提取方法和情感识别方法与流程 > 正文

一种基于对抗网络的情感信息提取方法和情感识别方法与流程

国知局
2024-10-09 15:20:11

本申请涉及数据处理，特别是涉及一种基于对抗网络的情感信息提取方法和情感识别方法。

背景技术：

1、情绪识别技术的应用领域正不断拓展，涵盖了娱乐、交通、医疗健康和零售等多个行业，这些应用通过识别出用户的情绪来提供定制化服务，增强了人机交互的自然性和效率。现有主流的多模态情感识别方法中，在对不同模态的信息进行融合时，由于融合手段的不严谨，往往会导致模态信息融合之后的融合向量出现过多的噪音或重要特征的缺失，不能很好的体现各个模态的特性。

2、如申请号202110884202.7的专利，其通过自动编码器将文本上下文特征向量ei和图像上下文特征向量ej直接融合得到融合向量ef，再通过对抗网络鉴别出充分融合的ef，可见该专利是通过先直接融合后再筛选出合格的融合向量，虽然在一定程度上能提高整合向量的质量，但本质上简单的直接融合难以产生高质量的融合向量，该专利所作的仅为从低质量的融合向量中筛选出较高质量的融合向量，难以从根本上解决情绪识别中多模态数据融合质量较差的问题。

3、目前针对相关技术中情绪识别中多模态数据融合质量较差的问题，尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种基于对抗网络的情感信息提取方法和情感识别方法，以至少解决相关技术中情绪识别中多模态数据融合质量较差的问题。

2、第一方面，本申请实施例提供了一种基于对抗网络的情感信息提取方法，所述方法包括：

3、获取待提取目标的多模态数据，其中，所述多模态数据包括文本数据、视觉数据和音频数据；

4、分别对所述文本数据、所述视觉数据和所述音频数据进行提取，对应得到文本特征、视觉特征和音频特征；

5、通过对抗网络模型将所述文本特征、所述视觉特征和所述音频特征映射到共同的潜在子空间，以提取得到共有信息；

6、通过所述对抗网络模型区分所述文本特征、所述视觉特征和所述音频特征之间的不相同信息，以提取得到异质性信息；

7、将所述共有信息和所述异质性信息进行融合，得到所述多模态数据的多模态表征，其中，多模态表征用于表征所述待提取目标的情感信息。

8、在其中一些实施例中，通过对抗网络模型将所述文本特征、所述视觉特征和所述音频特征映射到共同的潜在子空间，以提取得到共有信息包括：

9、基于对抗网络模型中的生成器g(·；θg)，利用映射参数θg将所述文本特征、所述视觉特征和所述音频特征映射到具有分布对齐的共同潜在子空间以提取得到共有信息，其中，t表示文本特征，v表示视觉特征，a表示音频特征。

10、在其中一些实施例中，通过所述对抗网络模型区分所述文本特征、所述视觉特征和所述音频特征之间的不相同信息，以提取得到异质性信息包括：

11、基于对抗网络模型中的模态鉴别器d(i；θd)，识别出单独属于所述文本特征或所述视觉特征或所述音频特征的信息，以提取得到各自的异质性信息，其中，i表示模态鉴别器的输入，θd是模态鉴别器d的参数集合，包括权重矩阵w和偏置矩阵b，用于对输入i进行线性变换。

12、在其中一些实施例中，将所述共有信息和所述异质性信息进行融合，得到所述多模态数据的多模态表征包括：

13、通过cme跨模态编码器，将所述视觉特征的异质性信息与所述音频特征的异质性信息进行融合，得到第一融合表征；

14、再通过cme跨模态编码器，将所述第一融合表征与所述文本特征的异质性信息进行融合，得到第二融合表征；

15、再通过cme跨模态编码器，将所述第二融合表征与所述共有信息进行融合，得到所述多模态数据的多模态表征。

16、在其中一些实施例中，在分别对所述文本数据、所述视觉数据和所述音频数据进行提取，对应得到文本特征、视觉特征和音频特征之前，所述方法包括：

17、分别对所述文本数据、所述视觉数据和所述音频数据进行上下文处理，得到包含时间信息和上下文信息的文本特征、包含时间信息和上下文信息的视觉特征，以及包含时间信息和上下文信息的音频特征，其中，所述上下文处理通过transformer编码器或lstm模型执行。

18、在其中一些实施例中，对所述文本数据进行提取，对应得到文本特征包括：

19、通过预设自然语言处理工具对文本数据进行提取，得到文本特征，其中，所述预设自然语言处理工具包括roberta工具和bert工具。

20、在其中一些实施例中，对所述视觉数据进行提取，对应得到视觉特征包括：

21、通过预设卷积神经网络模型对视觉数据进行提取，得到视觉特征，其中，所述预设卷积神经网络模型包括resnet模型和vgg模型。

22、在其中一些实施例中，对所述音频数据进行提取，对应得到音频特征包括：

23、通过预设音频特征提取工具对音频数据进行提取，得到音频特征，其中，所述预设音频特征提取工具包括opensmile工具。

24、第二方面，本申请实施例提供了一种基于对抗网络的情感识别方法，所述情感识别方法基于多模态表征识别待提取目标的情感，所述多模态表征通过上述第一方面任一项所述的情感信息提取方法得到，所述情感识别方法包括：

25、将所述多模态表征输入多标签分类模型，通过所述多标签分类模型分类识别出待提取目标的情感，其中，所述多标签分类模型为包含softmax全连接层和relu层的多层感知机。

26、在其中一些实施例中，在所述多标签分类模型的训练过程中，通过二元交叉熵损失函数调整所述多标签分类模型的模型参数。

27、相比于相关技术，本申请实施例提供的一种基于对抗网络的情感信息提取方法和情感识别方法，其中，该情感信息提取方法通过获取待提取目标的多模态数据，其中，多模态数据包括文本数据、视觉数据和音频数据；分别对文本数据、视觉数据和音频数据进行提取，对应得到文本特征、视觉特征和音频特征；通过对抗网络模型将文本特征、视觉特征和音频特征映射到共同的潜在子空间，以提取得到共有信息；通过对抗网络模型区分文本特征、视觉特征和音频特征之间的不相同信息，以提取得到异质性信息；将共有信息和异质性信息进行融合，得到多模态数据的多模态表征，其中，多模态表征用于表征待提取目标的情感信息，实现了基于对多模态数据之间异同信息的考虑，通过gan提取不同模态的异质性信息和模态之间的共有信息，以基于该异质性信息和共有信息来提升模态融合的效果，从而提升情感识别的准确度，解决了情绪识别中多模态数据融合质量较差的问题。

技术特征：

1.一种基于对抗网络的情感信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过对抗网络模型将所述文本特征、所述视觉特征和所述音频特征映射到共同的潜在子空间，以提取得到共有信息包括：

3.根据权利要求1所述的方法，其特征在于，通过所述对抗网络模型区分所述文本特征、所述视觉特征和所述音频特征之间的不相同信息，以提取得到异质性信息包括：

4.根据权利要求1所述的方法，其特征在于，将所述共有信息和所述异质性信息进行融合，得到所述多模态数据的多模态表征包括：

5.根据权利要求1所述的方法，其特征在于，在分别对所述文本数据、所述视觉数据和所述音频数据进行提取，对应得到文本特征、视觉特征和音频特征之前，所述方法包括：

6.根据权利要求1所述的方法，其特征在于，对所述文本数据进行提取，对应得到文本特征包括：

7.根据权利要求1所述的方法，其特征在于，对所述视觉数据进行提取，对应得到视觉特征包括：

8.根据权利要求1所述的方法，其特征在于，对所述音频数据进行提取，对应得到音频特征包括：

9.一种基于对抗网络的情感识别方法，其特征在于，所述情感识别方法基于多模态表征识别待提取目标的情感，所述多模态表征通过权利要求1至8任一项所述的情感信息提取方法得到，所述情感识别方法包括：

10.根据权利要求9所述的方法，其特征在于，在所述多标签分类模型的训练过程中，通过二元交叉熵损失函数调整所述多标签分类模型的模型参数。

技术总结本申请涉及一种基于对抗网络的情感信息提取方法和情感识别方法，其中，该情感信息提取方法包括：分别对多模态数据中的文本数据、视觉数据和音频数据进行提取，对应得到文本特征、视觉特征和音频特征；通过对抗网络模型将三者映射到共同的潜在子空间以提取得到共有信息；通过对抗网络模型区分三者之间的不相同信息以提取得到异质性信息；融合共有信息和异质性信息以得到多模态表征，其中，多模态表征用于表征待提取目标的情感信息。通过本申请，考虑到了多模态数据之间的异同，通过GAN提取不同模态的异质性信息和模态之间的共有信息，实现了通过该异质性信息和共有信息来提升模态融合的效果，解决了情绪识别中多模态数据融合质量较差的问题。技术研发人员：涂涛,傅一航,杨淳沨,林宗强,王增锹受保护的技术使用者：杭州智诺科技股份有限公司技术研发日：技术公布日：2024/9/29