技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于异质特征跨域关联的多模态识别方法及系统 > 正文

一种基于异质特征跨域关联的多模态识别方法及系统

国知局
2024-07-31 23:16:53

本发明属于多模态识别，具体涉及一种基于异质特征跨域关联的多模态识别方法及系统。

背景技术：

1、在信息化社会中，信息的呈现方式日益多样化，单一的模态识别技术往往难以应对复杂多变的信息环境。例如，在智能客服系统中，用户可能通过文本、语音或视频等多种方式表达需求，若仅依赖单一的文本识别或语音识别技术，往往无法准确理解用户的意图。而多模态识别技术则能够综合利用多种模态的信息，实现更全面、更精准的识别，从而为用户提供更优质的服务。多模态识别技术是指通过融合不同模态的信息(如文本、语音、图像、视频等)来进行识别、理解和分析的一种综合性技术。这一技术的出现，不仅拓宽了传统单一模态识别的应用范围，还提高了识别的准确性和鲁棒性，对于推动人工智能技术的进一步发展具有重要意义。

2、由于不同的模态具有异构性，模态分布产生较大差距，传统方法侧重于将多种模态投影到一个共同的潜在空间中并学习所有标签的相同表示，这忽略了每种模态的多样性并且无法从不同角度捕获每个标签更丰富的语义信息。基于模态异质性的方法旨在增强异构模态表示以帮助融合过程。hazarika等提出了一种新的框架misa，该框架考虑了模态异质特征的不同子空间来改善融合效应。提取三种模态的特征后，每个模态被投影到两个不同的子空间。第一个子空间是模态不变的，应用分布相似性约束来最小化异质性差距并学习它们的共性。第二个子空间是特定于模态的，并学习每个模态私有的特征信息。将模态投射到相应的子空间后，使用基于transformer的自注意力机制将所有6个变换模态向量串联起来进行预测。在最新的研究中，zhang y等人通过对抗式的方式提取多模态异质特征，并通过三层类bert的transformer将3个多模态特性特征和一个多模态共性特征两两组合逐次通过三层结构进行融合，取得了不错的效果。

技术实现思路

1、针对现有技术的不足，本发明一种基于异质特征跨域关联的多模态识别方法及系统，能更好的提高多模态识别准确率、模态兼容性和抗噪鲁棒性。

2、为实现上述目的，本发明提供了如下方案：

3、一种基于异质特征跨域关联的多模态识别方法，包括以下步骤：

4、获取原始数据，构建多模态数据集，并对所述多模态数据集进行预处理；其中，所述原始数据包括文本数据、图像数据以及音频数据；

5、基于预处理后的所述多模态数据集，构建异质特征跨域关联模型，并基于异质特征跨域关联模型对预处理后的所述多模态数据集进行多模态情感识别，获得跨模态特征；

6、基于三层堆叠的注意力机制、全连接层以及归一化指数函数，构建标签模态解码模块，并基于交叉熵损失、最终跨模态特征以及模态标签，训练所述标签模态解码模块；

7、基于训练好的所述分类器，对所述跨模态特征进行分类，获得多标签情感预测标签，完成基于异质特征跨域关联的多模态识别。

8、优选的，基于预处理后的所述多模态数据集，构建异质特征跨域关联模型，并基于异质特征跨域关联模型对预处理后的所述多模态数据集进行多模态情感识别，获得跨模态特征的方法为：

9、基于三层堆叠的注意力机制以及预处理后的所述多模态数据集，构建数据预编码模块，并基于所述数据预编码模块，获得多模态数据编码；

10、基于特征提取器以及梯度反转层，构建异质特征解构模块，并将所述多模态数据编码输入所述异质特征解构模块，获得各个模态的异质特征；其中，所述各个模态包括视觉模态、音频模态以及文本模态；异质特征包括各个模态的共性特征以及特性特征；

11、基于跨域关联建模对所述异质特征进行初步特征级融合，获得初级融合特征；

12、基于跨模态编码器，构建特征自适应融合模块，并基于所述特征自适应融合模块对所述初级融合特征进行自适应融合，获得最终的所述跨模态特征。

13、优选的，所述特征提取器包括特性特征提取器和共性特征提取器；

14、所述特性特征提取器，以单隐藏层表示，通过激活函数后，输出结果表示为：

15、

16、其中，pt,pa,pv为文本、音频、视频特性特征，gt,ga,gv分别表示文本特性特征提取器，音频特性特征提取器，视觉特性特征提取器，x表示相应的模态编码，w为参数矩阵，b为偏置矩阵；

17、所述共性特征提取器，以单隐藏层表示，输出为：

18、

19、其中，c{t,a,v}表示共性特征，包括文本、音频和视频三个模态，gc表示共性特征提取器，x表示相应的模态编码，w为参数矩阵，b为偏置矩阵。

20、优选的，基于跨域关联建模对所述异质特征进行初步特征级融合的方法为：

21、将各个模态的特性特征和共性特征进行逐元素相加，获得多模态特性特征和多模态共性特征；

22、基于残差网络跳跃连接思想，将各个模态的特性特征和共性特征在通道维度上进行拼接堆叠，获得域内特征；

23、构建共享线索，以对角线对称拼接的方式对所述多模态特性特征和所述多模态共性特征进行升维，获得特征矩阵；

24、将所述特征矩阵与所述特征矩阵的转置矩阵相乘，并将相乘结果与所述域内特征做矩阵乘法，获得跨域特征，完成初步特征级融合。

25、优选的，获得最终的所述跨模态特征的方法为：

26、将所述域内特征和所述跨域特征进行拼接以及填充，获得中间特征；

27、基于第一层跨模态编码器对所述中间特征进行第一次编码融合，获得第一次融合特征；

28、基于sigmoid激活函数激活传递所述第一次融合特征，获得归一化映射；

29、将所述域内特征和所述跨域特征分别与全1填充矩阵拼接，获得两个拼接矩阵；

30、将两个拼接矩阵分别与所述归一化映射进行逐元素点乘，并将点乘结果相加，获得第二次融合特征；

31、基于第二层跨模态编码器对所述第二次融合特征进行编码，获得最终的所述跨模态特征。

32、本发明提供一种基于异质特征跨域关联的多模态识别系统，用于实现所述的多模态识别方法，包括：

33、数据集构建模块，用于获取原始数据，构建多模态数据集，并对所述多模态数据集进行预处理；其中，所述原始数据包括文本数据、图像数据以及音频数据；

34、特征提取融合模块，用于基于预处理后的所述多模态数据集，构建异质特征跨域关联模型，并基于异质特征跨域关联模型对预处理后的所述多模态数据集进行多模态情感识别，获得跨模态特征；

35、标签模态解码器构建模块，用于基于三层堆叠的注意力机制、全连接层以及归一化指数函数，构建标签模态解码模块，并基于交叉熵损失、最终跨模态特征以及模态标签，训练所述标签模态解码器；

36、标签模态解码模块，用于基于训练好的所述标签模态解码器，对所述跨模态特征进行分类，获得多标签情感预测标签，完成基于异质特征跨域关联的多模态识别。

37、优选的，所述特征提取融合模块包括：

38、预编码单元，用于基于三层堆叠的注意力机制以及预处理后的所述多模态数据集，构建数据预编码模块，并基于所述数据预编码模块，获得多模态数据编码；

39、异质特征解构单元，用于基于特征提取器以及梯度反转层，构建异质特征解构模块，并将所述多模态数据编码输入所述异质特征解构模块，获得各个模态的异质特征；其中，所述各个模态包括视觉模态、音频模态以及文本模态；异质特征包括各个模态的共性特征以及特性特征；

40、特征初级融合单元，用于基于跨域关联建模对所述异质特征进行初步特征级融合，获得初级融合特征；

41、特征自适应融合单元，用于基于跨模态编码器，构建特征自适应融合模块，并基于所述特征自适应融合模块对所述初级融合特征进行自适应融合，获得最终的所述跨模态特征。

42、优选的，所述异质特征解构单元中，所述特征提取器包括特性特征提取器和共性特征提取器；

43、所述特性特征提取器，以单隐藏层表示，通过激活函数后，输出结果表示为：

44、

45、其中，pt,pa,pv为文本、音频、视频特性特征，gt,ga,gv分别表示文本特性特征提取器，音频特性特征提取器，视觉特性特征提取器，x表示相应的模态编码，w为参数矩阵，b为偏置矩阵；

46、所述共性特征提取器，以单隐藏层表示，输出为：

47、

48、其中，c{t,a,v}表示共性特征，包括文本、音频和视频三个模态，gc表示共性特征提取器，x表示相应的模态编码，w为参数矩阵，b为偏置矩阵。

49、优选的，所述特征初级融合单元包括：

50、特征相加子单元，用于将各个模态的特性特征和共性特征进行逐元素相加，获得多模态特性特征和多模态共性特征；

51、域内特征获取子单元，用于基于残差网络跳跃连接思想，将各个模态的特性特征和共性特征在通道维度上进行拼接堆叠，获得域内特征；

52、特征升维子单元，用于构建共享线索，以对角线对称拼接的方式对所述多模态特性特征和所述多模态共性特征进行升维，获得特征矩阵；

53、初级融合子单元，用于将所述特征矩阵与所述特征矩阵的转置矩阵相乘，并将相乘结果与所述域内特征做矩阵乘法，获得跨域特征，完成初步特征级融合。

54、优选的，所述特征自适应融合单元包括：

55、中间特征获取子单元，用于将所述域内特征和所述跨域特征进行拼接以及填充，获得中间特征；

56、第一次特征融合子单元，用于基于第一层跨模态编码器对所述中间特征进行第一次编码融合，获得第一次融合特征；

57、映射子单元，用于基于sigmoid激活函数激活传递所述第一次融合特征，获得归一化映射；

58、拼接子单元，用于将所述域内特征和所述跨域特征分别与全1填充矩阵拼接，获得两个拼接矩阵；

59、第二次特征融合子单元，用于将两个拼接矩阵分别与所述归一化映射进行逐元素点乘，并将点乘结果相加，获得第二次融合特征；

60、编码子单元，用于基于第二层跨模态编码器对所述第二次融合特征进行编码，获得最终的所述跨模态特征。

61、与现有技术相比，本发明的有益效果为：a.传统的多模态识别方法在提取异质特征时忽略了彻底分离模态不变特征和模态特定特征，容易引起特征冗余问题，导致模型性能易受模态异构性的影响，冗余的特征将会制约识别模型的性能；传统的多模态识别方法对模态异质特征进行融合也未能结合异质特征之间的互补关系，平衡模态之间的差异性，容易引起模态间融合不稳定，降低融合特征的可用性，影响模型的鲁棒性和收敛速度。本发明提出基于特征跨域关联的多模态识别方法，通过跨域共享模态线索，建模跨域特征，加强具有内在差异模态子空间域的兼容性，抑制模态差异，细化模态影响增强子模态特征的相容性，实现不变特征域信息与特定特征域信息的有效融合；b.针对异构模态数据分布之间的差异性，造成在提取异质特征过程中容易出现特征冗余问题，本发明构建异质特征解构模型，提取具有不同模态特质的模态特性特征，以及具有模态不变属性的模态共性特征，进一步利用共性特征增强损失，提高共性特征间的相似度，解决异质特征之间冗余度高的问题；c.针对异质特征域间信息缺失，互补性差的问题，本发明提出跨域关联建模，传播特征子空间的上下文信息，以弥补缺少的特定信息，构建跨域特征，每个特征属性都接受来自其模态间和模态内近邻的信息，同时与它们共享自己的信息；d.针对多模态融合过程中，模态的固有差异使模型容易受到单一模态特征的干扰影响，从而导致融合特征无法有效地表示模态内与模态间的动态信息的问题，本发明提出特征自适应融合模块，其计算特征编码中各个特征点信任度，随后通过点乘将信任度以权重的方式施加到原有特征点，从而实现对特征点的自适应提取，细化模态影响，动态抑制模态差异，并通过自注意力机制编码器进一步编码平衡各模态特征对模型的影响，增强具有内在差异模态子空间域的兼容性，最后通过线性层并激活得到最终跨模态特征。本发明提出的基于异质特征跨域关联的多模态识别方法及系统，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。