技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态特征融合的视频分类方法、装置及介质 > 正文

一种基于多模态特征融合的视频分类方法、装置及介质

国知局
2024-12-06 12:30:28

本发明涉及视频分类，尤其是指一种基于多模态特征融合的视频分类方法、装置及计算机可读存储介质。

背景技术：

1、视频分类是机器学习和计算机视觉领域的重要任务之一，其目标是基于视频内容将视频划分至相应的类别中，视频分类在视频推荐系统、内容过滤、监控系统以及视频检索等领域均有着重要作用，随着互联网视频数据的爆炸式增长，如何对视频进行准确且高效的分类越来越重要。

2、传统的视频分类方法主要依赖于视觉信息，通常使用卷积神经网络(cnn)提取视频中的图像帧特征，再结合循环神经网络(rnn)或长短时记忆网络(lstm)处理由各个图像帧特征组成的时间序列信息，这种方法虽然充分提取了视频中包含的图像信息，但是忽略了视频中所含有的丰富的音频信息，从而导致最终的分类结果准确性较低。

3、为了解决这一问题，融合多模态信息进行视频分类的方法逐渐成为研究热点，目前的视频分类方法除了依赖视频的视觉信息外，还融合了视频的音频信息，其视觉信息和音频信息的融合方式包括以下几种：1、分别基于图像特征和音频特征进行视频分类，最后在模型的分类决策阶段将基于图像特征的分类结果和基于音频的分类结果进行结合，这种方式简单容易实现，但是并未考虑不同模态特征之间的互补性和相关性，无法充分提取视频的特征信息，并且其分类结果受单模态特征影响较大，如果基于某个模态的分类结果误差较大，会降低视频分类结果的准确性；2、在模型的输入层直接将图像特征和音频特征进行拼接，得到高维融合特征，之后对该高维融合特征进行归一化、深度特征提取等操作，从而得到视频的目标特征，以完成对视频的分类，但是直接拼接的方式无法捕捉不同模态之间的互补信息，降低视频分类结果准确性，且两种模态的特征可能包含部分重复信息，直接拼接还会导致信息冗余，增加模型计算负担，降低视频分类的效率；3、在模型的中间层引入注意力机制或门控机制动态地调整图像特征和模态特征的重要性，自动关注对视频分类更有帮助的模态特征，从而捕捉两种模态之间的相互作用和互补性，但是由于注意力机制或门控机制往往只在局部范围内进行特征加权，难以捕捉不同模态之间的全局关系，使得一些重要的跨膜态交互信息被忽略，导致得到的融合特征信息并未包含两种模态的全部信息，从而降低视频分类结果的准确性。

4、综上所述，现有的基于图像特征和音频特征融合的视频分类方法存在无法充分整合和利用不同模态的特征，从而导致视频分类结果准确性和可靠性较低的问题。

技术实现思路

1、为此，本发明所要解决的技术问题在于克服现有技术中的视频分类方法无法充分整合和利用不同模态的特征，导致视频分类结果准确性和可靠性较低的问题。

2、为解决上述技术问题，本发明提供了一种基于多模态特征融合的视频分类方法，包括：

3、将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机，输出初始融合特征矩阵；

4、将所述图像特征矩阵、所述音频特征矩阵和所述初始融合特征矩阵输入至沿正传播方向依次串联的l个自对齐融合层进行融合；其中，第l个自对齐融合层对输入特征矩阵进行融合的步骤包括：

5、将第l-1个自对齐融合层输出的融合特征矩阵输入至第二多层感知机，得到第l-1个自对齐融合层的目标融合特征矩阵；

6、将所述图像特征矩阵和第l-1个自对齐融合层输出的目标图像特征矩阵输入至第一自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标图像特征矩阵进行更新；

7、将更新后的第l-1个自对齐融合层输出的目标图像特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第一编码器，输出第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵；

8、将所述音频特征矩阵和第l-1个自对齐融合层输出的目标音频特征矩阵输入至第二自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标音频特征矩阵进行更新；

9、将更新后的第l-1个自对齐融合层输出的目标音频特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第二编码器，输出第l个自对齐融合层的目标音频特征矩阵和第二融合特征矩阵；

10、对第一融合特征矩阵和第二融合特征矩阵求平均，得到第l个自对齐融合层的融合特征矩阵；其中，l∈[1,l]，当l＝1时，第l-1个自对齐融合层输出的目标图像特征矩阵为所述图像特征矩阵，第l-1个自对齐融合层输出的目标音频特征矩阵为所述音频特征矩阵，第l-1个自对齐融合层输出的融合特征矩阵为所述初始融合特征矩阵；

11、将第l个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接并输入至第三多层感知机，输出待分类视频的分类结果。

12、优选地，第l-1个自对齐融合层的目标融合特征矩阵表示为：

13、

14、其中，表示第l-1个自对齐融合层的目标融合特征矩阵，mlp2表示第二多层感知机，表示第l-1个自对齐融合层输出的融合特征矩阵。

15、优选地，更新后的第l-1个自对齐融合层输出的目标图像特征矩阵表示为：

16、

17、其中，表示更新后的第l-1个自对齐融合层输出的目标图像特征矩阵，self-alignment1表示第一自对齐模块，表示图像特征矩阵，表示第l-1个自对齐融合层输出的目标图像特征矩阵；

18、更新后的第l-1个自对齐融合层输出的目标音频特征矩阵表示为：

19、

20、其中，表示更新后的第l-1个自对齐融合层输出的目标音频特征矩阵，self-alignment2表示第二自对齐模块，表示音频特征矩阵，表示第l-1个自对齐融合层输出的目标音频特征矩阵。

21、优选地，第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵表示为：

22、

23、其中，表示第l个自对齐融合层的目标图像特征矩阵，表示第l个自对齐融合层的第一融合特征矩阵，fusion1表示第一编码器；表示第l-1个自对齐融合层的目标融合特征矩阵；

24、第l个自对齐融合层的目标音频特征矩阵和第二融合特征矩阵表示为：

25、

26、其中，表示第l个自对齐融合层的目标音频特征矩阵，表示第l个自对齐融合层的第二融合特征矩阵，fusion2表示第二编码器；

27、第l个自对齐融合层的融合特征矩阵表示为：

28、

29、其中，表示第l个自对齐融合层的融合特征矩阵，avg表示求平均。

30、优选地，初始融合特征矩阵表示为：

31、

32、其中，表示初始融合特征矩阵，mlp1表示第一多层感知机，stack表示拼接操作，表示图像特征矩阵，表示音频特征矩阵。

33、优选地，待分类视频的分类结果表示为：

34、

35、其中，表示待分类视频的分类结果，mlp3表示第三多层感知机，表示第l个自对齐融合层输出的目标图像特征矩阵中的cls token向量，表示第l个自对齐融合层输出的融合特征矩阵，表示第l个自对齐融合层输出的目标音频特征矩阵中的cls token向量。

36、优选地，待分类视频的图像特征矩阵的获取过程包括：

37、对待分类视频中的图像帧进行采样，得到目标图像帧序列；

38、对所述目标图像帧序列进行标准化处理，并对标准化处理后的目标图像帧序列进行数据增强；

39、将数据增强后的目标图像帧序列输入至视觉转换器中，输出待分类视频的图像特征矩阵。

40、优选地，待分类视频的音频特征矩阵的获取过程包括：

41、对待分类视频中的音频信号进行转换得到梅尔频谱图，对所述梅尔频谱图进行标准化处理；

42、将标准化处理后的梅尔频谱图输入至音频频谱图变换器中，输出待分类视频的音频特征矩阵。

43、本发明还提供了一种基于多模态特征融合的视频分类装置，包括：

44、第一特征融合模块，用于将待分类视频的图像特征矩阵和音频特征矩阵拼接并输入至第一多层感知机，输出初始融合特征矩阵；

45、第二特征融合模块，用于将所述图像特征矩阵、所述音频特征矩阵和所述初始融合特征矩阵输入至沿正传播方向依次串联的l个自对齐融合层进行融合；其中，第l个自对齐融合层对输入特征矩阵进行融合的步骤包括：

46、矩阵升维子模块，用于将第l-1个自对齐融合层输出的融合特征矩阵输入至第二多层感知机，得到第l-1个自对齐融合层的目标融合特征矩阵；

47、图像特征自对齐子模块，用于将所述图像特征矩阵和第l-1个自对齐融合层输出的目标图像特征矩阵输入至第一自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标图像特征矩阵进行更新；

48、图像特征融合子模块，用于将更新后的第l-1个自对齐融合层输出的目标图像特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第一编码器，输出第l个自对齐融合层的目标图像特征矩阵和第一融合特征矩阵；

49、音频特征自对齐子模块，用于将所述音频特征矩阵和第l-1个自对齐融合层输出的目标音频特征矩阵输入至第二自对齐模块进行自对齐，以对第l-1个自对齐融合层输出的目标音频特征矩阵进行更新；

50、音频特征融合子模块，用于将更新后的第l-1个自对齐融合层输出的目标音频特征矩阵和第l-1个自对齐融合层的目标融合特征矩阵输入至第二编码器，输出第l个自对齐融合层的目标音频特征矩阵和第二融合特征矩阵；

51、融合特征矩阵获取子模块，用于对第一融合特征矩阵和第二融合特征矩阵求平均，得到第l个自对齐融合层的融合特征矩阵；其中，l∈[1,l]，当l＝1时，第l-1个自对齐融合层输出的目标图像特征矩阵为所述图像特征矩阵，第l-1个自对齐融合层输出的目标音频特征矩阵为所述音频特征矩阵，第l-1个自对齐融合层输出的融合特征矩阵为所述初始融合特征矩阵；

52、第三特征融合及视频分类模块，用于将第l个自对齐融合层输出的目标图像特征矩阵中的cls token向量、目标音频特征矩阵中的cls token向量和融合特征矩阵拼接并输入至第三多层感知机，输出待分类视频的分类结果。

53、本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于多模态特征融合的视频分类方法的步骤。

54、本技术提供的基于多模态特征融合的视频分类方法具有以下有益效果：

55、1、采用多阶段特征融合策略以充分融合待分类视频的图像特征和音频特征：在第一阶段，将图像特征矩阵和音频特征矩阵拼接并经过多层感知机得到包含两种模态特征的初始融合特征矩阵，通过早期融合保留两种模态数据丰富的初始信息，并有效去除各个模态中重复和冗余的信息；在第二阶段，将图像特征矩阵、音频特征矩阵和初始融合特征矩阵输入至多个串联的自对齐融合层进行特征融合，从而增强数据特征的丰富性，解决不同模态信息之间的协同问题，充分捕捉不同模态信息之间的相关性；由于最后一个自对齐融合层输出的融合特征矩阵中浓缩了不同模态的特征信息，因此在第三阶段的特征融合中，将最后一个自对齐融合层输出的目标图像特征矩阵、目标音频特征矩阵和融合特征矩阵拼接从而对待分类视频进行分类，使得拼接后的特征能够更全面地表达多模态数据的复杂性和多样性，避免特征信息丢失，从而提高分类结果的准确性；

56、2、在第二阶段的融合过程中，每个自对齐融合层先利用多层感知机对上一个自对齐融合层输出的融合特征进行升维，得到目标融合特征矩阵，同时，利用自对齐模块对每种模态的特征进行单独对齐，以确保每种模态的特征信息在融合过程中不被削弱或丢失，保持多模态数据的多样性和完整性，之后将每种模态自对齐后的特征分别与目标融合特征矩阵拼接并输入相应的编码器进行融合，由于目标融合特征矩阵中包含了两种模态的特征，因此其在融合过程中起到信息聚合以及信息传递的作用，从而输出融合有音频特征信息的目标图像特征矩阵、融合有图像特征信息的目标音频特征矩阵，以及浓缩有图像特征信息和音频特征信息的新的融合特征矩阵，充分融合了待分类视频的图像特征和音频特征，确保了不同模态特征之间的信息共享，从而提高了视频分类结果准确性。