技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于对比跨模态表征学习的鲁棒视频问答方法  >  正文

一种基于对比跨模态表征学习的鲁棒视频问答方法

  • 国知局
  • 2024-08-02 13:52:27

本发明属于人工智能领域,涉及多模态,自然语言处理以及计算机视觉等相关技术,具体来说是一种基于对比跨模态表征学习的鲁棒视频问答方法。

背景技术:

1、在很长的一段时间内,研究者们致力于研究人工智能技术,最早落地场景是人脸识别相关技术,直到后来,人脸识别等图像识别领域逐渐成熟,研究者们开始将研究方向转移到多模态技术。多模态技术是综合利用视频图片文本等各种模态的信息进行推理的技术。研究者们致力于让机器学会处理更加复杂的信息,其中,对于视频的理解是一个巨大的挑战,在此基础上诞生了很多任务,如视频时序定位,视频文本检索,视频问答等。

2、早期的视频问答方法都是针对如何能够设计出一个准确率更高的模型,却忽略了数据集存在偏置的问题。数据集中严重的长尾分布使得模型始终倾向于与头部类型的答案,而当训练的越久,准确率越高的时候,这种倾向就更加严重,表现的趋势就是micro acc越来越高,macro acc越来越低。

技术实现思路

1、本发明旨在克服现有技术的不足之处,提出了一种基于对比跨模态表征学习的鲁棒视频问答方法,以期能缓解视频问答过程中存在的语言偏见问题,让模型更好地捕捉视频中的时序信息,减少模型对于头部答案的倾向,从而能提高视频问答功能的鲁棒性和泛化性。

2、本发明为解决技术问题采用如下技术方案:

3、本发明一种基于对比跨模态表征学习的鲁棒视频问答方法的特点在于,包括以下步骤:

4、步骤1、获取视频问答数据集中第i个样本对的预训练特征,包括第i个视频0的预训练特征第i个问题qi的预训练特征单词答案ai的特征表示矩阵aeo、选项答案ai的特征表示矩阵

5、步骤2、构造视频问答模型,用于对i个样本对的预训练特征进行处理,并得到qi的预测答案

6、步骤3、利用式(3.4)构造qi的交叉熵损失函数

7、

8、式(3.4)中,为答案ai的独热编码表示;ce表示交叉熵损失;si表示qi预测的答案概率分布;

9、步骤4、构造跨模态对比学习损失函数

10、步骤5、构造时间顺序正则化损失函数

11、步骤6、利用式(6.1)构造扰动不变性正则化损失函数

12、

13、式(6.1)中,fa(·,·)表示视频问答模型最终输出的答案概率分布;表示扰动后的视频特征表示;

14、步骤7、利用式(7.1)计算总体的损失函数

15、

16、式(7.1)中,λ1,λ2,λ3为三个超参数;

17、步骤8、使用总体的损失函数对视频问答模型进行反向传播训练以优化模型参数,从而得到训练好的视频问答模型,用于对输入的问题和视频进行推理,得到预测的答案。

18、本发明所述的一种基于对比跨模态表征学习的鲁棒视频问答方法的特点在于,所述步骤1包括:

19、步骤1.1、定义视频问答数据集为中包含有n个样本对,中任意第i个样本对包含第i个视频vi,第i个问题qi以及第i个问题qi对应的答案ai;

20、步骤1.2、获取第i个视频vi的预训练特征:

21、从vi中均匀采样k帧,再输入到预训练好的resnet101网络中进行视频外观特征的抽取,得到vi的预训练外观特征矩阵其中,dv为每帧特征表示的维度;

22、从vi中均匀采样k帧,再输入到预训练好的3dresnext101网络中进行视频运动特征的抽取,得到vi的预训练运动特征矩阵

23、将和连接起来,得到最终的视频预训练特征矩阵

24、步骤1.3、获取第i个问题qi的预训练特征:

25、将qi输入到预训练好的bert网络中,取倒数第二层隐藏层进行处理,得到qi的令牌特征矩阵dt为每个令牌特征表示的维度,为qi编码后的令牌数量;

26、步骤1.4、获取答案ai的预训练特征:

27、当答案ai是一个单词时,表示视频问答数据集对应的形式是开放式问答类型;将所有样本对的答案不重复的组合在一起,形成一个预定义的答案集ao,ao中包含有nc个不同的单词;

28、将ao中的每个单词输入到预训练好的bert网络中进行处理,若取倒数第二层隐藏层输出的单词编码后的令牌数量为1个时,则直接作为相应单词的特征;若单词编码后的令牌数量超过1个时,对相应单词的所有令牌取平均后,作为对应单词的特征向量;从而得到答案集的特征表示矩阵

29、当答案ai是一个选项,表示视频问答数据集对应的形式是多项选择类型,将候选答案集合记为am,设nchoice为选项的个数,ma表示多项候选答案编码之后所得令牌数量的最大值;

30、将qi的每项候选答案输入到预训练好的bert网络中进行处理,并由取倒数第二层隐藏层输出候选答案集合的特征表示矩阵

31、所述步骤2中的视频问答模型包括:视频编码器、文本编码器、跨模态融合模块以及答案解码器;

32、步骤2.1、视频编码器将进行编码后,得到全局的视频特征和局部的视频特征其中,d为经过视频编码器编码后的特征维度;

33、步骤2.2、文本编码器将进行编码后,得到全局的问题特征和局部的问题特征

34、步骤2.3、跨模态融合编码器将作为输入,并输出一个跨模态融合表示

35、步骤2.4、答案解码器根据得到预测答案

36、当答案ai是一个单词时,将aeo通过线性层将维度映射到d,得到候选答案表征矩阵

37、当答案ai是一个选项时,将经过问题编码器的处理后,得到全局的候选答案表征

38、利用式(2.1)得到候选答案的统一表征矩阵age,令age中第j个候选答案的表示记为

39、

40、利用式(2.2)得到qi的预测答案

41、

42、所述步骤3中是利用式(3.1)计算与第j个候选答案的表示的分数从而利用式(3.2)得到qi的预测的答案概率分布

43、

44、

45、式(3.1)中,softmax表示激活函数,n表示不同候选答案的个数,并有:

46、

47、所述步骤4包括:

48、步骤4.1、利用式(4.1)得到对比跨模态特征

49、

50、式(4.1)中,g表示步骤2.1到步骤2.3的编码过程;

51、步骤4.2、将视频特征在第0维划分为s个片段,记为其中,表示中第(r-1)*(n/s)+1帧到第r*(n/s)帧特征的平均值,并记为第r个视频片段特征,且满足k%s=0,其中,%表示取余;

52、随机从每个部分中,使用其他视频特征的某一帧的特征表示来进行替换,得到扰动后的视频特征表示利用式(4.2)得到对比跨模态特征

53、

54、步骤4.3、从视频问答数据集中采集若干个样本对并组成一个训练批次,并从训练批次中随机采样标签不同的l个负样本对,以构造负样本集合;从而利用式(4.3)得到的负样本跨模态特征

55、

56、式(4.3)中,表示第i个样本对应的第k个负样本对;

57、步骤4.4、利用式(4.4)计算跨模态对比学习损失函数

58、

59、式(4.4)中,τ表示温度系数。

60、所述步骤5包括:

61、步骤5.1、随机打乱视频片段特征,得到打乱后的视频:

62、定义为排列组合方式的数量,将si按第t种排列组合方式进行随机打乱,得到第t种打乱后的s个片段,记为表示第t种排列组合方式下的第r个视频片段特征;

63、步骤5.2、构造分类模型以及时间顺序正则项损失函数:

64、编码器forder(·)将si,t中的每个视频片段特征经过线性层进行降维后,得到的每个特征向量按随机组合的方式两两拼接起来,从而得到个拼接组合,将个拼接组合再次进行降维后,再全部拼接起来,得到最终的表示向量,最后将其线性映射成为个维度的向量;

65、利用式(5.1)构造时序正则项损失函数

66、

67、式(5.1)中,为第t种排列组合方式的独热编码向量表示。

68、本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述鲁棒视频问答方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

69、本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述鲁棒视频问答方法的步骤。

70、与已有技术相比,本发明的有益效果体现在:

71、1.本发明提出了一种基于对比学习的跨模态学习方法,通过构造扰动后的视频正样本,迫使扰动前和扰动后的跨模态融合表示在潜在空间上对齐,使得视频问答模型对噪声输入鲁棒。

72、2.本发明提出了一种时间顺序正则化项,对视频时序进行打乱,构造辅助任务去预测视频当前的视频时序,使得模型能够捕捉到视频中的时序信息,从而更好的进行跨模态推理。

73、3.本发明提出了一种基于kl散度的扰动不变性正则化项,约束模型在扰动前和扰动后预测答案的概率分布保持一致,从而增强了视频问答模型对预测答案分布的鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20240801/240896.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。