基于文本质量感知的视频描述方法与系统
- 国知局
- 2024-10-15 09:50:09
本发明属于计算机视觉与视频处理,特别涉及一种基于文本质量感知的视频描述方法与系统。
背景技术:
1、在过去的十年中,视频描述任务取得了长足的进步,这主要是由于深度学习技术的发展。与此同时,msr-vtt和 msvd等大规模数据集的收集,为模型训练提供大量视频-描述样本,促进了视频描述任务的发展。但是为了收集这些数据集,通过众包将视频发送给多个注释者,以收集描述视频的字幕。由于注释者的主观性,导致不可避免地存在噪声信息,而噪声数据会降低模型描述生成能力。
2、为了解决噪声问题,最新的研究采用了clipscore方法来评估图像与文本之间的相似度,然后作为训练过程中的关键控制信号,指导模型学习并达到不同层次的跨模态对齐。这种方法取得了显著的改进,然而依旧存在问题。首先由于缺少完美标签,文本标注的质量是无法直接评估的。并且标注质量应该是多维度的,不能仅从一个维度评价。此外clipscore仅评估文本和图像,不能评估文本与视频。
技术实现思路
1、鉴于上述状况,本发明的主要目的是为了提出一种基于文本质量感知的视频描述方法与系统,以解决上述技术问题。
2、本发明提出了一种基于文本质量感知的视频描述方法,所述方法包括如下步骤:
3、步骤1、选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签;
4、步骤2、基于文本-标签一致性,选取语言评估指标rough、cider和预训练的bert作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量;
5、步骤3、基于文本-视频相似性,选取预训练的clip作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量;
6、步骤4、将每个文本描述对应的第一描述文本标注质量和第二描述文本标注质量进行拼接,形成描述文本标注质量向量集合;
7、步骤5、获取若干视频的描述文本标注质量向量集合,再进行拼接操作,得到描述质量矩阵;
8、针对每个质量评估指标,将描述质量矩阵中的每个描述文本标注质量向量在对应质量评估指标中的质量值组成质量向量,再进行最小最大归一化处理,得到归一化后的质量向量;
9、步骤6、将归一化的质量向量嵌入为质量特征,利用视觉编码器获取视频的特征编码,将质量特征作为质量辅助信号与特征编码一并送入由多层transformer模块组成的解码器中,通过自回归的方式,利用质量辅助信号辅助逐步生成描述。
10、本发明还提出一种基于文本质量感知的视频描述系统,其中,所述系统应用如上所述的基于文本质量感知的视频描述方法,所述系统包括:
11、描述文本标注质量评估模块,用于:
12、选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签;
13、基于文本-标签一致性,选取语言评估指标rough、cider和预训练的bert作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量;
14、基于文本-视频相似性,选取预训练的clip作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量;
15、将第一描述文本标注质量和第二描述文本标注质量中每个文本描述对应的第一描述文本标注质量和第二描述文本标注质量进行拼接,形成描述文本标注质量向量集合;
16、描述文本标注质量归一化模块,用于:
17、获取若干视频的描述文本标注质量向量集合,再进行拼接操作,得到描述质量矩阵;
18、针对每个质量评估指标,将描述质量矩阵中的每个描述文本标注质量向量在对应质量评估指标中的质量值组成质量向量,再进行最小最大归一化处理,得到归一化后的质量向量;
19、文本质量感知的描述解码模块,用于:
20、将归一化的质量向量嵌入为质量特征,利用视觉编码器获取视频的特征编码,将质量特征作为质量辅助信号与特征编码一并送入由多层transformer模块组成的解码器中,通过自回归的方式,利用质量辅助信号辅助逐步生成描述。
21、相较于现有技术,本发明的有益效果如下:
22、1、本发明通过设计文本-标签一致性评估方法和文本-视频相似性评估方法形成描述文本标注质量的向量表示,使得可以同时结合了文本-标签一致性和文本-视频相似性,进而在进行评估描述文本时,可使标注质量更全面准确。
23、2、本发明提出了新的批量视频内对描述质量向量归一化的方法,以确保存在准确的最全面的标签与最不相关的标签,并且通过归一化后,将所有评估指标对应的质量值映射到相同尺度,加快模型的训练。
24、3、本发明实现了文本质量感知推理,实现了从噪声数据中学习并令模型训练受益。
25、本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
技术特征:1.一种基于文本质量感知的视频描述方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤1中,选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签的方法具体包括如下步骤:
3.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤2中,基于文本-标签一致性,选取语言评估指标rough、cider和预训练的bert作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量的方法具体包括如下步骤:
4.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤3中,基于文本-视频相似性,选取预训练的clip作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量的方法具体包括如下步骤:
5.根据权利要求2所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤4中,将每个文本描述对应的第一描述文本标注质量和第二描述文本标注质量进行拼接的方法具体包括如下步骤:
6.根据权利要求5所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤5中,获取若干视频的描述文本标注质量向量集合,再进行拼接操作的方法具体包括如下步骤:
7.根据权利要求6所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤5中,针对每个质量评估指标,将描述质量矩阵中的每个描述文本标注质量向量在对应质量评估指标中的质量值组成质量向量,再进行最小最大归一化处理,得到归一化后的质量向量的方法具体包括如下步骤:
8.根据权利要求7所述的基于文本质量感知的视频描述方法,其特征在于,在所述步骤6中,将归一化的质量向量嵌入为质量特征,利用视觉编码器获取视频的特征编码,将质量特征作为质量辅助信号与特征编码一并送入由多层transformer模块组成的解码器中,通过自回归的方式,利用质量辅助信号辅助逐步生成描述的方法具体包括如下步骤:
9.一种基于文本质量感知的视频描述系统,其特征在于,所述系统应用如权利要求1至8任意一项所述的基于文本质量感知的视频描述方法,所述系统包括:
技术总结本发明提出一种基于文本质量感知的视频描述方法与系统,该方法首先对同一视频标注的所有文本描述生成伪真值标签,通过设计文本‑标签一致性评估方法和文本‑视频相似性评估方法形成描述文本标注质量的向量表示;然后获取包含批量视频的描述质量矩阵,以确保存在准确的最全面的标签与最不相关的标签,并且通过归一化,将所有评估指标对应的质量值映射到相同尺度,加快模型的训练;最后以归一化后的质量向量作为辅助信号,与视频的特征编码拼接后形成标注质量感知的视频特征表达。通过描述质量感知描述解码,令模型能够生成与质量一致的描述。本发明通过全面地评估描述的质量以及文本质量感知描述解码,有效地从噪声数据中学习。技术研发人员:姜文晖,黎海军,方玉明,官文彬,蔡超,肖景富,鄢杰斌受保护的技术使用者:江西财经大学技术研发日:技术公布日:2024/10/10本文地址:https://www.jishuxx.com/zhuanli/20241015/315542.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表