技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于无标注网络视频数据的多模态预训练方法及系统 > 正文

基于无标注网络视频数据的多模态预训练方法及系统

国知局
2024-10-09 15:03:51

本发明属于视频数据处理，尤其涉及一种基于无标注网络视频数据的多模态预训练方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、视频-语言预训练技术（video-language pre-training）广泛应用于视频检索、视频问答、视频内容理解与生成等领域。鉴于视频与文本数据的复杂性和多样性，许多研究者致力于开发更加高效、鲁棒的视频-文本预训练模型。这些模型通常采用先进的自然语言处理和计算机视觉神经网络架构，如gpt、vit等。尽管当前模型技术已经取得了显著进展，但视频-文本预训练在数据方面存在如下问题：目前视频-文本预训练数据集存在数量、多样性和质量三者不可能三角（即不可能同时兼顾）。

3、针对预训练数据集的不可能三角，现有方法致力于收集互联网视频，并依据视频的多模态信息（如，视频帧、标题、标签和语音识别结果）提炼描述性语句作为视频标注。“提炼”过程通常利用大型语言模型和图像-语言模型生成文本描述。尽管这些方法展现出了潜力，但仍存在以下难点：

4、（1）噪声累积：减少生成文本中的噪声仍然是一个难题，因为当前视觉语言预训练中的去噪技术依赖于对噪声分布的假设，而这些假设通常与现实世界的数据不符。因此，现有的数据集优化方法通常采用预训练的文本-视频检索模型来过滤掉低质量的标注，但这一过程会降低标注的多样性。

5、（2）没有可扩展性：即使噪声得到消除，预训练模型的性能仍然受到图像-语言模型和文本-视频检索模型能力的限制，即随着数量和算力投入的增长，模型性能趋近但无法突破已有模型。

技术实现思路

1、为了解决上述技术问题，本发明提供一种基于无标注网络视频数据的多模态预训练方法及系统，其通过在噪声控制算法下，迭代式提升地数据集标注质量来实现，旨在突破数据数量、多样性和质量三者无法同时兼顾的问题，解决现有方法的噪声累积和缺乏可扩展性问题。

2、为了实现上述目的，本发明采用如下技术方案：

3、本发明的第一个方面提供了一种基于无标注网络视频数据的多模态预训练方法。

4、在一个或多个实施例中，提供了一种基于无标注网络视频数据的多模态预训练方法，包括：

5、获取视频数据集，利用预设大语言模型和图像-文本模型对所述视频数据集进行初步细化，生成初步的训练数据集，再引入噪音控制损失函数下，初步训练视频-语言大模型，作为前一阶段训练得到的视频-语言大模型；

6、判断前一阶段训练得到的视频-语言大模型是否达到设定要求，若是，则结束训练；若否，则利用前一阶段训练得到的视频-语言大模型对所述视频数据集进行迭代细化，并更新训练数据集，再引入同样噪音控制损失函数下，迭代训练视频-语言大模型，直至训练得到设定要求的视频-语言大模型，以利用最终训练完成的视频-语言大模型来识别视频内容中的语音与字幕对应关系。

7、上述技术方案的优点在于，利用迭代式视频数据集细化来提升训练数据集的标注质量，再结合噪音控制损失函数来训练视频-语言大模型，提高了视频语言预训练的效果。

8、作为一种实施方式，噪音控制损失函数采用adatailr损失函数来表征。

9、上述技术方案的优点在于，在训练视频-语言大模型的过程中，引入噪音控制损失函数，有效打破了“不可能三角”的局限，在视频-语言理解任务中的可扩展性方面，显著优于现有技术。

10、作为一种实施方式，所述adatailr损失函数设为：

11、

12、

13、其中，为训练数据集概率分布，为训练数据集采样的视频-文本对中的文本，指文本的第个独立单位元素的编号，表示模型预测所有独立单位元素概率的向量；为模型预测第个独立单位元素为的概率，即向量中的元素；为0-1向量，仅有处为1，为词表中所有独立单位元素数量；为词表中第个独立单位元素；为关于训练数据集概率分布的期望；为采样出视频-文本对中的文本的长度；为常数；表示1-范数函数；表示中间参数。

14、上述技术方案的优点在于，adatailr损失函数采用总变差距离作为度量标准，对噪声分布的假设较少，且具备理论保障下的更小近似误差，提高了视频语言预训练的效果。

15、作为一种实施方式，在初步训练视频-语言大模型的过程中，首先得到基础模型，再对基础模型进行指令微调之后，得到初步训练的视频-语言大模型。

16、上述技术方案的优点在于，通过指令微调数据对基础模型进行微调，可以让模型获取通用的视频-语言理解能力，提高了模型识别视频内容中的语音与字幕对应关系的性能。

17、作为一种实施方式，在迭代训练视频-语言大模型的过程中，在每次迭代过程中，首先得到对应基础模型，再对应相应基础模型进行指令微调之后，得到当前迭代训练得到的视频-语言大模型。

18、上述技术方案的优点在于，这样利用通过指令微调数据对基础模型进行微调，提高了模型的视频-语言理解能力。

19、作为一种实施方式，所述视频数据集包含视频片段及视频片段附加的文本信息；所述文本信息包括标题、标签和语音识别结果。

20、作为一种实施方式，生成初步的训练数据集的步骤包括：

21、从视频数据集的视频片段中均匀抽取若干帧，利用图像-文本模型生成每一帧的描述；

22、利用大语言模型，概括相应视频片段的标题、标签和所有帧的描述，形成整个相应视频片段的描述，作为相应视频片段的标注，生成初步的训练数据集。

23、作为一种实施方式，利用前一阶段训练得到的视频-语言大模型对所述视频数据集进行迭代细化的步骤包括：

24、从视频数据集的视频片段中均匀抽取若干帧，由视频编码器编码；

25、将相应视频片段的标题、标签和语音识别结果依照文本提示词进行编排；

26、利用前一阶段训练得到的视频-语言大模型对视频编码器编码后的视频以及编排后的文本提示词进行共同处理，生成视频描述内容，得到相应训练数据集。

27、本发明的第二个方面提供了一种基于无标注网络视频数据的多模态预训练系统。

28、在一个或多个实施例中，一种基于无标注网络视频数据的多模态预训练系统，包括：

29、初始训练模块，其用于获取视频数据集，利用预设大语言模型和图像-文本模型对所述视频数据集进行初步细化，生成初步的训练数据集，再引入噪音控制损失函数下，初步训练视频-语言大模型，作为前一阶段训练得到的视频-语言大模型；

30、迭代训练模块，其用于判断前一阶段训练得到的视频-语言大模型是否达到设定要求，若是，则结束训练；若否，则利用前一阶段训练得到的视频-语言大模型对所述视频数据集进行迭代细化，并更新训练数据集，再引入同样噪音控制损失函数下，迭代训练视频-语言大模型，直至训练得到设定要求的视频-语言大模型，以利用最终训练完成的视频-语言大模型来识别视频内容中的语音与字幕对应关系。

31、作为一种实施方式，噪音控制损失函数采用adatailr损失函数来表征；所述adatailr损失函数设为：

32、

33、

34、其中，为训练数据集概率分布，为训练数据集采样的视频-文本对中的文本，指文本的第个独立单位元素的编号，表示模型预测所有独立单位元素概率的向量；为模型预测第个独立单位元素为的概率，即向量中的元素；为0-1向量，仅有处为1，为词表中所有独立单位元素数量；为词表中第个独立单位元素；为关于训练数据集概率分布的期望；为采样出视频-文本对中的文本的长度；为常数；表示1-范数函数；表示中间参数。

35、作为一种实施方式，所述视频数据集包含视频片段及视频片段附加的文本信息；所述文本信息包括标题、标签和语音识别结果。

36、与现有技术相比，本发明的有益效果是：

37、（1）本发明利用迭代式视频数据集细化提升了训练数据集的标注质量，再结合噪音控制损失函数共同训练视频-语言大模型，实现了在噪声控制算法下，迭代式提升了数据集标注质量，突破了数据数量、多样性和质量三者无法同时兼顾的问题，解决了现有方法的噪声累积和缺乏可扩展性问题，提高了视频-语言大模型的视频-语言理解能力。

38、（2）本发明通过引入adatailr损失函数，利用其对噪声分布的假设较少，且具备理论保障下的更小近似误差的优点，迭代优化了视频数据集的标注质量，有效打破了“不可能三角”的局限，增强了在视频-语言理解任务中的可扩展性。