技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态信息融合的视频问答方法、系统及介质与流程 > 正文

一种基于多模态信息融合的视频问答方法、系统及介质与流程

国知局
2024-10-09 16:36:33

本发明涉及计算机视觉，尤其涉及一种基于多模态信息融合的视频问答方法、系统及介质。

背景技术：

1、在当今信息时代，视频内容的广泛应用和迅速增长使得视频数据的管理和检索变得尤为重要。传统的视频检索方法大多依赖于单一模态的信息，如根据视频的图像内容或音频内容进行检索，这种单一模态的信息难以全面准确地描述视频内容的多样性和复杂性。

2、而现有的视频问答系统在处理复杂视频信息时，通常也只依赖于从视频内容中分析出的单一模态信息，无法充分利用视频中蕴含的多模态信息进行全面的分析，限制了对视频内容的理解和检索能力，导致检索效率和准确性不足。特别是在会议视频、教学视频等需要对人物发言内容进行详细分析的应用场景中，目前的技术无法满足用户对视频精准检索和视频问答的需求。

技术实现思路

1、本发明实施例提供了一种基于多模态信息融合的视频问答方法、系统及介质，用于解决如下技术问题：目前的视频问答技术依赖于单一模态信息，无法充分利用视频中蕴含的多模态信息，导致视频检索的效率和准确性不足。

2、本发明实施例采用下述技术方案：

3、一方面，本发明实施例提供了一种基于多模态信息融合的视频问答方法，方法包括：对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕；

4、对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段；

5、将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇；

6、获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签；

7、根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量；

8、以片段为单位，将所述关键帧向量、字幕片段向量、人物标签、视频片段、字幕片段、音频片段及对应的时间戳存入向量数据库；

9、基于所述视频摘要对用户输入的问题进行意图分析，根据分析结果调用所述向量数据库进行视频检索及问题回答。

10、在一种可行的实施方式中，对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕，具体包括：

11、对输入视频文件进行通道拆分，得到视频通道信息及音频通道信息；

12、通过多模态大模型对所述视频通道信息进行总结得到所述视频摘要；

13、使用paraformer语音识别模型对所述音频通道信息进行特征提取，输出为文本字幕并输出所述文本字幕中每个字的时间戳。

14、在一种可行的实施方式中，对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段，具体包括：

15、通过分段工具，以标点符号为切分点，对所述文本字幕按句进行语句切分，得到若干个字幕片段；

16、根据每个字幕片段开头字符的时间戳及结尾字符的时间戳，确定出每个字幕片段对应的时间区间；

17、根据所述时间区间，对所述视频通道信息及音频通道信息分别进行切分，得到所述视频片段及音频片段。

18、在一种可行的实施方式中，将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇，具体包括：

19、通过声纹识别模型对每个音频片段进行特征提取，并映射到高维向量空间，得到每个音频片段对应的声纹向量；

20、通过聚类算法对所有声纹向量进行聚类，得到若干个声纹类型簇；其中，每个声纹类型簇中的声纹向量默认为同一个说话人的声纹向量。

21、在一种可行的实施方式中，获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签，具体包括：

22、将每个声纹类型簇中，每个声纹向量对应的视频片段进行拼接，得到每类声纹的视频镜头集；

23、将每个声纹类型簇中，每个声纹向量对应的字幕片段进行拼接，得到每类声纹的字幕集；

24、通过对每类视频镜头集的封面帧进行ocr识别，并通过多模态大模型对每类视频镜头集与字幕集进行声纹来源判断；

25、根据ocr识别结果以及声纹来源判断结果，确定每类声纹对应的人物信息；其中，所述人物信息至少包括：人物姓名、人物衣着特征以及声音来源；

26、根据所述人物信息，生成每类声纹对应的人物标签。

27、在一种可行的实施方式中，根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量，具体包括：

28、提取每个视频片段的关键帧；

29、通过所述多模态模型，对所述关键帧以及所述字幕片段进行向量化处理，得到所述关键帧向量及字幕片段向量。

30、在一种可行的实施方式中，基于所述视频摘要对用户输入的问题进行意图分析，具体包括：

31、获取用户输入的问题，并对所述问题进行向量化处理，得到问题向量；

32、分析所述问题向量与存储的各个视频摘要的相关性，以及分析所述问题向量中隐含的人物特征；

33、根据所述相关性以及人物特征进行用户意图分析，得到意图分析结果；

34、其中，所述意图分析结果至少包括：指向特定的说话人、未指向特定的说话人但与某个视频摘要相关、与所有视频摘要均无关。

35、在一种可行的实施方式中，根据分析结果调用所述向量数据库进行视频检索及问题回答，具体包括：

36、若意图分析结果指向特定的说话人，则获取该说话人的人物标签，并根据所述人物标签在所述向量数据库中检索对应的视频片段及字幕片段，并输入多模态大模型中进行问题问答；

37、若意图分析结果未具体指向特定的说话人但与某个视频摘要相关，则将所述问题向量与所述向量数据库中的关键帧向量及字幕片段向量进行混合相似度计算并排序，并将排序结果输入所述多模态大模型中进行问题回答；

38、若意图分析结果与所有视频摘要均无关，则将所述问题向量直接输入大语言模型中进行问题回答。

39、另一方面，本发明实施例还提供了一种基于多模态信息融合的视频问答系统，所述系统包括：

40、基础信息提取模块，用于对输入视频文件进行基础信息提取，得到视频摘要以及文本字幕；

41、视频切分模块，用于对所述文本字幕进行语句切分，得到字幕片段，并根据所述字幕片段，获取对应的视频片段及音频片段；

42、声纹识别模块，用于将每个音频片段映射为声纹向量并进行聚类，得到若干个声纹类型簇；获取每个声纹类型簇对应的视频镜头集以及字幕集，并输入多模态模型中，得到每类声纹对应的人物标签；

43、向量存储模块，用于根据所述视频片段以及所述字幕片段，获取关键帧向量以及字幕片段向量；以片段为单位，将所述关键帧向量、字幕片段向量、人物标签、视频片段、字幕片段、音频片段及对应的时间戳存入向量数据库；

44、意图识别及问答模块，用于基于所述视频摘要对用户输入的问题进行意图分析，根据分析结果调用所述向量数据库进行视频检索及问题回答。

45、最后，本发明实施例还提供了一种存储介质，所述存储介质为非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有至少一个程序，每个所述程序包括指令，所述指令当被终端执行时，使所述终端执行所述的一种基于多模态信息融合的视频问答方法。

46、与现有技术相比，本发明实施例提供的一种基于多模态信息融合的视频问答方法、系统及介质，具有如下有益效果：

47、本发明通过对音视频信息进行拆分处理，结合多模态模型对语音、视频、文本等信息进行综合分析，实现了对视频内容的准确理解和高效检索。音视频通道拆分以获取视频信息和音频信息；通过多模态大模型生成视频摘要；利用语音识别技术将音频转换为文本字幕；根据字幕文本对视频和音频按句切分；使用声纹识别模型处理音频片段获得声纹向量并聚类以区分不同的说话人；结合多模态模型获取说话人的相关信息进行人物标记；抽取视频关键帧并进行向量化；将语音向量、视频向量及其它元数据打包存入向量数据库；最后，根据用户输入的问题进行意图识别，并通过多模态大模型进行问答。

48、这种方法不仅能够提高视频检索的准确性，还能够在用户提问时根据特定发言人的内容提供更加详细和准确的回答，有效提高视频检索的准确性和用户体验。