基于混合专家模型的视频处理方法、装置、设备及介质与流程
- 国知局
- 2024-10-21 15:06:08
本申请涉及数据处理,尤其涉及基于混合专家模型的视频处理方法、装置、设备及介质。
背景技术:
1、多模态大模型的发展已经到了一个瓶颈期,随着不同应用场景的实际需求,多模态大模型的参数会变得越来越大,复杂性和规模不断的增加。
2、目前多模态大模型在进行视频理解时,基本都是通过帧间的位置编码来使多模态大模型理解时序特征的,这种编码方式简单粗暴,时序的理解不只是顺序的理解,更是事态随时间发展的状态变化关系,目前基于多模态大模型进行视频处理时,对视频的时序特征的理解效果差。
技术实现思路
1、本申请提供了基于混合专家模型的视频处理方法、装置、设备及介质,用以解决现有技术中基于多模态大模型进行视频处理时,对视频的时序特征的理解效果差的问题。
2、第一方面,本申请实施例提供了一种基于混合专家模型的视频处理方法,所述混合专家模型包括一个时序专家模型以及多个专家模型,所述方法包括:
3、对目标视频中的每个视频帧分别进行嵌入处理,得到每个视频帧对应的每个初始特征向量以及所述目标视频对应的第一分类向量;其中,所述初始特征向量中携带有视频帧的第二分类向量;
4、将所述每个视频帧的第一分类向量以及所述第二分类向量输入到所述时序专家模型中,获取所述时序专家模型输出的时序特征向量;
5、将所述每个初始特征向量输入到所述多个专家模型中,获取所述多个专家模型输出的每个候选特征向量,并根据预设的向量融合方法,将所述时序特征向量分别与每个候选特征向量进行融合,确定每个目标特征向量;
6、将所述每个目标特征向量输入到语言大模型中,获取所述语言大模型输出的所述目标视频对应的目标文本信息。
7、第二方面,本申请实施例还提供了一种基于混合专家模型的视频处理装置,所述混合专家模型包括一个时序专家模型以及多个专家模型,所述装置包括:
8、处理模块,用于对目标视频中的每个视频帧分别进行嵌入处理,得到每个视频帧对应的每个初始特征向量以及所述目标视频对应的第一分类向量;其中,所述初始特征向量中携带有视频帧的第二分类向量;将所述每个视频帧的第一分类向量以及所述第二分类向量输入到所述时序专家模型中,获取所述时序专家模型输出的时序特征向量;将所述每个初始特征向量输入到所述多个专家模型中,获取所述多个专家模型输出的每个候选特征向量,并根据预设的向量融合方法,将所述时序特征向量分别与每个候选特征向量进行融合,确定每个目标特征向量;
9、识别模块,用于将所述每个目标特征向量输入到语言大模型中,获取所述语言大模型输出的所述目标视频对应的目标文本信息。
10、第三方面,本申请实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述基于混合专家模型的视频处理方法的步骤。
11、第四方面,本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述基于混合专家模型的视频处理方法的步骤。
12、在本申请实施例中,混合专家模型包括一个时序专家模型以及多个专家模型,包括:对目标视频中的每个视频帧分别进行嵌入处理,得到每个视频帧对应的每个初始特征向量以及目标视频对应的第一分类向量;其中,初始特征向量中携带有视频帧的第二分类向量;将每个视频帧的第一分类向量以及第二分类向量输入到时序专家模型中,获取时序专家模型输出的时序特征向量;将每个初始特征向量输入到多个专家模型中,获取多个专家模型输出的每个候选特征向量,并根据预设的向量融合方法,将时序特征向量分别与每个候选特征向量进行融合,确定每个目标特征向量;将每个目标特征向量输入到语言大模型中,获取语言大模型输出的目标视频对应的目标文本信息。在本申请实施例中,电子设备基于混合专家模型中的时序专家模型提取目标视频中的时序特征向量,基于混合专家模型中的多个专家模型,提取目标视频中的候选特征向量,并将每个候选特征向量与时序特征向量进行融合,得到每个目标特征向量,之后再基于语言大模型,对每个目标特征向量进行理解,得到目标视频的目标文本信息,可以有效地提升对于视频内容的抓取能力以及时序视觉理解能力。
技术特征:1.一种基于混合专家模型的视频处理方法,其特征在于,所述混合专家模型包括一个时序专家模型以及多个专家模型,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对目标视频中的每个视频帧分别进行嵌入处理之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述混合专家模型还包括门控模型;
4.根据权利要求3所述的方法,其特征在于,所述门控模型确定所述多个专家模型中对该初始特征向量进行处理的至少一个目标专家模型之后,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述根据预设的向量融合方法,将所述时序特征向量分别与每个候选特征向量进行融合,确定每个目标特征向量包括:
6.根据权利要求1所述的方法,其特征在于,所述根据预设的向量融合方法,将所述时序特征向量分别与每个候选特征向量进行融合,确定每个目标特征向量之后,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述混合专家模型的训练方法包括:
8.一种基于混合专家模型的视频处理装置,其特征在于,所述混合专家模型包括一个时序专家模型以及多个专家模型,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一所述基于混合专家模型的视频处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述基于混合专家模型的视频处理方法的步骤。
技术总结本申请涉及数据处理技术领域,尤其涉及基于混合专家模型的视频处理方法、装置、设备及介质,在本申请实施例中,电子设备基于混合专家模型中的时序专家模型提取目标视频中的时序特征向量,基于混合专家模型中的多个专家模型,提取目标视频中的候选特征向量,并将每个候选特征向量与时序特征向量进行融合,得到每个目标特征向量,之后再基于语言大模型,对每个目标特征向量进行理解,得到目标视频的目标文本信息,可以有效地提升对于视频内容的抓取能力以及时序视觉理解能力。技术研发人员:刘微,李广琴,刘晓潇,郑维学,张建安,朴艺兰受保护的技术使用者:海信集团控股股份有限公司技术研发日:技术公布日:2024/10/17本文地址:https://www.jishuxx.com/zhuanli/20241021/320511.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表