技术新讯 > 电子通信装置的制造及其应用技术 > 基于语义分割的智能视频编辑与摘要生成方法及设备与流程  >  正文

基于语义分割的智能视频编辑与摘要生成方法及设备与流程

  • 国知局
  • 2024-08-02 14:31:06

本申请涉及深度学习,尤其涉及一种基于语义分割的智能视频编辑与摘要生成方法及设备。

背景技术:

1、随着视频设备的不断普及和网络技术的快速发展,视频已经成为人们获取信息、记录生活、展示自我的重要媒介。然而,随着视频内容的爆炸式增长,如何从海量的视频数据中快速准确地提取关键信息,并生成简明扼要的视频摘要,成为一个亟待解决的问题。传统的视频编辑和摘要生成方式主要依赖于人工操作,不仅耗时耗力,而且很难全面把握视频的语义内容和结构脉络。

2、近年来,以深度学习为代表的人工智能技术取得了长足的进步,为视频内容的智能化分析和处理带来了新的契机。通过对视频画面进行像素级别的语义分割,深度学习模型能够自动识别出视频中的关键对象、人物和场景,从而对视频内容进行更加精细和全面的理解。基于语义分割的视频分析方法不仅能够提取视频的语义信息,还能够刻画视频内容的时空演化规律,为视频结构化和摘要生成提供重要的依据。

3、因此,亟需一种智能化的视频编辑与摘要生成方法,能够充分挖掘视频的语义信息,自动提取关键内容,生成简洁明了、结构有序的视频摘要,并支持灵活、高效的视频检索和个性化推荐。

技术实现思路

1、本申请实施例提供了一种基于语义分割的智能视频编辑与摘要生成方法及设备,可以充分挖掘视频的语义信息,自动提取关键内容,生成简洁明了、结构有序的视频摘要,并支持灵活、高效的视频检索和个性化推荐。

2、第一方面,本申请实施例提供了一种基于语义分割的智能视频编辑与摘要生成方法,所述方法包括:

3、获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息;

4、对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度;

5、获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标;

6、根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量;

7、根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构;

8、在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。

9、第二方面,本申请还提供一种智能视频编辑与摘要生成装置,包括:

10、数据获取模块,用于获取多个视频采集设备采集的视频数据,对多个视频数据进行预处理,获取视频数据集,视频数据集包括多个关键帧信息。

11、失真确定模块,用于对视频数据集进行连续迭代分解,获取视频迭代信号组分集合,视频迭代信号组分集合包括多个迭代信号组,计算每个迭代信号组的信息量,根据多个信息量确定视频数据集对应的视频特征失真度。

12、标签获取模块,用于获取视频数据集对应的视频影响因子和候选主题标签,根据视频影响因子和候选主题标签生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标。

13、向量获取模块,用于根据语义主题标签和每个关键帧信息完成对待训练的语义嵌入模型的训练,获取语义嵌入模型输出的视频数据集对应的语义嵌入向量。

14、索引构建模块,用于根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构。

15、摘要输出模块,用于在接收到视频编辑请求时,在视频语义索引结构中获取视频编辑请求对应的目标摘要片段,将目标摘要片段作为视频编辑请求对应的视频摘要进行输出。

16、第三方面,本申请还提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于语义分割的智能视频编辑与摘要生成方法。

17、第四方面,本申请还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于语义分割的智能视频编辑与摘要生成方法。

18、与现有技术相比,本申请至少具备以下有益效果:

19、1.提高视频编辑和摘要生成的效率和准确性。本发明通过多层次的语义分割和关键帧提取技术,自动识别视频中的关键对象、人物和场景,并提取最具代表性的视频片段,生成简洁明了的视频摘要。同时,通过计算视频迭代信号组分的信息量和视频特征失真度,本发明能够在保证视频语义完整性的同时,控制摘要的信息冗余和失真程度,进一步提高摘要生成的质量和准确性。

20、2.实现多维度视频语义表示和灵活的视频检索。本发明引入视频语义嵌入模型,通过语义主题标签和关键帧信息的学习,将视频内容映射到低维语义空间,形成紧凑、高鉴别力的向量化表示。基于视频语义嵌入向量,本发明构建多层次的视频语义索引结构,支持用户以文本描述、示例片段等灵活的方式检索视频,快速定位相关镜头和片段,极大地提高了视频数据的可访问性和检索效率。

21、3.支持全局最优的视频摘要生成和在线调优。本发明通过构建候选摘要片段关系图,引入迭代边裁剪算法,在满足摘要时长、语义连贯性和主题多样性约束的前提下,实现候选摘要片段的全局最优选择和组合,生成内容丰富、结构合理、主题鲜明的视频摘要。

22、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

技术特征:

1.一种基于语义分割的智能视频编辑与摘要生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对多个所述视频数据进行预处理,获取视频数据集,包括:

3.根据权利要求1所述的方法,其特征在于,所述迭代信号组包括低频近似子带和高频细节子带;所述计算每个所述迭代信号组的信息量,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据多个所述信息量确定所述视频数据集对应的视频特征失真度,包括:

5.根据权利要求1所述的方法,其特征在于,所述视频影响因子包括多个影响因子参数;所述获取所述视频数据集对应的视频影响因子和候选主题标签,根据所述视频影响因子和所述候选主题标签生成语义主题标签,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述视频特征失真度和所述语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述语义主题标签和每个所述关键帧信息完成对待训练的语义嵌入模型的训练,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据所述视频频率控制平稳度指标、视频频率控制失真度指标和所述语义嵌入向量构建视频语义索引结构,包括:

9.根据权利要求8所述的方法,其特征在于,所述在所述视频语义索引结构中获取所述视频编辑请求对应的目标摘要片段,包括:

10.一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于语义分割的智能视频编辑与摘要生成方法的步骤。

技术总结本申请公开一种基于语义分割的智能视频编辑与摘要生成方法及设备,方法通过对多个视频数据进行预处理,获取包括多个关键帧信息的视频数据集;对视频数据集进行连续迭代分解,获取包括多个迭代信号组的视频迭代信号组分集合,计算每个迭代信号组的信息量,以确定视频特征失真度;生成语义主题标签,根据视频特征失真度和语义主题标签确定视频频率控制平稳度指标和视频频率控制失真度指标;根据语义主题标签和关键帧信息完成对语义嵌入模型的训练,获取语义嵌入向量;根据视频频率控制平稳度指标、视频频率控制失真度指标和语义嵌入向量构建视频语义索引结构;在视频语义索引结构中获取视频编辑请求对应的目标摘要片段作为视频摘要进行输出。技术研发人员:周斌,张阳,李进,黄伟军受保护的技术使用者:珠海安士佳电子有限公司技术研发日:技术公布日:2024/7/25

本文地址:https://www.jishuxx.com/zhuanli/20240801/243004.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。