一种基于邻居网络的视频场景边界检测方法
- 国知局
- 2024-09-05 14:54:09
本发明属于人工智能中的深度学习领域,具体为一种视频场景语义转变潜在模式的发现与视频的场景边界检测方法。
背景技术:
1、现有的方法使用镜头与镜头的相似度来整合来自其他镜头的信息,以捕获每个镜头的上下文。然而,当类似的镜头跨越两个场景时,单纯的相似度关联往往不能准确地合并来自不同场景的信息,导致视频场景边界预测效果欠佳。这一问题促使我们探索如何在同一场景中捕捉镜头上下文,同时最大限度地减少不同场景的镜头信息融合。
技术实现思路
1、本发明的目的在于提供一种视频场景语义转变潜在模式的发现与视频的场景边界检测方法。
2、为了达到上述目的,本发明采用这样的技术方案:一种基于邻居网络的视频场景边界检测方法,包括如下依次执行的步骤:
3、步骤s1:镜头序列的提取,获取m段视频,采用现有方法获取每段视频中的镜头,形成镜头序列s=[s1,s2,…,sn],从镜头中进行关键帧的采样,每段视频都对应一个镜头序列;
4、步骤s2:构建场景边界检测邻居网络。
5、步骤s21:对于镜头序列,使用视觉编码器从该镜头序列对应的关键帧中提取特征得到每个镜头的特征,所有镜头的特征构成特征序列x=[x1,x2,…,xn],其中一个特征xi对应一个镜头si,n为镜头与特征序列的长度。
6、步骤s22:对于镜头序列,构建一个特征图gf,gf的节点为不同的镜头,gf的边ef为不同镜头之间的相似度anps,所述anps包括anps和anns,其中anps是第j个镜头sj与第i个镜头si的邻居镜头sg的相似度的集合,anns是第i个镜头si的邻居镜头sg与第j个镜头sj的邻居镜头sh的相似度的集合,i,j≤n,且i≠j。
7、步骤s23:将得到的anps送入图卷积网络,得到序列特征xfg,与第i个镜头si对应。
8、步骤s24:对m段视频均执行s21-s23的操作对应得到每段视频的序列特征xfg。
9、步骤s25:对于得到序列特征xfg,构建一个时间图gt,gt的节点为不同的镜头,gt的边et为不同镜头之间的相似度bnps,所述bnps包括bcps和btcs,其中bcps是和之间的相似度的集合,btcs是第j个镜头与第i个镜头邻居的上下文相似度的集合。
10、如果第j个镜头在时间上位于第i个镜头和它的某个邻居镜头之间,则计算和之间的相似度否则相似度为-∞。
11、步骤s26:将得到的bnps送入图卷积网络,得到时间特征xtg。
12、步骤s27:对m段视频均执行s25-s26的操作对应得到每段视频的时间特征xtg。
13、步骤s28:将每段视频对应的xtg输入多层感知机,输出n个镜头的置信度,置信度为1表示是边界,置信度为0表示不是边界。
14、步骤s3:训练场景边界检测邻居网络,计算损失,并根据损失更新场景边界检测邻居网络的参数,当损失不再下降时得到最优场景边界检测邻居网络。
15、步骤s4:检测,将待检测视频片段通过步骤s1获取镜头序列s′,将s′输入最优场景边界检测邻居网络,输出镜头序列s′中每个镜头为场景边界的置信度。
16、进一步的,所述步骤s22中,计算anps的方法为:当镜头sj在以镜头si为中心、长度为l的时间窗口内且与镜头si最相似的前k个镜头内,如果时间窗口内没有提供足够的镜头,用零向量进行填充,则利用余弦相似度来计算镜头之间的相似度:
17、
18、其中,xj表示镜头si对应的特征,xj表示镜头sj对应的特征,表示以镜头si为中心,长度为l的时间窗口,当镜头sj不满足上述条件时,镜头si与镜头sj的相似度为-∞。
19、进一步的,所述步骤s23中,计算的方法为:
20、
21、其中和表示可学习矩阵,表示一个可学习的权重比例,表示以镜头si为中心,长度为l的时间窗口,且排除镜头sj,xj表示镜头sj对应的特征。
22、所述步骤s23中,计算的方法为:
23、
24、其中表示一个可学习的权重比例,xh表示镜头sj为中心,长度为l的时间窗口中,不包含镜头si的其他镜头对应的特征。
25、进一步的,步骤s25中,计算bcps的方法为,当镜头sj在以镜头si与镜头si的邻居节点中,则利用余弦相似度来计算镜头之间的相似度得分:
26、
27、其中,表示镜头si对应的序列特征,表示镜头sj对应的序列特征,表示以镜头si为中心,长度为l的时间窗口,当镜头sj不满足上述条件时,相似度为-∞。
28、进一步的,所述步骤s25中,计算的方法为:
29、
30、其中表示可学习矩阵。g∈tr(i),h∈tr(j),tr(i)表示由第i个镜头为中心,长度为r的时间窗口。如果出现窗口未达到长度要求,则使用边界镜头填充。
31、所述步骤s25中,计算的方法为:
32、
33、其中,表示镜头si对应的序列特征,表示镜头sj对应的序列特征。
34、进一步的,所述s3计算损失时,如果m段视频没有标签则损失为lp:
35、特征序列x使用动态时间调整算法,获取伪边界xp,利用二元交叉熵损失训练自监督的场景边界检测邻居网络,如下公式所示:
36、
37、其中为网络预测的边界。
38、进一步的,所述s3计算损失时,如果m段视频有标签则损失为lf:
39、利用二元交叉熵损失去训练有监督的场景边界检测邻居网络,如下公式所示:
40、
41、其中为网络预测的边界,yi表示第i个镜头的真实标签。
42、相对于现有技术,本发明的有益效果是:
43、通过构建特征图和时间图,将语义相似和时间相似的镜头连接起来,并利用图卷积网络传播信息。此方法有效地抑制了噪声边缘,增强了同一场景内镜头的关联,减弱了不同场景间镜头的关联,解决了以往方法在同一场景内捕捉上下文信息不完整的问题,从而提高了镜头上下文的捕捉能力。
技术特征:1.一种基于邻居网络的视频场景边界检测方法,其特征在于:包括如下依次执行的步骤:
2.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:所述步骤s22中,计算anps的方法为:当镜头sj在以镜头si为中心、长度为l的时间窗口内且与镜头si最相似的前k个镜头内,如果时间窗口内没有提供足够的镜头,用零向量进行填充,则利用余弦相似度来计算镜头之间的相似度:
3.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:所述步骤s23中,计算的方法为:
4.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:步骤s25中,计算bcps的方法为,当镜头sj在以镜头si与镜头si的邻居节点中,则利用余弦相似度来计算镜头之间的相似度得分:
5.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:所述步骤s25中,计算的方法为:
6.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:所述s3计算损失时,如果m段视频没有标签则损失为lp:
7.如权利要求1所述的一种基于邻居网络的视频场景边界检测方法,其特征在于:所述s3计算损失时,如果m段视频有标签则损失为lf:
技术总结本发明公开了一种基于邻居网络的视频场景边界检测方法,该方法通过构建特征图和时间图,利用图卷积网络传播信息,将语义相似的镜头连接起来。特征图中的边权重通过节点对的邻居关系估算,引入邻居节点关系以抑制不同场景之间的潜在连接。时间图考虑了成对镜头的相似度及其时间邻居镜头的相似度,重新计算边权重以更好地捕捉镜头关系。该方法有效地抑制了噪声边缘,增强了同一场景内镜头的关联,减弱了不同场景间镜头的关联,解决了以往方法在同一场景内捕捉上下文信息不完整的问题,从而提高了镜头上下文的捕捉能力。技术研发人员:王洪星,欧志龙,谭嘉崴受保护的技术使用者:重庆大学技术研发日:技术公布日:2024/9/2本文地址:https://www.jishuxx.com/zhuanli/20240905/288749.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表