基于人工智能的VR全景空间信息分析方法及系统与流程
- 国知局
- 2024-09-05 14:36:24
本发明涉及信息分析,尤其涉及一种基于人工智能的vr全景空间信息分析方法及系统。
背景技术:
1、随着虚拟现实技术的不断发展和应用,vr全景视频以其身临其境的沉浸式体验,在娱乐、教育、旅游等领域得到广泛应用。vr全景视频通过全方位的视角捕捉现实场景,为用户提供了完整的视觉信息。然而,vr全景视频所包含的空间信息十分丰富和复杂,传统的分析方法难以有效地理解和利用这些空间信息,限制了vr全景视频的应用潜力。
2、全景图像通常是通过将多个摄像头拍摄的图像拼接在一起,形成一个球面投影,会导致图像的几何变形,给图像处理和分析带来困难,全景视频不仅包含空间信息,还包含随时间变化的动态信息,传统方法难以有效捕捉这种复杂的时空关系。
3、综上所述,亟需一种基于人工智能的vr全景空间信息分析方法,能够有效地表示和组织vr全景视频的空间信息,充分利用时空关联性和语义信息,深入分析物体和区域之间的交互关系,并具备良好的可扩展性和实时性,本发明能够解决现有技术中的问题。
技术实现思路
1、本发明实施例提供一种基于人工智能的vr全景空间信息分析方法及系统,能够解决现有技术中的问题。
2、本发明实施例的第一方面,
3、提供一种基于人工智能的vr全景空间信息分析方法,包括:
4、获取vr全景空间信息,得到全景图像以及对应的全景视频,将所述全景图像输入全景语义分割模型中,得到语义分割结果,其中所述全景语义分割模型,通过在球面坐标系下进行自适应卷积操作,提取浅层特征和深层特征,结合球面几何损失函数,确定各语义类别的概率分布;
5、基于所述全景视频,通过卷积网络,结合联合注意力机制,学习帧间相关度和帧内重要度,捕捉时域特征和空域特征,对所述全景视频进行内容解析,得到内容解析结果;
6、基于所述语义分割结果,确定基础节点和基础边,构建空间基础属性图,基于所述内容解析结果,为所述空间基础属性图添加时间维度动态信息,以及全景空间中的物体交互关系,生成空间属性图,将所述空间属性图输入空间信息分析网络中,生成语义布局图和空间结构图,确定vr全景空间信息分析结果。
7、在一种可选的实施例中,
8、将所述全景图像输入全景语义分割模型中,得到语义分割结果包括:
9、设定球面坐标系,基于所述全景图像的每个像素点对应的经纬度坐标,定义自适应可变卷积核,通过球面距离度量确定所述自适应可变卷积核的采样点对应位置,根据所述采样点与卷积中心点的球面距离,调整所述自适应可变卷积核的权重,构建自适应可变卷积层;
10、基于多个所述自适应可变卷积层,并在每个所述自适应可变卷积层之后接一个批归一化层和激活层,结合预先构建的下采样层,构建编码器,提取所述全景图像的浅层特征和深层特征;基于所述下采样层,确定上采样层,通过跳跃连接,结合注意力机制,构建解码器,通过融合所述浅层特征和所述深层特征,提取语义特征,确定每个像素点属于各语义类别的概率分布,选取概率最大的语义类别,作为对应像素点的预测类别,得到全景图像的语义分割结果。
11、在一种可选的实施例中,
12、所述全景语义分割模型的损失函数包括:
13、由交叉熵损失函数和球面几何损失函数组成,所述球面几何损失函数,其公式如下:
14、;
15、其中,l2表示球面几何损失函数,c表示语义类别总数,c表示语义类别索引,ac表示语义类别c的预测分割区域,bc表示语义类别c的真实分割区域,s表示球面面积积分元,dc表示类别c的预测分割区域与真实分割区域之间的距离度量,σ表示距离度量控制因子,r表示一个区域,对应ac与bc交集或并集,θ表示纬度,φ表示经度。
16、在一种可选的实施例中,
17、基于所述全景视频,通过卷积网络,结合联合注意力机制,学习帧间相关度和帧内重要度,捕捉时域特征和空域特征,对所述全景视频进行内容解析,得到内容解析结果包括:
18、基于所述全景视频中的帧序列,提取图像帧,对所述图像帧进行尺寸归一化和色彩空间转换;
19、设置一维的时间卷积核,通过时间卷积操作,在时间纬度上计算相邻两个图像帧的相关度,提取相邻相关性信息,确定相关性权重,构建时间权重矩阵,将所述时间权重矩阵结合帧序列,捕捉时域特征;
20、对每个图像帧进行特征提取,生成特征图,设置二维的空间卷积核,通过空间卷积操作,在空间维度上计算每个图像帧中各区域的特征响应值,确定对应区域的重要度,生成重要性权重,构建空间权重矩阵,将所述空间权重矩阵结合所述特征图,捕捉空域特征;
21、将所述时域特征和所述空域特征,输入基于将二维卷积核膨胀为三维卷积核构建的时空卷积网络,结合非局部注意力机制,计算帧间长程依赖和帧内长程依赖,捕捉全局上下文,生成全景视频的内容解析结果。
22、在一种可选的实施例中,
23、基于所述语义分割结果,确定基础节点和基础边,构建空间基础属性图,基于所述内容解析结果,为所述空间基础属性图添加时间维度动态信息,以及全景空间中的物体交互关系,生成空间属性图包括:
24、基于所述语义分割结果,确定每个语义区域,以所述语义区域为基础节点,基于每两个在空间上相邻的语义区域,在所述语义区域对应的基础节点之间,建立一条无向边,以所述无向边为基础边,确定空间基础属性图;
25、对于每一个基础节点,基于所述内容解析结果,确定出现所述基础节点的图像帧,以及图像帧所在的时间段,确定节点时间维度动态信息,将所述节点时间维度动态信息附加到所述基础节点中,生成增强节点;
26、对于每一条基础边,确定所述基础边对应的两个基础节点,基于所述内容解析结果,确定两个所述基础节点同时出现的图像帧,并筛选两个所述基础节点之间具有邻接关系的图像帧,确定图像帧所在时间段,确定边时间维度动态信息,将所述边时间维度动态信息附加到所述基础边中,生成增强边;
27、基于所述增强节点和所述增强边,结合内容解析结果,识别两两所述增强节点对应的物体或区域之间的交互动作、交互持续时间和交互强度,建立交互关系;
28、所述增强节点和所述增强边,融合所述交互关系,确定空间属性图。
29、在一种可选的实施例中,
30、将所述空间属性图输入空间信息分析网络中,生成语义布局图和空间结构图,确定vr全景空间信息分析结果包括:
31、为所述空间属性图中的每个增强节点创建外部记忆模块,存储所述增强节点的历史状态和历史特征表示,构建增强节点的记忆信息;
32、基于增强节点对应的邻居特征表示、对应的增强边的权重和所述增强节点的记忆信息,通过聚合函数计算进行特征聚合,得到所述增强节点的聚合特征表示,基于预设的记忆更新机制,结合记忆信息,生成更新状态,将所述聚合特征表示和所述更新状态写入所述外部记忆模块,生成更新记忆信息;
33、将所述聚合特征表示与更新记忆信息,经过线性变换和非线性映射,得到所述增强节点的更新特征表示;
34、将每个增强节点对应的更新记忆信息,通过预设的记忆传播机制,传播到对应的邻居;
35、重复迭代,直到达到预设的迭代次数,确定每个所述增强节点的最终特征表示和最终记忆信息;
36、基于所述空间属性图中每个增强节点的所述最终特征表示和所述最终记忆信息,通过预先构建的节点分类器,预测增强节点的语义类别标签,生成语义布局图;
37、基于所述空间属性图中每条边的对应增强节点,确定对应的所述最终特征表示和所述最终记忆信息,通过预先构建的边分类器,预测增强边对应的空间关系类型,生成空间结构图;
38、基于所述语义布局图和所述空间结构图,生成分析结果。
39、在一种可选的实施例中,
40、所述空间信息分析网络的损失函数包括:
41、由节点分类损失函数和边预测损失函数组成;
42、所述节点分类损失函数,其公式如下:
43、;
44、其中,lnc表示节点分类损失,n表示增强节点总数,n表示增强节点索引,wn表示增强节点n的权重系数,γ1表示节点分类调制因子,yn表示真实类别标签,y'n表示预测类别标签,ε1表示节点分类损失函数平滑因子;
45、所述边预测损失函数,其公式如下:
46、;
47、其中,lep表示边预测损失,m表示增强边总数,i表示对应增强边一端的增强节点,j表示对应增强边另一端的增强节点,wij表示i与j之间的权重系数,yij表示i与j之间真实的边存在性标签,y'ij表示i与j之间边存在性概率,γ2表示边预测调制因子,ε2表示边预测损失函数平滑因子,α表示边预测损失调节系数,margin表示非边对的距离因子。
48、本发明实施例的第二方面,
49、提供一种基于人工智能的vr全景空间信息分析系统,包括:
50、第一单元,用于获取vr全景空间信息,得到全景图像以及对应的全景视频,将所述全景图像输入全景语义分割模型中,得到语义分割结果,其中所述全景语义分割模型,通过在球面坐标系下进行自适应卷积操作,提取浅层特征和深层特征,结合球面几何损失函数,确定各语义类别的概率分布;
51、第二单元,用于基于所述全景视频,通过卷积网络,结合联合注意力机制,学习帧间相关度和帧内重要度,捕捉时域特征和空域特征,对所述全景视频进行内容解析,得到内容解析结果;
52、第三单元,用于基于所述语义分割结果,确定基础节点和基础边,构建空间基础属性图,基于所述内容解析结果,为所述空间基础属性图添加时间维度动态信息,以及全景空间中的物体交互关系,生成空间属性图,将所述空间属性图输入空间信息分析网络中,生成语义布局图和空间结构图,确定vr全景空间信息分析结果。
53、本发明实施例的第三方面,
54、提供一种电子设备,包括:
55、处理器;
56、用于存储处理器可执行指令的存储器;
57、其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
58、本发明实施例的第四方面,
59、提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
60、在本发明实施例中,通过在球面坐标系下进行自适应卷积操作,能够准确提取全景图像中的浅层和深层特征,提升全景图像的语义分割精度;利用球面几何损失函数,模型可以更好地适应全景图像的球面投影特性,减少因投影变形带来的误差,提高各语义类别的分割效果;通过卷积网络结合联合注意力机制,能够同时捕捉帧间相关度和帧内重要度,有效提取全景视频的时域和空域特征;利用联合注意力机制学习帧间的相关性和帧内的关键区域,使内容解析结果更为精确和可靠;通过为空间基础属性图添加时间维度动态信息和物体交互关系,使空间属性图能够全面描述全景视频中的动态变化和物体间的交互行为;在空间信息分析网络中利用包含时间动态信息和交互关系的空间属性图,能够更准确地生成语义布局图和空间结构图,提升全景空间信息分析的精度。
本文地址:https://www.jishuxx.com/zhuanli/20240905/287259.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表