一种基于未来场景生成网络的远程控制抗时延视频传输方法
- 国知局
- 2025-01-10 13:26:02
本发明属于数据传输,具体涉及一种基于未来场景生成网络的远控抗时延视频传输方法。
背景技术:
1、随着5g通信的发展和汽车无人化的发展,稳定的视频传输系统至关重要。对于基于5g远程控制的无人驾驶而言,车辆需要实时传输高清图像和视频,以便远程控制中心或其他车辆进行分析和决策。例如:
2、1.在某些情况下,远程操作员需要通过驾驶舱,介入无人驾驶车辆的控制;通过5g网络,远程操作员可以接收到车辆传输的实时视频流,实时了解车辆周围的环境,并进行远程操作。
3、2.无人驾驶车辆之间可以通过5g网络实时共享图像和视频信息,实现车辆协同;例如,前方车辆可以将道路状况的实时视频传输给后方车辆,帮助其提前做出决策。
4、3.无人驾驶车辆需要高精度地图来辅助导航,车辆可以实时捕捉道路和环境的图像,并通过5g网络传输到地图服务器,实时更新和构建高精度地图。
5、然而,现有的5g网络传输存在问题如下:
6、5g网络虽然具有较低的时延,但在远程控制无人驾驶车辆时,视频流的传输仍然存在一定的传输延迟,特别是在网络状况不稳定或距离较远的情况下;在无人驾驶车辆装载多个相机时,视频流的负载压力进一步加大;在此情况下,可能会导致远程驾驶舱的显示屏黑屏,车辆之间共享视频帧或地图服务器视频帧丢失等问题。以往的5g远控视频传输技术对于此问题没有对应的优化或补偿方法。
技术实现思路
1、针对于上述现有技术的不足,本发明的目的在于提供一种基于未来场景生成网络的远控抗时延视频传输方法,以解决现有技术在进行远程车辆控制时因网络不稳定性导致的视频帧丢失或视频帧延迟到达带来的视频卡顿、黑屏问题。
2、为达到上述目的,本发明采用的技术方案如下:
3、本发明的一种基于未来场景生成网络的远程控制抗时延视频传输方法,应用于远程车辆控制场景中,场景中包含远控车辆、云服务器、远程驾驶舱、显示屏,所述云服务器通过网络分别与远控车辆、远端驾驶舱数据连接,远端驾驶舱与显示屏通过数据线连接;方法步骤如下:
4、1)将远控车辆和远程驾驶舱的时间基准进行同步;
5、2)通过多路环视摄像头采集远控车辆所处环境的原始视频流数据;
6、3)将原始视频流数据中添加摄像头编号和时间戳信息,编码、加密后发送给云服务器;
7、4)云服务器对接收到的视频流数据进行解密、解码,并对解码后的视频流数据进行预处理,以生成多路未来场景;
8、5)生成多路未来场景视频流数据;
9、6)将多路未来场景视频流中添加摄像头编号以及时间戳信息;
10、7)将原始视频流数据和未来场景视频流数据进行编码、加密后发送给远程驾驶舱;
11、8)远程驾驶舱对接收到的数据解密、解码并分发;
12、9)对原始视频流数据进行丢包和时延检测,同时对未来场景视频流数据进行视觉质量优化;
13、10)形成完整连续的视频流。
14、进一步地,所述步骤1)具体包括:
15、11)远程驾驶舱中的gps授时设备接收导航卫星的标准时间信号,并基于通用精确时间协议将时间信息同步至远程驾驶舱的各个子系统;
16、12)远控车辆中的gps授时设备接收导航卫星的标准时间信号,并将其转换为远控车辆系统的时间基准信号,以保证远控车辆与远程驾驶舱的时间一致性。
17、进一步地,所述步骤2)具体包括:
18、21)将多路环视摄像头均匀安装在远控车辆的车身四周,确保摄像头能够覆盖车辆周围360度的视野;根据每个摄像头的安装位置进行角度和焦距的校准,确保视频画面的清晰度和无畸变;使用激光测距仪和标定板对每个摄像头进行动态和静态校准,确保其采集到的视频流数据符合预期的视觉感知标准;
19、22)对各环视摄像头采集到的远控车辆所处环境的实时视频数据按照设定的帧率和分辨率进行格式处理;所述远控车辆所处环境包括:道路、交通状况、自然环境、障碍物以及远控车辆可能面临的特殊作业场景。
20、进一步地,所述步骤3)具体包括:
21、31)对视频流数据进行处理时,在每一帧视频数据中嵌入相应的摄像头编号和时间戳信息;
22、32)使用高效视频编码编码器对嵌入摄像头编号和时间戳信息后的原始视频流数据进行压缩编码,原始视频流数据在压缩编码被分割为若干带有摄像头编号和时间戳的视频段,便于后续的加密和传输;
23、33)对压缩编码后的视频流数据进行加密,采用aes-128加密算法对每个视频段进行加密,每个视频段在加密处理后变为密文流;
24、34)将加密后视频流数据通过hls传输协议进行打包和传输给云服务器;hls传输协议将视频流数据分割为小的文件段,通过http进行顺序传输。
25、进一步地,所述步骤4)具体包括:
26、41)云服务器使用aes-128解密算法对接收到的视频流数据进行解密处理;
27、42)使用高效视频编码解码器将解密后的视频流数据恢复为原始视频帧;解码后的每一帧都保留摄像头编号和时间戳信息;
28、43)将解码后的n帧视频分为n-1组,并对每组图像进行高斯金字塔下采样,将图像尺寸调整为1024x512,再对图像像素值进行归一化处理,将其范围调整到[0,1],同时将图像数据类型转换为float32,通过将图像的像素值除以255以及相应的数据格式转换函数来实现;将图像的颜色通道顺序从rgb转换为未来场景生成所需的bgr格式,并将通道顺序调整为通道数、高、宽;根据设置好的批次大小,将每组图像打包成一个批次。
29、进一步地,所述步骤5)具体包括:
30、51)从每组图像中提取多尺度、多层次的浅层特征;通过分层的卷积层逐步处理输入图像,提取出细粒度的特征图;在每个卷积层中,逐步降低输入特征图的分辨率,并不断增加通道数,压缩数据量并保留特征信息;
31、52)进一步优化步骤51)中得到的特征图,通过多尺度膨胀卷积来增强特征的表达能力,使用膨胀卷积在不增加计算量的情况下扩大感受野,从而整合来自不同空间尺度的信息;通过设置不同的膨胀率来处理来自不同尺度的特征图,能够获取输入图像在多个尺度上的边缘、纹理和局部形状信息;再使用线性层对特征图进行融合,生成跨尺度的外观特征,以此保留输入特征的细节信息,并增强了特征图的全局上下文信息;
32、53)利用transformer结构与帧间注意力机制捕捉输入两帧之间的运动信息和外观信息;通过帧间注意力机制实现运动信息和外观信息的统一提取;所述帧间注意力机制通过计算当前帧与相邻帧之间的相似度,生成用于提取运动特征的注意力图,注意力图能够捕捉帧间的运动信息,且在不丢失细节的情况下增强外观特征的表达能力,使得在生成未来视频帧时能够准确反映输入视频帧之间的运动变化,同时保留物体的细节和纹理;
33、54)将获得的特征信息转化为具体的光流估计,并逐步细化估计结果,最终生成准确的未来视频帧;具体为:通过线性扩展和特征融合生成初步的光流估计,初步的光流估计表示输入视频帧之间的像素运动,逐级细化初步的光流估计,使得初步的光流估计能够准确捕捉到输入视频帧中的细微运动变化;使用3层卷积层,每层卷积层都通过计算残差来不断更新和修正前一层的估计结果,结合上采样操作,使得初步的光流估计能够逐步恢复到与输入图像相同的分辨率;将生成的光流和融合图用于合成未来视频帧,确保合成帧与输入视频帧在视觉上的一致性和运动上的连贯性;
34、55)对步骤54)中生成的未来视频帧进行细化处理,以提升最终输出视频帧的视觉质量;具体为:利用多尺度特征和上下文信息对未来视频帧进行修复,确保输出视频帧的高质量;在细化网络中,初步生成的未来视频帧经过几次下采样,以提取多尺度的特征,特征通过卷积层处理,进一步增强纹理和细节信息;再通过上采样操作,将特征被恢复到与输入视频帧相同的分辨率,并与初始未来视频帧融合,生成最终输出未来视频帧;
35、56)对细化处理生成的未来视频帧进行封装,按照顺序进行视频帧的组装,得到在时域上快于原始视频流v_o={fo_1,fo_2,...,fo_m}若干帧的生成视频流v_g{fg_1,fg_2,...,fg_m},其中m为总帧数,fo_i,fg_i分别表示原始视频流和生成视频流的第i帧。
36、进一步地,所述步骤6)具体包括:
37、对每一路未来场景视频流中添加与采集到的原始视频流摄像机编号相同的摄像机编号,同时,对生成的每一路未来场景视频流的视频帧添加时间戳信息,其中原始视频帧的时间戳t_1和对应生成的未来场景视频帧t_2存在对应关系如下:
38、t_2=t_1 + t_p
39、其中,t_p表示生成的未来场景视频流在时域上快于原始视频流的时间。
40、进一步地,所述步骤7)具体包括:
41、71)使用高效视频编码根据设定的帧率和分辨率对原始视频流数据和未来场景视频流数据进行压缩编码;
42、72)采用aes-128对称加密算法对压缩编码后的原始视频流数据和未来场景视频流数据进行加密处理,每个视频段在加密后转化为密文流,加密过程中,摄像头编号和时间戳信息同样被加密;
43、73)将编码、加密处理后的原始视频流数据和未来场景视频流数据通过hls传输协议发送至远程驾驶舱。
44、进一步地,所述步骤8)具体包括:
45、81)使用aes-128解密算法对接收到的原始视频流数据和未来场景视频流数据进行解密;
46、82)使用高效视频编码解码器将压缩后的原始视频流数据和未来场景视频流数据为原始视频v_o和生成视频v_g,解码过程中,从接收到的两种视频流数据中提取每一帧视频,确保视频的清晰度和完整性,解码后的每一帧生成视频帧都保留摄像头编号和时间戳信息。
47、进一步地,所述步骤9)中对原始视频流数据进行丢包和时延检测具体包括:
48、分析原始视频流中的视频数据包的接收时间点和序列号,检测是否存在丢包现象得到下一个显示周期需要显示但未能接收到的缺失视频帧集合m,集合m中包含所有缺失帧的序号。
49、进一步地,所述步骤9)中对未来场景视频流数据进行视觉质量优化具体包括:
50、91)去时延优化编码;
51、利用去时延编码器逐层提取生成视频帧{fg_1,fg_2,...,fg_m}}的多尺度特征,将输入图像从原始的高分辨率逐步降采样,以捕捉更深层次的语义信息;通过每层的下采样操作压缩图像尺寸,并捕获更大的感受野以获取图像的全局结构信息;编码器由多个非线性激活卷积层组成,每个非线性激活卷积层包含卷积层、非线性激活层、注意力机制层、跳跃连接层以及下采样层;去时延编码器对生成视频帧进行编码,得到含有全局信息的浅层生成视频帧特征fg_s;
52、92)生成视频帧深层特征提取;
53、对编码器提取的浅层生成视频帧特征fg_s进行进一步处理,进行进一步的特征提取、增强重要信息并减少冗余信息,得到深层特征fg_d;
54、93)去时延优化解码;
55、利用去时延优化解码器进行上采样,通过上采样方法 pixelshuffle进行实现;将每个像素值分配到更大的空间,从而实现图像分辨率的倍增,同时将通道数减半;去时延优化解码器将编码器、中间层提取和处理后的特征逐步恢复到原始图像的分辨率;通过逐层上采样,去时延优化解码器重建图像的空间结构和细节信息;在恢复图像分辨率的过程中,与编码器的对应层进行跳跃连接,将高分辨率特征与低分辨率特征融合,以保留更多细节;去时延优化解码器对生成视频帧的深层特征fg_d进行解码,输出去模糊、去延时后的生成视频帧{fhq_1,fhq_2,...,fhq_m},其中m为总帧数,fhq_i表示第i帧高质量生成视频帧;将高质量生成视频帧生成视频帧的时间戳与所述步骤82)提取的生成视频帧的时间戳对齐,以组装成高质量生成视频流v_hq。
56、进一步地,所述步骤10)具体包括:
57、将利用优化后的高质量生成视频流v_hq进行补偿的完整视频数据传输至驾显示屏上进行实时回显。
58、本发明的有益效果:
59、1、高效的视频传输与优化;
60、本发明通过引入基于深度学习未来场景生成和视觉质量优化,使得视频传输在远程控制应用中更加高效和稳定。尤其在网络状况较差或带宽受限的情况下,能够利用视频补偿机制,对即将传输的场景进行预测并生成补偿帧,确保了视频的流畅性和清晰度。本发明有效减少了在一控多以及多路视频传输场景下云端服务器的计算压力;此外,在视频传输过程中实时消除因运动模糊或压缩导致的图像失真以及生成图像的延时问题,使得操作人员能够获得高质量的视频回显,进一步提高了远程操作的精度和可靠性,极大地减少了因网络不稳定性导致的视频卡顿和质量下降的现象,为5g远程控制的广泛应用提供了技术保障。
61、2、抗时延能力强;
62、本发明大幅减少了视频传输中的延迟,未来场景生成可以提前预测和生成未来时刻的视频内容,从而有效地填补由于传输延迟或数据丢包而可能出现的视频空白。本发明使用的未来场景生成通过帧间注意力机制实现了运动和外观信息的统一处理,提高了生成效率。尤其适用于需要极高实时性的应用场景,如远程驾驶、工业机器人控制等,显著提升了系统的响应速度和实时性,保证了远程操作的安全性和操作体验。
63、3、智能预测与补偿;
64、本发明能够对未来几帧视频进行预测,在网络环境不理想或视频传输过程中出现丢帧的情况下,能够通过生成预测帧来补偿丢失的数据,从而保持视频流的连续性和一致性;不仅提高了视频传输的鲁棒性,还有效避免了因丢帧导致的操作失误或信息缺失,确保了远程控制操作的准确性和安全性。
65、4、适应性强;
66、本发明考虑了不同网络状况和传输延迟的变化,具备很强的适应性,可以根据实时检测到的网络情况,实时调整视频传输策略和补偿机制。例如,在网络状况较差的情况下,可以增加预测帧的比例,或降低视频传输的分辨率以减少延迟;而在网络状况较好的情况下,则可以提供高分辨率和高帧率的视频传输。这种灵活的适应性设计,确保了系统在各种复杂环境下都能稳定工作,保证了远程操作的连续性和用户体验。
本文地址:https://www.jishuxx.com/zhuanli/20250110/353118.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。