融合深度强化学习及启发式方法视频码率自适应决策方法与流程
- 国知局
- 2024-08-02 14:18:36
本发明涉及多媒体通信,具体涉及一种融合深度强化学习及启发式方法视频码率自适应决策方法。
背景技术:
1、随着网络带宽的增长,实时视频在当今互联网的流量中占有很大比例并且不断增长。在实时视频通信中,视频内容提供商通常使用自适应码率决策算法(adaptivebitrate,abr)来满足不同用户的不同设备的不同带宽需求。abr算法将网络吞吐量及播放器缓存区时长等信息作为输入,输出下一个时间步长的发送码率。abr算法旨在提高用户体验质量(quality of experience,qoe),包括高视频画质,视频的画质清晰度由发送码率决定;低缓冲,视频帧的低延迟能减少视频播放时的缓冲时间;低卡顿,较少的卡顿能保证视频的连贯性和流畅度。特别对于目前流行的交互式实时视频,良好的交互体验对延迟和卡顿的要求更为严格。
2、传统的自适应码率算法大多使用固定的控制规则来预测发送码率,经典的基于网络吞吐量预测的传统启发式方法如谷歌拥塞控制(google congestion control,gcc)(carlucci g, de cicco l, holmer s, et al. congestion control for web real-time communication[j]. ieee/acm transactions on networking, 2017, 25(5):2629-2642.)算法等,虽然较好地平衡丢包和延迟,但它们短期的带宽预测通常过于保守,特别在网络情况良好时,存在带宽利用不足的问题。另外,在面对不可见网络环境时,gcc的慢恢复特性使其很难适应如今高度动态化的网络环境。目前先进的abr算法loki(zhang h,zhou a, hu y, et al. loki: improving long tail performance of learning-basedreal-time video adaptation by fusing rule-based models[c]//proceedings of the27th annual international conference on mobile computing and networking.2021: 775-788.)采用双神经网络以及双注意力融合机制对传统启发式算法和深度强化学习模块进行融合,并保持两者在决策过程中具有同等重要的地位。与以往基于“时分”的融合思想不同,loki将传统启发式算法进行黑盒化,使其与深度强化学习模块同样具有提取输入隐式特征的能力,从而达到在特征层面融合的目的。loki的双注意力融合机制旨在面对糟糕的网络环境时发挥传统启发式算法的保守特性,面对良好的网络环境时发挥深度强化学习模块的向上探索特性,从而最大化集成两种算法的优势。
3、但是,在实际的实验中,loki常常发生决策值在其动作空间的两个边界值之间交替的情况,该决策方案有时并不能适应当前网络带宽的起伏变化。经过深入分析,可能的原因如下:(1)融合方式不当。loki中经过黑盒化后的传统启发式算法的动作空间为相对值,而深度强化学习模块的动作空间为绝对值,loki点对点相乘的融合方式并不适合相对值与绝对值之间的映射。(2)更新策略不佳。在实验中,loki中深度强化学习模块的输出概率列表的熵较大,概率值较分散。这一结果也使得第一个原因对结果的影响更加明显。其次深度强化学习模块的奖励函数将三个性能指标集成为一项,不能具体对每一个性能指标的比重进行调整。另外,其损失函数缺乏对智能体在训练过程中对动作空间进行探索和对以往经验进行利用的平衡。
技术实现思路
1、本发明要解决的技术问题是:克服现有技术的不足,提供一种融合深度强化学习及启发方式的视频码率自适应决策方法,以进一步提高应用端的用户体验质量。
2、本发明采用的技术方案如下:
3、一种融合深度强化学习及启发式方法视频码率自适应决策方法,包括如下步骤:
4、s1、视频采集与编码:实时视频发送端采集实时视频,然后由编码器对实时视频进行编码、组帧;
5、s2、传统启发式方法黑盒化:传统启发式方法基于特定的规则预测下一时刻的发送码率,缺乏细粒度的特征表示能力;将传统启发式方法利用模仿学习等效成一个黑盒神经网络模型,使其具有高级表示能力的特征空间,从而与深度强化学习模块变得兼容,以便实现特征层面的融合;
6、s3、特征融合与决策:传统启发式方法的黑盒模型的输出与深度强化学习模块的输出通过趋势融合方式进行融合,根据收集的历史时刻接收端的吞吐量以及传输层的丢包率、延迟及延迟抖动对融合模型的神经网络进行训练、推理,最终得到融合后的码率决策值;
7、s4、视频发送与接收:根据码率控制算法模块得到的融合比特率发送编码好的视频帧,并在实时视频接收端进行接收、播放;
8、s5、状态记录与策略更新:记录传输过程以及视频接收端的网络状态信息,根据状态信息计算神经网络的奖励和惩罚,更新神经网络的策略参数;
9、s6、迭代优化:重复上述步骤s1至s5,直至收敛到最优的决策策略参数。
10、本技术方案通过融合深度强化学习与传统启发式方法,利用模仿学习将传统启发式方法转化为黑盒神经网络模型,与深度强化学习模块兼容并融合特征,结合历史数据训练推理得出最优码率决策,并迭代优化策略参数,以提升视频传输效率和质量。具体地,步骤s1的编码器对视频进行编码和组帧,将其转化为可传输的格式,以适应网络传输的需要;步骤s2通过模仿学习,传统启发式方法被转化为一个黑盒神经网络模型,从而获得高级表示能力的特征空间,与深度强化学习模块兼容;步骤s3的融合方式结合两者的优势,提高决策的准确性;通过收集的历史时刻接收端的吞吐量、传输层的丢包率、延迟及延迟抖动等信息,对融合后的神经网络进行训练和推理,从而得出最优的码率决策值;步骤s4实时视频接收端接收并播放这些视频帧,为用户提供流畅的观看体验;步骤s5根据网络状态信息以及视频接收端的状态,计算神经网络的奖励和惩罚,进而更新神经网络的策略参数,根据实际情况调整策略,以优化性能;步骤s6通过迭代和优化,逐渐收敛到最优的决策策略参数,适应各种网络环境和用户需求的变化。
11、另外,根据本发明上述提出融合深度强化学习及启发式方法视频码率自适应决策方法还具有如下附加技术特征:
12、根据本发明的一个实施例,所述步骤s3的特征融合与决策中,融合方式由loki中将深度强化学习模块的输出概率列表与传统启发式方法的输出概率列表进行点对点相乘的方案,改为趋势融合,其中:
13、loki中黑盒gcc的动作空间为:v [0.85,0.89,0.96,0.98,0.99,1.01,1.02,1.03,1.04,1.05],代表预测的下一时刻的发送比特率与当前时刻的发送比特率的比值;
14、黑盒gcc的输出为列表v对应的概率列表,代表取列表v中每一个动作的概率;
15、ppo的动作空间也是loki的决策空间为:a [0.7mbps,0.83mbps,0.96mbps,1.09mbps,1.22mbps,1.35mbps,1.545mbps,1.740mbps,1.870mbps,2.0mbps];
16、ppo的输出为列表a对应的概率列表,代表取列表a中每一个动作的概率。
17、本技术方案通过采用趋势融合方式,将深度强化学习模块(ppo)与传统启发式方法(黑盒gcc)的输出概率列表进行融合,其不是简单的点对点相乘,而是基于两种模型输出的动作空间及其概率分布,实现一种更为精细和有效的决策策略,从而优化视频码率的自适应调整,提升视频传输的质量和效率。
18、根据本发明的一个实施例,所述步骤s3的特征融合与决策中,融合方式由loki中将深度强化学习模块的输出概率列表与传统启发式方法的输出概率列表进行点对点相乘的方案,改为趋势融合,具体实施为:
19、s31、将决策空间划分为保守决策与激进决策两部分;
20、s32、然后由传统启发式方法选择保守决策或激进决策,深度强化学习模块确定最终的比特率。
21、本技术方案通过实施趋势融合方式,将决策空间划分为保守与激进两部分,传统启发式方法负责选择决策方向,而深度强化学习模块则确定最终的比特率,不仅提升决策的智能性和灵活性,还优化视频码率的自适应调整,从而提高视频传输的质量和效率。
22、根据本发明的一个实施例,所述步骤s31,包括如下小步:
23、将与都划分为保守决策和激进决策两部分:
24、(1)
25、(2)
26、式中:,则,对应动作空间a的前半部分,即保守决策;,对应动作空间a的后半部分,即激进决策;,参数的设置基于黑盒gcc动作空间中增长因子和衰减因子的分界;其中,动作空间中增长因子代表激进决策,衰减因子代表保守决策;的划分在实验验证中确定,进行五五划分时效果最佳;
27、趋势融合中黑盒gcc只决定采取保守决策或激进决策,决策值由ppo在限定的范围内继续选择。
28、本技术方案通过将深度强化学习模块的动作空间与传统启发式方法的动作空间分别划分为保守决策和激进决策两部分,并基于传统启发式方法选择决策方向,由深度强化学习模块在限定范围内确定最终的比特率,结合保守与激进的不同决策风格,以应对网络环境的动态变化;通过优化视频码率的自适应调整,提升视频传输的可靠性和流畅性,以满足用户高质量的观看体验需求。
29、根据本发明的一个实施例,所述步骤s3的深度强化学习模块中,深度强化学习模块包括奖励函数,奖励函数采用重新设计的线性奖励函数代替。
30、本技术方案中,
31、根据本发明的一个实施例,所述步骤s3的线性奖励函数为根据实验情况更加细致地调整单个指标在奖励中所占的比重,线性奖励函数的描述如下:
32、(3)
33、式中: a, b, c, d为四个调节因子,根据具体情况自行调整;根据实验验证,分别设置为5,1,1,3;
34、采用线性公式设计奖励,将奖励中的传输层参数用应用层参数替换;应用层参数比传输层参数更精确地指导智能体向着提升用户体验质量的方向收敛。
35、本技术方案通过引入重新设计的线性奖励函数,将传输层参数替换为应用层参数,以更精确地指导深度强化学习模块朝着提升用户体验质量的方向收敛;奖励函数通过调整不同指标在奖励中的比重,实现对视频码率自适应决策的细致优化,从而提升视频传输的质量和效率。
36、根据本发明的一个实施例,所述s3的深度强化学习模块中,深度强化学习模块包括损失函数,损失函数为近端比率裁剪函数加上动作概率列表的加权熵,用于维持智能体在训练过程中进行探索和利用的平衡;损失函数中的优势函数将用gae函数代替。
37、本技术方案通过设计损失函数,该损失函数结合近端比率裁剪函数和动作概率列表的加权熵,旨在维持智能体在训练过程中的探索和利用的平衡;采用gae函数替代优势函数,以更准确地评估动作的价值,通过在优化视频码率的自适应决策,提升视频传输的质量和效率。
38、根据本发明的一个实施例,所述步骤s3的损失函数为平衡智能体在学习过程中对策略的探索和利用,损失函数的描述如下:
39、(4)
40、式中:为熵权重值,其计算遵循一定规则。
41、本技术方案通过设计损失函数来平衡智能体在学习过程中的策略探索和利用;损失函数结合近端策略优化(ppo)中的裁剪项与动作概率列表的加权熵,其中熵权重值的引入有助于调节探索和利用之间的平衡,从而提升视频码率自适应决策算法的收敛速度和性能稳定性。
42、根据本发明的一个实施例,所述步骤s3的在平均奖励处于增长趋势时保持不变,如果平均奖励连续10次(每次计算100个epoch的奖励均值)无明显增长,则 μ以0.95为系数进行衰减; μ的初始值设置为1.0,下限值设置为0.1;
43、在训练初期,高权重有利于智能体对动作空间进行探索,随着迭代次数地增加,熵权重下降,智能体将对以往学习的策略进行利用,从而促进模型的收敛;
44、为深度强化学习模块动作概率列表的熵。
45、本技术方案通过动态调整熵权重值μ来控制智能体在训练过程中的探索和利用平衡;当平均奖励增长时,μ保持不变以鼓励进一步探索;若平均奖励停滞或衰减,则逐渐减小μ以加强对已有策略的利用,从而促进模型收敛,提升视频码率自适应决策算法的效率和性能。
46、根据本发明的一个实施例,所述步骤s3的损失函数的优势函数中:
47、loki的优势函数基于td方法,且采用单步误差td(0);
48、采用gae函数代替优势函数,描述如下:
49、(5)
50、其中,计算如下:
51、(6)
52、采用的估计量,即公式(5)累加到,其中为加权值,设置为0.8;gae函数运用思想,结合td估计和mc估计,平衡估计值的偏差和方差,帮助神经网络更好地收敛到最优解。
53、本技术方案通过采用gae函数作为损失函数中的优势函数,结合td估计和mc估计,通过平衡估计值的偏差和方差,从而提升智能体在训练过程中的稳定性和收敛速度;通过优化损失函数,进而提升视频码率自适应决策的准确性和效率,以满足用户高质量的观看体验需求。
54、本发明与现有技术相比,具有以下有益效果:
55、本发明的方法在融合方式和深度强化学习模块的神经网络的更新策略两方面对loki进行优化;相比原有的loki方案,本发明在应用层具有更低的延迟和卡顿,而且维持与loki相当的发送比特率;相比于原有的loki方案,本发明的模型更能实时跟踪响应带宽变化,提高在面对未知网络环境时融合模型的灵敏度,更广泛的适用于当今复杂多变的网络环境。
本文地址:https://www.jishuxx.com/zhuanli/20240801/242345.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表