技术新讯 > 电子通信装置的制造及其应用技术 > 基于元学习的短视频码率自适应系统 > 正文

基于元学习的短视频码率自适应系统

国知局
2024-12-06 12:30:20

本发明涉及流媒体，尤其是涉及基于元学习的短视频码率自适应系统。

背景技术：

1、在短视频应用中，用户可以随时跳过不喜欢的视频以实现“边看边滑”的观看方式，为了保证用户流畅的观看体验，短视频平台通常需要在客户端缓冲区中预加载视频。考虑到不同的网络条件，这些平台提供多种表示形式或比特率的视频，以便用户选择适合的比特率来确保观看体验质量(qualityofexperience,qoe)。通常情况下，客户端倾向于预加载更多的视频块，以避免重新缓冲的发生。然而，如果用户进行滑动操作，那些已经下载但尚未观看的视频数据将不再对提高用户的qoe有所帮助，这将导致带宽资源的浪费。因此，在考虑用户观看行为和网络条件的情况下，需要以减少带宽资源浪费为目标，自适应地、有策略地进行视频预加载。

2、内容提供商通常采用短视频码率自适应(sabr)算法来优化用户的qoe并减少带宽的浪费。sabr算法需要确定应该下载哪个视频或者保持暂停状态，并确定对于特定视频应该预加载的比特率。基于学习的sabr算法被提出以解决此类问题。以dam为例。dam使用深度强化学习ppo框架，引入了用户保留率作为奖励函数，通过学习最优策略来做出决策，并通过动作掩蔽的方式将领域知识融入到决策过程中，以提高决策的透明度。

3、但是类似于dam的方法存在如下问题：一方面强化学习策略的学习过程高度依赖于数据集的真实性与有效性，这直接影响其在实际环境中的性能。另一方面，这些方法通常缺乏足够的适应性，即特定于某一客户端的强化学习模型难以在类似的环境中被广泛应用到其他客户端。因此，即使有丰富的历史数据集，也很难训练出适应不同网络类型的广义模型。此外，考虑到用户行为的多样性(如频繁切换视频)和网络环境的快速变化(如wi-fi与移动数据间的切换)现有算法难以适应这些动态变化。

4、在实际应用于短视频系统时，现有方法存在多种挑战需要克服。首先，这些方法，缺乏知识转移，在泛化性方面表现不佳。目前的方法大多通常是针对特定任务的，并且被训练成在特定的网络环境下独立工作，很难处理未知的场景。在现实世界中，网络环境和用户行为的多变性使得模型在面对未遇见的或较少遇见的情况时性能下降。其次，稳定性方面也存在问题。现有算法对输入数据的变化非常敏感，特别是在面对网络环境的不稳定性(如网络延迟和带宽波动)时，模型的性能可能急剧下降。这不仅影响用户体验，还可能导致流媒体播放的不连续性。

技术实现思路

1、本发明的目的是提供基于元学习的短视频码率自适应系统，提供一种离线训练结合在线学习加动作掩蔽结构的短视频码率自适应模型，增强了模型的泛化性和稳定性，增强了决策的合理性和可靠性，有效地降低了元学习所需数据量，提升了学习效率和准确性。

2、为实现上述目的，本发明提供了基于元学习的短视频码率自适应系统，包括以下步骤：

3、s1、离线训练，建立模型表示用户特征和网络预测信息；

4、s2、在线学习，根据当前用户环境的特征，对模型参数进行调整和优化。

5、优选的，离线训练包括以下步骤：

6、s11、将数据按照网络环境状况进行分类；

7、s12、将分类的数据输入到智能体中，并对数据进行处理；

8、s13、将数据编码到模型参数中。

9、优选的，s12中包括短视频预取模型，短视频预取模型包括以下步骤：

10、步骤一、使用全量数据对智能体进行预训练，并在预训练中加入动作掩蔽；

11、步骤二、使用元学习reptile框架对预训练后的策略在分类数据上进行进一步训练。

12、优选的，动作掩蔽中引入掩蔽向量将与动作概率相乘，以计算掩蔽后的新的动作概率分布

13、优选的，短视频加载遵循如下规则：

14、(1)所有视频按时间顺序下载，即若第n-1秒的视频还未下载，则不允许下载第n秒的视频；

15、(2)当缓存区占用率小于30％时，每个视频的缓冲时间不得大于4s；当缓存区占用率大于30％小于60％时，每个视频的缓冲时间不得大于3s；当缓存区占用率大于60％时，每个视频的缓冲时间不得大于2s；

16、(3)当前正在播放的视频，一旦其播放缓冲长度小于1秒，应立即下载。

17、优选的，元学习reptile框架训练包括以下步骤：

18、步骤一、在每个任务τi上进行传统rl任务的更新，让智能体进行决策获得多个(s,a,r)序列，；

19、步骤二、计算损失函数li，进行梯度下降迭代，得到更新后参数

20、步骤三、将更新后的参数平均起来，作为新的模型参数。

21、优选的，在线学习包括以下步骤：

22、步骤一、将及时获得的状态值s与动作值a存储在一个数组array中；

23、步骤二、根据用户行为获得对应的奖励值r；

24、步骤三、将与奖励值r相匹配的状态值s、动作值a组成(s,a,r)序列，以进行统一的更新。

25、优选的，算法更新的前提获得的奖励值r与状态值s和动作值a匹配，更新后立即清空存储数组array。

26、因此，本发明采用上述的基于元学习的短视频码率自适应系统，成功实现了基于元学习的新型sabr框架，该框架能够快速适应不同用户需求，提高系统的实用性与计算速度，使其具有工业应用；采用离线训练与在线学习结合技术，离线训练利用元数据进行训练得到一个通用模型，在线学习基于通用模型，根据每个用户的环境进一步训练出特定的用户模型，这有助于增强模型的泛化性和稳定性；一种带动作掩蔽的预训练方法，该方法融合手工规则和深度强化学习，利用手工规则对于任务领域的先验知识，进一步指导模型的学习过程，旨在增强决策的合理性和可靠性，该方法效地降低了元学习所需数据量，提升了学习效率和准确性。

27、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.基于元学习的短视频码率自适应系统，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于元学习的短视频码率自适应系统，其特征在于，离线训练包括以下步骤：

3.根据权利要求2所述的基于元学习的短视频码率自适应系统，其特征在于，s12中包括短视频预取模型，短视频预取模型包括以下步骤：

4.根据权利要求3所述的基于元学习的短视频码率自适应系统，其特征在于：动作掩蔽中引入掩蔽向量将与动作概率相乘，以计算掩蔽后的新的动作概率分布

5.根据权利要求4所述的基于元学习的短视频码率自适应系统，其特征在于：短视频加载遵循如下规则：

6.根据权利要求5所述的基于元学习的短视频码率自适应系统，其特征在于，元学习reptile框架训练包括以下步骤：

7.根据权利要求6所述的基于元学习的短视频码率自适应系统，其特征在于：在线学习包括以下步骤：

8.根据权利要求7所述的基于元学习的短视频码率自适应系统，其特征在于：算法更新的前提获得的奖励值r与状态值s和动作值a匹配，更新后立即清空存储数组array。

技术总结本发明公开了基于元学习的短视频码率自适应系统，涉及流媒体技术领域，包括以下步骤：S1、离线训练，建立模型表示用户特征和网络预测信息；S2、在线学习，根据当前用户环境的特征，对模型参数进行调整和优化。本发明采用上述的基于元学习的短视频码率自适应系统，成功实现了基于元学习的新型SABR框架，该框架能够快速适应不同用户需求，提高系统的实用性与计算速度，使其具有工业应用；成功结合了离线训练与在线学习技术，增强了模型的泛化性和稳定性；在预训练中引入动作掩蔽的思想，增强决策的合理性和可靠性，有效降低了元学习所需的数据量，提升了学习效率和准确性，显著减少了工业环境中的数据需求和训练时间。技术研发人员：卫青蓝,张远,朱鹏宇受保护的技术使用者：中国传媒大学技术研发日：技术公布日：2024/12/2