技术新讯 > 电子通信装置的制造及其应用技术 > 基于TSN的智能变电站数据流调度模型训练方法、调度方法及装置与流程 > 正文

基于TSN的智能变电站数据流调度模型训练方法、调度方法及装置与流程

国知局
2024-09-14 14:34:35

本发明涉及网络通信，尤其涉及一种基于tsn的智能变电站数据流调度模型训练方法、调度方法及装置。

背景技术：

1、智能变电站的承载网络需要满足多种业务的承载和互联互通要求。目前变电站网络仍然各总线并存，如何在混流的条件下，保证各种不同类型的流量对端到端传输时延、抖动、丢包率等需求均得到满足，是智能变电站长期以来面对的重要问题。现阶段，通过引入tsn(时间敏感网络)改善传统以太网尽力而为的转发特性，根据数据流量的不同优先级，提供不同程度的端到端有界时延的保障和更小的抖动等，从而满足智能变电站的应用要求。

2、智能变电站的数据具有高度的时间敏感特性，同时随着智能变电站数据化、智能化、网络化的发展演变，电网数据的类型也呈现多样化发展趋势，产生了异构时间敏感数据在电力网络上协同传输的迫切需求。为实现tsn网络中异构时间敏感数据流的协同传输，拟将异构时间敏感数据流建模为周期时间敏感(periodic time-sensitive,pts)流和非周期时间敏感(sporadic time-sensitive,sts)流两大类。pts流通常具有非常严格的周期和确定性时延的约束(例如循环控制指令、同步信息等)，以便产生精准的控制决策，保障控制系统的安全可靠运行。sts流通常是非周期的零星流(例如故障报警信息)或者抖动较大的周期时间敏感数据流(例如无线传感器采集的数据)等。本技术旨在提供一种针对智能变电站数据流的确定性传输需求的方案，保障传输窗口限制。

技术实现思路

1、鉴于此，本发明实施例提供了一种基于tsn的智能变电站数据流调度模型训练方法、调度方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决智能变电站针对异构时间敏感数据流的确定性传输需求问题。。

2、本发明的一个方面提供了一种基于tsn的智能变电站数据流调度模型训练方法，该方法包括以下步骤：

3、获取智能变电站的链路拓扑结构以及链路状态参数，所述链路状态参数包括各链路带宽、利用率、各链路中已占用的现有周期时间敏感流和现有非周期时间敏感流的第一数据流参数；所述第一数据流参数包括周期、链路占用时长、数据量大小和占用时隙范围；

4、获取新增周期时间敏感流的第二数据流参数，所述第二数据流参数包括每一条所述新增周期时间敏感流的的周期、每一周期内产生时间、传输截止日期、数据量大小、源地址和目的地址；

5、获取新增非周期时间敏感流的第三数据流参数，所述第三数据流参数包括每一条所述新增非周期时间敏感流的产生时间、传输截止日期、数据量大小、源地址和目的地址；

6、将所述链路拓扑结构以及所述链路状态参数进行等价重构，将原链路拓扑结构中的边作为新图的节点，将原链路拓扑结构中边与边的连接关系作为新图的边；

7、以当前节点中各新增周期时间敏感流的所述第二数据流参数、各新增非周期时间敏感流的所述第三数据流参数以及所述新图作为状态参数，以与所述当前节点连接的下一链路候选节点集合为动作选项；

8、获取初始演员网络和初始评论家网络，所述演员网络包括用于挖掘所述新图特征信息的第一神经网络模块和用于挖掘所述当前数据流特征信息的第二神经网络模块，所述第一神经网络模块提取上一传输链路节点特征向量、所述当前节点特征向量和新图全局显著特征，所述第二神经网络模块提取当前数据流特征向量，拼接得到质询向量；将所述质询向量通过第三神经网络模块，将所述当前节点特征向量通过第四神经网络模块，统一维度后进行相关性计算并归一化得到所述选择概率作为当前数据流与候选节点的亲和度，并构建亲和度集合；基于所述当前数据流与各候选节点的亲和度集合，依据概率进行采样选定下一游走链路节点并更新所述状态参数；所述初始评论家网络用于计算选择相应候选节点时的预测价值；

9、基于选定的所述下一游走链路节点，依据蒙特卡罗树搜索仿真模拟并补全后续游走链路节点，并计算实际收益值；

10、基于所述预测价值和所述实际收益值构建损失函数，更新所述初始演员网络和所述初始评论家网络的参数，完成一轮迭代；按照预设条件进行多轮迭代，将更新后的所述初始评论家网络作为智能变电站数据流调度模型。

11、在一些实施例中，计算实际收益值之前，还包括：

12、若所述当前流量为所述新增周期时间敏感流，定义k表示所述当前数据流，uk表示所述当前数据流到达所述当前节点的时间，dk表示所述当前数据流k在所述当前节点上最晚完成时间，lk表示所述当前数据流k在所述当前节点上占用的时隙长度，pk表示所述当前数据流k的周期；时隙开始占用偏移量为ok，取值范围为[uk，dk-lk]；

13、计算ok在解空间的不可行域，计算过程包括：

14、对于已经部署在所述当前节点上的任意数据流y，若所述任意数据流y为周期时间敏感流，计算所述当前数据流k的周期pk与所述任意数据流y的周期py的最小公倍数s，定义a＝s/py，a＝[0，a)；若所述任意数据流y为非周期时间敏感流，a＝{0}；

15、对于在a内的任意整数c，计算r＝c·py+uy，e＝r+ly，z＝r/pk，w＝e/py；如果ceil(z)-ceil(w)＝＝0，则[r％py，e％py]为所述不可行域；若ceil(w)-ceil(z)＞0，[r％py，py]和[0，e％py]为所述不可行域；其中，ceil表示向上取整；

16、获取不可行域后，结合ok的取值范围[uk，dk-lk]缩小ok的搜索范围，再在可行搜索范围内穷举，直到找到连续lk个空闲的时隙并分配至所述当前数据流。

17、在一些实施例中，计算实际收益值之前，还包括：

18、若所述当前流量为所述新增非周期时间敏感流，定义k表示所述当前数据流，uk表示所述当前数据流到达所述当前节点的时间，dk表示所述当前数据流k在所述当前节点上最晚完成时间，lk表示所述当前数据流k在所述当前节点上占用的时隙长度，时隙开始占用偏移量为ok，取值范围为[uk，dk-lk]；

19、计算ok在解空间的不可行域，计算过程包括：

20、对于已经部署在所述当前节点上的任意数据流y，若所述任意数据流y为周期时间敏感流，定义a＝floor(uk/py)，b＝floor(dk/py)，其中floor表示向下取整运算，a＝[a，b]；对于在a内的任意整数c，计算r＝c·py+uy，e＝r+ly，z＝r/pk，w＝e/py；如果ceil(z)-ceil(w)＝＝0，则[r％py，e％py]为所述不可行域；若ceil(w)-ceil(z)＞0，[r％py，py]和[0，e％py]为所述不可行域；其中，ceil表示向上取整；

21、若y为非周期性的，则[max(uk，uy)，min(dk-lk，dy-ly)]为所述不可行域；

22、获取不可行域后，结合ok的取值范围[uk，dk-lk]缩小ok的搜索范围，再在可行搜索范围内穷举，直到找到连续lk个空闲的时隙并分配至所述当前数据流。

23、在一些实施例中，所述第一神经网络模块和所述第二神经网络模块采用transformer模型，所述第三神经网络模块和所述第四神经网络模块采用多层感知机。

24、在一些实施例中，将所述质询向量通过第三神经网络模块，将所述当前节点特征向量通过第四神经网络模块，统一维度后进行相关性计算并归一化得到所述选择概率作为当前数据流与候选节点的亲和度，表达式为：

25、将所述当前数据流k的特征向量fk、上一个传输链路节点l的特征向量hl、所述当前节点p的特征向量hp、所述新图的全局显著特征g拼接作为质询向量qk，即qk＝[fk；hl；hp；g]；

26、定义表示所述候选节点集合，所述候选节点集合为与所述当前节点p连接的但不包括所述当前数据流k已经游走过的节点集合；

27、所述当前数据流k与所述候选节点u的亲合度dku计算式为：

28、

29、

30、其中，ψ表示所述第三神经网络的运算，φ表示所述第四神经网络运算，用于将qk和hu统一到相同维度，并再次挖掘节点特征；表示所述当前数据流k游走至所述当前节点p后与所述候选节点u的亲合度。

31、在一些实施例中，依据蒙特卡罗树搜索仿真模拟并补全后续游走链路节点，并计算实际收益值，包括：

32、对于处于所述当前节点z的所述当前数据流，依据所述蒙特卡罗树搜索，以亲和度为依据随机选择候选节点并模拟仿真选择候选节点z′后的游走路径，仿真过程中用于构建游走路径的方式包括随机rollout、结合最大亲合度采样、结合多项式采样和结合贪心算法采样，对各种方式的收益计算平均收益作为所述实际收益值后回传。

33、在一些实施例中，基于所述预测价值和所述实际收益值构建损失函数，更新所述初始演员网络和所述初始评论家网络的参数，包括：

34、设所述当前数据流k的游走路径从所述当前节点z拓展至所述候选节点z′的概率为pzz′，所述当前数据流k游走至z和z′时，所述当前节点的服务状态为sz，所述候选节点z′的服务状态为sz′；令v(·)表示值函数；γ表示折扣因子；表示游走路径所述当前数据流k从z拓展至z′的收益；

35、则所述演员网络的损失函数表达式为：

36、

37、更新规则为：

38、

39、其中，θ表示所述演员网络的可学习参数集合，α为所述演员网络的学习速率，τ为截止至z′的游走路径，n表示路径τ的长度；

40、采用第五神经网络作为评论家网络预测所述演员网络的价值函数，所述评论家网络的损失函数为：

41、

42、更新规则为：

43、

44、其中，ω表示所述评论家网络的可学习参数集合，β为所述评论家网络的学习速率。

45、另一方面，本发明还包括一种基于tsn的智能变电站数据流调度方法，包括如下步骤：

46、获取智能变电站的链路拓扑结构以及链路状态参数，所述链路状态参数包括各链路带宽、利用率、各链路中已占用的现有周期时间敏感流和现有非周期时间敏感流的第一数据流参数；所述第一数据流参数包括周期、链路占用时长、数据量大小和占用时隙范围；

47、获取新增周期时间敏感流的第二数据流参数，所述第二数据流参数包括每一条所述新增周期时间敏感流的的周期、每一周期内产生时间、传输截止日期、数据量大小、源地址和目的地址；

48、获取新增非周期时间敏感流的第三数据流参数，所述第三数据流参数包括每一条所述新增非周期时间敏感流的产生时间、传输截止日期、数据量大小、源地址和目的地址；

49、将所述链路拓扑结构以及所述链路状态参数进行等价重构，将原链路拓扑结构中的边作为新图的节点，将原链路拓扑结构中边与边的连接关系作为新图的边；

50、以当前节点中各新增周期时间敏感流的所述第二数据流参数、各新增非周期时间敏感流的所述第三数据流参数以及所述新图作为状态参数；

51、将所述状态参数输入上述基于tsn的智能变电站数据流调度模型训练方法中得到的智能变电站数据流调度模型以选择输出下一游走链路节点，按照预设规则为所述当前数据流分配时隙，并更新状态参数；重复处理，直至达到目标节点位置终止。

52、在一些实施例中，按照预设规则为所述当前数据流分配时隙，包括：

53、若所述当前流量为所述新增周期时间敏感流，定义k表示所述当前数据流，uk表示所述当前数据流到达所述当前节点的时间，dk表示所述当前数据流k在所述当前节点上最晚完成时间，lk表示所述当前数据流k在所述当前节点上占用的时隙长度，pk表示所述当前数据流k的周期；时隙开始占用偏移量为ok，取值范围为[uk，dk-lk]；

54、计算ok在解空间的不可行域，计算过程包括：

55、对于已经部署在所述当前节点上的任意数据流y，若所述任意数据流y为周期时间敏感流，计算所述当前数据流k的周期pk与所述任意数据流y的周期py的最小公倍数s，定义a＝s/py，a＝[0，a)；若所述任意数据流y为非周期时间敏感流，a＝{0}；

56、对于在a内的任意整数c，计算r＝c·py+uy，e＝r+ly，z＝r/pk，w＝e/py；如果ceil(z)-ceil(w)＝＝0，则[r％py，e％py]为所述不可行域；若ceil(w)-ceil(z)＞0，[r％py，py]和[0，e％py]为所述不可行域；其中，ceil表示向上取整；

57、获取不可行域后，结合ok的取值范围[uk，dk-lk]缩小ok的搜索范围，再在可行搜索范围内穷举，直到找到连续lk个空闲的时隙并分配至所述当前数据流。

58、在一些实施例中，按照预设规则为所述当前数据流分配时隙，包括：

59、若所述当前流量为所述新增非周期时间敏感流，定义k表示所述当前数据流，uk表示所述当前数据流到达所述当前节点的时间，dk表示所述当前数据流k在所述当前节点上最晚完成时间，lk表示所述当前数据流k在所述当前节点上占用的时隙长度，时隙开始占用偏移量为ok，取值范围为[uk，dk-lk]；

60、计算ok在解空间的不可行域，计算过程包括：

61、对于已经部署在所述当前节点上的任意数据流y，若所述任意数据流y为周期时间敏感流，定义a＝floor(uk/py)，b＝floor(dk/py)，其中floor表示向下取整运算，a＝[a，b]；对于在a内的任意整数c，计算r＝c·py+uy，e＝r+ly，z＝r/pk，w＝e/py；如果ceil(z)-ceil(w)＝＝0，则[r％py，e％py]为所述不可行域；若ceil(w)-ceil(z)＞0，[r％py，py]和[0，e％py]为所述不可行域；其中，ceil表示向上取整；

62、若y为非周期性的，则[max(uk，uy)，min(dk-lk，dy-ly)]为所述不可行域；

63、获取不可行域后，结合ok的取值范围[uk，dk-lk]缩小ok的搜索范围，再在可行搜索范围内穷举，直到找到连续lk个空闲的时隙并分配至所述当前数据流。

64、另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述方法的步骤。

65、另一方面，本发明还提供一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述方法的步骤。

66、本发明的有益效果至少是：

67、本发明所述基于tsn的智能变电站数据流调度模型训练方法、调度方法及装置，以智能变电站的链路拓扑结构及链路状态等价重构新图，并结合新增周期时间敏感流和新增非周期时间敏感流数据流的参数构建状态空间，引入演员评论家网络中的演员网络对计算选择下一链路各候选节点，将选择概率构建为亲和度集合；依据蒙特卡罗树搜索仿真模拟并补全后续游走链路节点，并计算实际收益值，更新演员网络和评论家网络；基于训练的演员网络在应用中选择下一游走链路节点，并分配时隙更新状态，重复操作直至达到目标节点位置。等价重构新图能更有效地利用网络资源，避免拥塞和瓶颈，提高网络整体性能，引入演员评论家网络快速计算和更新调度策略，适应实时变化的网络环境，依据蒙特卡罗树搜索计算实际收益值，可以根据实时反馈动态调整搜索策略，适应性强，能在有限时间内找到较优解。

68、进一步的，针对新增周期时间敏感流和新增非周期时间敏感流分别构建时隙分配方案，能够保证在tsn网络中对异构时间敏感数据的确定性传输需求，提升整体网络稳定性。

69、本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

70、本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。