一种基于多轨道网络的数据处理方法及装置
- 国知局
- 2024-08-02 14:01:17
本发明涉及高性能计算领域,尤其涉及一种基于多轨道网络的数据处理方法及装置。
背景技术:
1、没有强大的集体通信,大规模分布式任务是不可行的。allreduce作为用于模型训练和高性能计算(hpc)问题解决的主要集体通信操作而脱颖而出。然而,它的开销随着节点的增加成比例地增加,从而限制了大规模分布式系统的可扩展性。为了缓解通信瓶颈,开发具有更高带宽容量的网络设备势在必行。令人遗憾的是,硬件设备性能提升的速度已经放缓,需要立即采用创新的系统架构来缓解这些通信瓶颈。为了增强容纳计算节点的能力,目前现有计算机为每个节点配备了多个网络接口卡(nic),从而形成了多轨道网络。多轨道网络的采用仍处于探索阶段,网络端口决策主要由硬件堆栈自主处理。从软件栈的角度来看,将多个网口抽象为一个逻辑端口,增强了转发能力。然而,这种方法存在潜在的问题。首先,它扩大了网络故障域,使整个多轨道网络在关键节点或网络设备发生故障时容易受到广泛的影响。其次,由于硬件栈倾向于根据每个端口的当前状态来确定数据转发,异构多轨网络的效率较低,可能会在较弱的网络链路上造成大数据包的拥塞。
技术实现思路
1、本发明所要解决的技术问题在于,提供一种基于多轨道网络的数据处理方法及装置,有利于提高多轨道网络的数据处理性能,从而有效提高服务器节点的流量转发。
2、为了解决上述技术问题,本发明实施例第一方面公开了一种基于多轨道网络的数据处理方法,所述多轨道网络包括n个节点,n个所述节点之间通过通信信道相互连接;所述通信信道包括第一通信信道、第二通信信道、第三通信信道和第四通信信道,所述n为大于1的整数,所述方法包括:
3、s1,获取源节点对应的待处理数据集;所述源节点为所述n个所述节点的任一所述节点;所述待处理数据集包括m个待处理数据包信息和m个所述待处理数据包信息对应的数据包大小信息;所述m为正整数;
4、s2,利用所述节点和所述通信信道,对所述待处理数据集进行发送处理。
5、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述节点和所述通信信道,对所述待处理数据集进行发送处理,包括:
6、s21,利用第一计算模型,对所述待处理数据集进行计算处理,得到第一数据包大小信息;
7、其中,所述第一计算模型为:
8、
9、式中,sj为所述第一数据包大小信息,t1为所述待处理数据集中所述待处理数据包信息的数量,dgl1为所述待处理数据集中第l1个所述待处理数据包信息对应的数据包大小信息,s1和s2为预设的第一长度参数和第二长度参数,σ1为第一权重参数;
10、s22,利用第二计算模型,对所述n与预设的第一阈值进行计算处理,得到第二阈值;
11、其中,所述第二计算模型为:
12、de=n·dy/σ2+σ3;
13、式中,所述de为所述第二阈值,dy为所述第一阈值,σ2和σ3为第二权重参数和第三权重参数;
14、s23,判断所述第一数据包大小信息是否大于所述第一阈值,得到第一判断结果;
15、当所述第一判断结果为否时,执行s24;
16、当所述第一判断结果为是时,执行s25;
17、s24,利用所述节点和所述通信信道,对所述待处理数据集进行计算处理,确定出第一目标通信信道,并对所述待处理数据集进行发送处理;
18、s25,利用所述节点和所述通信信道,对所述待处理数据集进行计算处理,确定出第二目标通信信道和第三目标通信信道,并对所述待处理数据集进行发送处理。
19、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述节点和所述通信信道,对所述待处理数据集进行计算处理,确定出第一目标通信信道,并对所述待处理数据集进行发送处理,包括:
20、s241,对所述待处理数据集进行分割处理,得到第一待处理数据集和第二待处理数据集;
21、s242,利用所述节点和所述通信信道,对所述第二待处理数据集进行计算处理,确定出第一目标通信信道;
22、s243,利用所述源节点,将所述第一待处理数据集通过所述第一目标通信信道发送到目的节点;所述目的节点为所述n个所述节点除所述源节点外的所有所述节点。
23、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述节点和所述通信信道,对所述第二待处理数据集进行计算处理,确定出第一目标通信信道,包括:
24、s2421,对所述第二待处理数据集进行分割处理,得到第三待处理数据集、第四待处理数据集和第五待处理数据集;
25、s2422,利用所述源节点,将所述第三待处理数据集通过所述第一通信信道发送到所述目的节点,得到第一延时信息;所述第一延时信息为所述第三待处理数据集从所述源节点通过所述第一通信信道到达所述目的节点所产生的总延时;
26、s2423,利用所述源节点,将所述第四待处理数据集通过所述第三通信信道发送到所述目的节点,得到第二延时信息;所述第二延时信息为所述第四待处理数据集从所述源节点通过所述第三通信信道到达所述目的节点所产生的总延时;
27、s2424,利用所述源节点,将所述第五待处理数据集通过所述第四通信信道发送到所述目的节点,得到第三延时信息;所述第三延时信息为所述第五待处理数据集从所述源节点通过所述第四通信信道到达所述目的节点所产生的总延时;
28、s2425,对所述第一延时信息、所述第二延时信息和所述第三延时信息进行大小判断处理,得到第二判断结果;
29、当所述第二判断结果为所述第一延时信息最小时,确定所述第一通信信道为第一目标通信信道;
30、当所述第二判断结果为所述第二延时信息最小时,确定所述第三通信信道为所述第一目标通信信道;
31、当所述第二判断结果为所述第三延时信息最小时,确定所述第四通信信道为所述第一目标通信信道。
32、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述节点和所述通信信道,对所述待处理数据集进行计算处理,确定出第二目标通信信道和第三目标通信信道,并对所述待处理数据集进行发送处理,包括:
33、s251,对所述待处理数据集进行分割处理,得到第六待处理数据集和第七待处理数据集;
34、s252,利用所述节点和所述通信信道,对所述第七待处理数据集进行计算处理处理,确定出第二目标通信信道和第三目标通信信道;
35、s253,利用所述节点,将所述第六待处理数据集通过所述第二目标通信信道和所述第三目标通信信道发送到所述目的节点。
36、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述节点,将所述第六待处理数据集通过所述第二目标通信信道和所述第三目标通信信道发送到所述目的节点,包括:
37、s2531,对所述第六待处理数据集进行平均切分处理,得到第八待处理数据集和第九待处理数据集;
38、s2532,对所述第八待处理数据集和所述第九待处理数据集中的所述待处理数据包信息分别按照所述待处理数据包信息对应的所述数据包大小信息从大到小的顺序进行排序,得到第八预处理数据集和第九预处理数据集;
39、s2533,利用所述源节点,将所述第八预处理数据集和所述第九预处理数据集通过所述第二目标通信信道和所述第三目标通信信道发送到所述目的节点。
40、作为一种可选的实施方式,在本发明实施例第一方面中,所述利用所述源节点,将所述第八预处理数据集和所述第九预处理数据集通过所述第二目标通信信道和所述第三目标通信信道发送到所述目的节点,包括:
41、s25331,获取第一时间信息;
42、s25332,利用所述源节点,将所述第八预处理数据集中的第1个待处理数据包信息通过所述第二目标通信信道发送到所述目的节点,得到第四延时信息,并将所述第四延时信息添加到第一延时集合中;
43、s25333,利用所述源节点,将所述第九预处理数据集中的第1个待处理数据包信息通过所述第三目标通信信道发送到所述目的节点,得到第五延时信息,并将所述第五延时信息添加到第二延时集合中;
44、s25334,对所述第八预处理数据集中的第1个待处理数据包信息进行剔除处理,得到更新后的所述第八预处理数据集,并判断更新后的所述第八预处理数据集中是否存在所述待处理数据包信息,得到第三判断结果;
45、s25335,对所述第九预处理数据集中的第1个待处理数据包信息进行剔除处理,得到更新后的所述第九预处理数据集,并判断更新后的所述第九预处理数据集中是否存在所述待处理数据包信息,得到第四判断结果;
46、s25336,当所述第三判断结果为是且所述第四判断结果为是时,执行s25337;
47、当所述第三判断结果为是且所述第四判断结果为否时,利用所述源节点,将所述第八预处理数据集通过所述第二目标通信信道发送到所述目的节点;
48、当所述第三判断结果为否且所述第四判断结果为是时,利用所述源节点,将所述第九预处理数据集通过所述第三目标通信信道发送到所述目的节点;
49、当所述第三判断结果为否且所述第四判断结果为否时,结束所述多轨道网络的数据处理流程;
50、s25337,获取第二时间信息;
51、s25338,判断所述第二时间信息与所述第一时间信息之差是否大于预设的第一时间值,得到第五判断结果;
52、当所述第五判断结果为是时,执行s25339;
53、当所述第五判断结果为否时,执行s25332;
54、s25339,利用第三计算模型,对所述第一延时集合和所述第二延时集合进行处理,得到第一分配值和第二分配值;
55、其中,所述第三计算模型为:
56、
57、r22=1-r1;
58、式中,r1为所述第一分配值,r2为所述第二分配值,t为所述第一延时集合的标准差和所述第二延时集合的标准差之和,xi为所述第一延时集合中第i个所述第四延时信息,xu为所述第一延时集合的均值,m为所述第一延时集合中所述第四延时信息的数量,σ4为第四权重参数;
59、s253310,利用所述第一分配值和所述第二分配值,对所述第八预处理数据集和所述第九预处理数据集进行更新处理,得到更新后的所述第八预处理数据集和更新后的所述第九预处理数据集;
60、s253311,将所述第一延时集合和所述第二延时集合均设为空的集合,执行s25331。
61、本发明实施例第二方面公开了一种基于多轨道网络的数据处理装置,其特征在于,所述多轨道网络包括n个节点,n个所述节点之间通过通信信道相互连接;所述通信信道包括第一通信信道、第二通信信道、第三通信信道和第四通信信道,所述n为大于1的整数,所述装置包括:
62、获取模块,获取源节点对应的待处理数据集;所述源节点为所述n个所述节点的任一所述节点;所述待处理数据集包括m个待处理数据包信息和m个所述待处理数据包信息对应的数据包大小信息;所述m为正整数;
63、数据处理模块,利用所述节点和所述通信信道,对所述待处理数据集进行发送处理。
64、本发明实施例第三方面公开了另一种基于多轨道网络的数据处理装置,其特征在于,所述装置包括:
65、处理器;
66、与所述处理器耦合的存储有可执行程序代码的存储器;
67、所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的基于多轨道网络的数据处理方法的部分或全部步骤。
68、本发明实施例第四方面公开了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的基于多轨道网络的数据处理方法的部分或全部步骤。
69、与现有技术相比,本发明实施例具有以下有益效果:
70、本发明实施例中,所述多轨道网络包括n个节点,n个所述节点之间通过通信信道相互连接,所述通信信道包括第一通信信道、第二通信信道、第三通信信道和第四通信信道,所述n为大于1的整数。获取源节点对应的待处理数据集;所述源节点为所述n个所述节点的任一所述节点;所述待处理数据集包括m个待处理数据包信息和m个所述待处理数据包信息对应的数据包大小信息;所述m为正整数;利用所述节点和所述通信信道,对所述待处理数据集进行发送处理。可见,本技术有利于提高多轨道网络的数据处理性能,从而有效提高服务器节点的流量转发。
本文地址:https://www.jishuxx.com/zhuanli/20240801/241390.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。