技术新讯 > 电子通信装置的制造及其应用技术 > 一种分布式集群系统及相关长延迟请求处理方法与流程  >  正文

一种分布式集群系统及相关长延迟请求处理方法与流程

  • 国知局
  • 2024-08-02 14:11:20

本技术涉及计算机,尤其涉及一种分布式集群系统及相关长延迟请求处理方法。

背景技术:

1、随着科技的发展,以集群架构搭建的高性能计算机技术也日益成熟,其应用也越来越普及,这就使得分布式集群系统无论是在计算性能还是在系统规模上都得到了较大的发展。目前,分布式集群系统(如服务器集群)中可以包括多个计算节点,不同计算节点之间可以通过互联网络建立连接,以实现节点间的通信。但随着分布式集群系统中计算节点数量的增多,组网规模越来越大,计算节点在访问远端计算节点或系统拥塞严重时,计算节点发起的请求无法得到快速的响应。在此情况下,计算节点需要等待请求得到响应后才能进行计算或其他动作,在等待过程中,计算节点不能进行计算或其他动作,导致计算节点的计算资源严重浪费。

2、因此,如何提供一种长延迟请求处理方法,避免计算节点的计算资源浪费,以提升计算节点的利用率,是亟待解决的问题。

技术实现思路

1、本技术实施例所要解决的技术问题在于,如何提供一种分布式集群系统及相关长延迟请求处理方法,避免计算节点的计算资源浪费,以提升计算节点的利用率。

2、第一方面,本技术实施案例提供一种分布式集群系统,其特征在于,所述分布式集群系统包括多个计算节点,所述多个计算节点中的每个计算节点包括处理单元和检测单元,第一计算节点的处理单元,用于:向第二计算节点发送第一请求,所述第一计算节点和所述第二计算节点为所述多个计算节点中的任意两个;

3、所述第一计算节点的检测单元,用于:在所述第一请求超时的情况下,向所述第一计算节点的处理单元发送第一消息,所述第一消息包括长延迟超时信息、阻塞路径信息中的一种或多种;

4、其中,当所述第二计算节点对所述第一请求的第一响应时间大于第一阈值时,所述第一请求超时;所述第一阈值为基于多个响应时间确定的,所述多个响应时间分别为所述第二计算节点对所述第一计算节点已发送的多个请求的响应时间。

5、在大型组网系统中,第一计算节点在访问远端计算节点或系统拥塞严重时,第一计算节点发起的请求无法得到第二计算节点的快速响应。目前,第一计算节点需要等待请求得到响应后才能进行计算或其他动作,在等待过程中,第一计算节点不能进行计算或其他动作,导致第一计算节点的计算资源严重浪费。

6、在本技术实施例中,可以在第一计算节点中增加检测单元,可用于监测请求是否超时。具体的,从第一计算节点的处理单元发送出第一请求开始,检测单元开始监测响应的接收时刻,第一请求的响应时间超过第二计算节点正常情况下的响应时间(即第一阈值)时,可以确定第一请求超时,检测单元可以主动向第一计算节点的处理单元发送第一消息,以便通知处理单元该路径阻塞,第二计算节点无法快速响应请求。进一步地,第一计算节点的处理单元可以先切换到其他线程,处理其他任务,避免了第一计算节点中的处理单元无法感知请求是否超时,导致第一计算节点需要长时间处于等待状态,第一计算节点的计算资源严重浪费的问题,从而提升了计算节点的利用率。

7、在一些实施例中,所述第一计算节点的处理单元,具体用于:通过第一线程向所述第二计算节点发送所述第一请求;所述第一计算节点的处理单元,还用于:接收所述第一消息,并暂停所述第一线程。

8、在本技术实施例中,第一计算节点的处理单元上可以运行第一线程,并且可以通过该第一线程向第二计算节点发送第一请求。若第一计算节点的检测单元检测到请求超时,会主动向处理单元发送第一消息,处理单元接收到第一消息后不会立即结束该线程,而可以先暂停该第一线程。然后,第一计算节点的处理单元可以先切换到其他线程,处理其他任务,避免第一计算节点需要长时间处于等待状态,导致第一计算节点的计算资源严重浪费的问题,从而提升了计算节点的利用率。

9、在一些实施例中,所述第一计算节点的检测单元,具体用于:在所述第一计算节点发送所述第一请求后,监测第一响应的接收时刻,所述第一响应为所述第二计算节点针对所述第一请求向所述第一计算节点发送的;当第二时刻与第一时刻之间的差值大于所述第一阈值时,确定所述第一请求超时,其中,所述第一时刻为发送所述第一请求的时刻;所述第二时刻为所述第一时刻后,且所述接收时刻前的任一时刻;所述第二时刻与所述第一时刻之间的差值小于或等于所述第一响应时间。

10、在本技术实施例中,第二时刻与第一时刻之间的差值可以理解为检测单元的监测时间,也可以理解为处理单元的等待时间,该时间小于或等于请求的响应时间,因此从第一计算节点的处理单元发送出第一请求开始,检测单元开始监测响应的接收时刻,当检测时间大于第一阈值时,可以理解为第一请求的响应时间超过第二计算节点正常情况下的响应时间时(即第一阈值),确定第一请求超时。其中,由于第一阈值为基于第二计算节点的实际响应时间确定的,因此第一阈值更加接近第二计算节点正常情况下的响应时间,能够更加准确地判断请求是否超时,避免第一计算节点需要长时间处于等待状态,导致第一计算节点的计算资源严重浪费的问题,从而提升了计算节点的利用率。

11、在一些实施例中,所述第一计算节点的检测单元,还用于:将所述接收时刻与所述第一时刻之间的差值确定为所述第一响应时间,并基于所述第一响应时间更新所述第一阈值。

12、在本技术实施例中,当第一计算节点的检测单元监测到第一请求超时后,检测单元不仅会向处理单元发送第一消息,检测单元还会继续监测响应的接收时刻,以确定第一响应时间(即第一响应的接收时刻与第一请求的发送时刻之间的差值)。进一步地,基于第一响应时间更新第一阈值,以使得第一阈值更加接近第二计算节点正常情况下的响应时间,后续能够更加准确地判断请求是否超时,避免第一计算节点需要长时间处于等待状态,导致第一计算节点的计算资源严重浪费的问题,从而提升了计算节点的利用率。

13、在一些实施例中,所述第一计算节点的检测单元,具体用于:在所述第一响应时间大于预设值的情况下,降低所述第一阈值,所述预设值为基于更新前的所述第一阈值确定的;在所述第一响应时间小于或等于所述预设值的情况下,增大所述第一阈值。

14、在本技术实施例中,当第二计算节点的实际响应时间(即第一响应时间)大于预设值时,可以适当调小第一阈值,增加第一消息的回复数量;当第二计算节点的实际响应时间(即第一响应时间)小于或等于预设值时,可以适当调大第一阈值,减少第一消息的回复数量。由于第二计算节点对应的第一阈值可以根据第二计算节点的实际响应时间进行动态调整,第一阈值可以逐渐逼近第二计算节点正常情况下的响应时间,以便后续能够更加准确地判断请求是否超时,避免第一计算节点需要长时间处于等待状态,导致第一计算节点的计算资源严重浪费的问题,从而提升了计算节点的利用率。

15、在一些实施例中,所述第一计算节点的处理单元,还用于:接收所述第一响应后,在所述第一计算节点中存储所述第一响应中包含的第一数据;所述第一计算节点的处理单元,还用于:重新运行所述第一线程时,从所述第一计算节点中读取所述第一数据。

16、在本技术实施例中,由于第一计算节点的处理单元在接收到第一消息后,不会结束线程,因此第二计算节点依旧会返回响应。当第二计算节点返回响应时,第一计算节点的处理单元可能正在运行其他任务,因此可以先将响应中的第一数据(即第一请求中的待访问数据)存储在第一计算节点本地,如存储在第一计算节点的缓存中,当第一计算节点的处理单元结束其他任务后,可以重新运行第一线程。进一步地,第一计算节点可以直接在缓存中读取相关数据,而无需在此访问第二计算节点。

17、第二方面,本技术提供了一种长延迟请求处理方法,其特征在于,应用于分布式集群系统,所述分布式集群系统包括多个计算节点,所述多个计算节点中的每个计算节点包括处理单元和检测单元,所述方法包括:通过第一计算节点的处理单元,向第二计算节点发送第一请求,所述第一计算节点和所述第二计算节点为所述多个计算节点中的任意两个;通过所述第一计算节点的检测单元,在所述第一请求超时的情况下,向所述第一计算节点的处理单元发送第一消息,所述第一消息包括长延迟超时信息、阻塞路径信息中的一种或多种;其中,当所述第二计算节点对所述第一请求的第一响应时间大于第一阈值时,所述第一请求超时;所述第一阈值为基于多个响应时间确定的,所述多个响应时间分别为所述第二计算节点对所述第一计算节点已发送的多个请求的响应时间。

18、在一些实施例中,所述向第二计算节点发送第一请求,包括:通过第一线程向所述第二计算节点发送所述第一请求;所述方法还还包括:通过所述第一计算节点的处理单元接收所述第一消息,并暂停所述第一线程。

19、在一些实施例中,所述当所述第二计算节点对所述第一请求的第一响应时间大于第一阈值时,所述第一请求超时,包括:通过所述第一计算节点的检测单元,在所述第一计算节点发送所述第一请求后,监测第一响应的接收时刻,所述第一响应为所述第二计算节点针对所述第一请求向所述第一计算节点发送的;当第二时刻与第一时刻之间的差值大于所述第一阈值时,确定所述第一请求超时,其中,所述第一时刻为发送所述第一请求的时刻;所述第二时刻为所述第一时刻后,且所述接收时刻前的任一时刻;所述第二时刻与所述第一时刻之间的差值小于或等于所述第一响应时间。

20、在一些实施例中,所述方法还包括:通过所述第一计算节点的检测单元,将所述接收时刻与所述第一时刻之间的差值确定为所述第一响应时间,并基于所述第一响应时间更新所述第一阈值。

21、在一些实施例中,所述基于所述第一响应时间更新所述第一阈值,包括:在所述第一响应时间大于预设值的情况下,降低所述第一阈值,所述预设值为基于更新前的所述第一阈值确定的;在所述第一响应时间小于或等于所述预设值的情况下,增大所述第一阈值。

22、在一些实施例中,所述方法还包括:通过所述第一计算节点的处理单元,接收所述第一响应后,在所述第一计算节点中存储所述第一响应中包含的第一数据;重新运行所述第一线程时,从所述第一计算节点中读取所述第一数据。

23、第三方面,本技术提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第二方面任意一项所述的方法。

24、第四方面,本技术提供了一种芯片系统,该芯片系统包括处理器,用于支持电子设备实现上述第二方面中所涉及的功能,例如,生成或处理上述长延迟请求处理方法中所涉及的信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存电子设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其他分立器件。

25、第五方面,本技术提供一种计算机程序,其特征在于,所述计算机程序包括指令,当所述计算机程序被计算机执行时,使得所述计算机执行上述第二方面中任意一项所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240801/241938.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。