技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种异构计算中的分布式机器学习方法与流程 > 正文

一种异构计算中的分布式机器学习方法与流程

国知局
2024-10-15 10:03:48

本发明涉及信息，尤其涉及一种异构计算中的分布式机器学习方法。

背景技术：

1、随着分布式机器学习环境的快速发展和广泛应用，异构计算环境下的硬件规格与配置信息获取、硬件故障模式分类、数据同步和计算资源分配等操作成为关键问题。获取硬件规格与配置信息的方法不够全面和高效。目前的方法多为手动记录或者依赖专门的硬件监控系统，这些方法存在信息不全面、工作量大、效率低下等问题。同时，在异构计算环境中，各节点的硬件规格和配置也可能存在差异，导致获取的信息不一致。硬件故障模式的初步分类不够准确和可靠。目前的方法主要依靠经验和专家知识进行分类，这种方法容易受到主观因素的影响，分类准确度不高。另外，由于异构计算环境中硬件规格和配置的差异，不同节点的故障模式可能存在差异，导致分类结果不一致。数据同步策略的设计和优化缺乏系统化方法。目前的方法主要基于静态配置或者经验规则，无法适应动态变化的分布式机器学习环境。同时，由于数据同步的延迟和不一致性，可能导致计算资源分配不均衡和性能下降。并且，分布式机器学习环境中的硬件故障模式多种多样，对应的容错机制也需要针对不同的故障模式进行设计。因此，如何对硬件故障模式进行初步分类，以便为每个节点设计相应的容错机制，是一个需要解决的问题。

技术实现思路

1、本发明提供了一种异构计算中的分布式机器学习方法，主要包括：

2、获取异构计算环境下的硬件规格与配置信息，并进行硬件故障模式的初步分类；通过网络通讯协议获取分布式机器学习环境中各节点的状态数据，所述节点的状态数据包括硬件状态数据和软件状态数据；采用数据同步策略，将所有节点的状态数据整合到一个中心节点，形成一个全局状态数据集；对所述全局状态数据集进行解析，动态为各节点分配计算任务；根据动态分配的计算任务和硬件故障模式，设计初步的容错机制；在分布式机器学习环境中，将设计好的容错机制应用到每个节点，记录应用结果；分析应用容错机制后的结果数据，对数据同步策略进行相应的调整；通过网络通讯协议，将所有节点的容错和同步状态信息记录在一个中心节点。

3、进一步地，所述获取异构计算环境下的硬件规格与配置信息，并进行硬件故障模式的初步分类，包括：

4、通过hwinfo工具，在异构计算环境中获取硬件规格与配置信息，并生成硬件属性分析报告，所述硬件规格与配置信息包括品牌、型号、生产日期和使用时长信息；根据所述硬件属性分析报告，提取硬件性能数据，所述硬件性能数据包括处理速度、运行效率和功耗；获取异构计算环境的实时所述硬件性能数据，利用k-means算法识别硬件的潜在故障和性能下降问题；如果识别出硬件的潜在故障，比对异常参数与预设的故障数据，自动识别出硬件故障类型和性能问题；对所述硬件故障类型和性能问题进行分类，将分类结果自动存储。

5、进一步地，所述通过网络通讯协议获取分布式机器学习环境中各节点的状态数据，所述节点的状态数据包括硬件状态数据和软件状态数据，包括：

6、确定用于获取节点状态数据的网络通信协议和数据格式，所述网络通信协议包括http、tcp/ip或mqtt，所述数据格式包括json或protobuf；通过监控代理获取节点的硬件状态数据和软件状态数据，所述硬件状态数据包括cpu使用情况、内存使用情况、硬盘状况、网络带宽和gpu使用情况，所述软件状态数据包括操作系统信息、分布式机器学习框架的运行状态、进程状态、网络连接状态和日志信息。

7、进一步地，所述采用数据同步策略，将所有节点的状态数据整合到一个中心节点，形成一个全局状态数据集，包括：

8、将所述节点的硬件状态数据和软件状态数据整合成一个节点的状态数据对象；建立与中心节点的网络连接，将节点状态数据通过网络连接发送到中心节点；中心节点接收并存储各个节点状态数据，对接收到的节点状态数据进行处理，包括解析数据、验证数据完整性和正确性，得到全局状态数据集；将处理后的节点状态数据存储到中心节点的数据库或存储系统中；根据存储的节点状态数据，进行节点状态的监控和分析，包括生成报表、触发警报和进行故障诊断。

9、进一步地，所述对所述全局状态数据集进行解析，动态为各节点分配计算任务，包括：

10、通过节点编号和任务编号对全局状态数据集进行索引，获取每个计算任务的任务类型、任务优先级和任务资源需求，以及每个计算节点的节点状态和节点资源情况；根据任务类型和任务优先级，确定任务调度策略，按照优先级从高到低进行任务调度；根据节点状态和节点资源情况，确定负载均衡策略，选择资源利用率最低的空闲节点进行任务分配；对于每个计算任务，根据任务资源需求和节点资源情况，判断是否有足够的计算资源可供分配；如果有足够的计算资源可供分配，则根据负载均衡策略选择一个节点进行任务分配，并更新节点的状态和资源情况；如果没有足够的计算资源可供分配，则根据任务优先级决定是否等待分配，或者选择资源利用率最低的节点进行任务迁移；分配任务后，记录任务分配方案和分配时间，并更新任务完成时间；循环执行资源分配判断和任务分配，直到所有计算任务都被分配完成。

11、进一步地，所述根据动态分配的计算任务和硬件故障模式，设计初步的容错机制，包括：

12、采用监控系统和传感器，实时监测硬件设备的状态和运行情况；当发现硬件故障时，自动触发诊断机制，通过故障模式识别和故障定位，判断故障原因，根据不同的硬件故障模式和任务要求，自动调整容错策略；暂停故障硬件上的计算任务，并基于任务的特性和其他硬件的状态，重新分配到其他硬件上执行；持续监测修复后的硬件状态，通过分析硬件参数和性能数据，判断硬件是否已恢复正常；在确认硬件恢复正常后，将之前暂停的计算任务重新分配回已修复的硬件上，任务继续执行；在任务重新开始执行时，检查任务数据的完整性，如果有丢失或损坏，根据数据备份进行恢复。

13、进一步地，所述在分布式机器学习环境中，将设计好的容错机制应用到每个节点，记录应用结果，包括：

14、在每个节点上应用容错机制，并记录容错结果；如果发生错误，记录错误的类型，所述错误的类型包括硬件故障、网络错误或数据损坏；根据错误类型，采取相应的错误处理措施；评估容错机制对系统性能的影响，并进行相应的性能优化，所述对系统性能的影响包括延迟增加和带宽利用率下降。

15、进一步地，所述分析应用容错机制后的结果数据，对数据同步策略进行相应的调整，包括：

16、分析容错机制的日志或报告，获得同步失败或延迟的情况、当前同步方式存在的问题和数据同步过程中的冲突情况；根据同步失败或延迟的频率和程度，调整数据同步的频率；如果容错机制显示数据同步的错误或冲突，则采用异步同步或增量同步；根据冲突的频率和严重程度，采用分布式锁或版本控制机制来解决数据同步过程中的冲突；重新实施数据同步策略，监控数据同步的结果，确认调整后的策略是否改善了数据同步的效果；如果仍然存在同步问题，根据监控结果再次调整同步策略；根据实际情况和反馈，定期审查和更新数据同步策略。

17、进一步地，所述通过网络通讯协议，将所有节点的容错和同步状态信息记录在一个中心节点，包括：

18、通过网络通讯协议，采用aes加密算法加强数据传输的安全性；实时更新的容错信息和同步状态被中心节点记录，根据实时更新的信息，启动系统监控机制，动态监控所有节点的运行状态；对异常行为进行实时识别和处理，维持所有节点的正常运行状态；将状态信息反馈给中心节点，通过设置具体的访问授权标准，包括ip白名单和访问频率限制，控制远程访问权限；在满足访问授权标准的前提下，远程访问请求通过中心节点获取容错和同步状态信息；中心节点根据获取到的信息，通过aes加密算法对数据进行加密传输；所有节点接收经过加密的容错和同步状态信息，完成信息的更新和验证，确保系统的整体稳定和安全。

19、本发明实施例提供的技术方案可以包括以下有益效果：

20、本发明公开了一种获取异构计算环境下的硬件规格与配置信息，并进行硬件故障模式的初步分类的方法。该方法通过网络通讯协议获取分布式机器学习环境中各节点的状态数据，包括硬件状态数据和软件状态数据，并使用数据同步策略将所有节点的状态数据整合到一个中心节点，形成一个全局状态数据集。然后，对全局状态数据集进行解析，动态为各节点分配计算任务。同时，根据动态分配的计算任务和硬件故障模式，设计初步的容错机制。在分布式机器学习环境中，将设计好的容错机制应用到每个节点，并记录应用结果。进一步，分析应用容错机制后的结果数据，对数据同步策略进行相应的调整。最后，通过网络通讯协议，将所有节点的容错和同步状态信息记录在一个中心节点。本发明将上述技术融合到一起，实现了在异构计算环境下进行硬件规格与配置信息获取、硬件故障模式分类、数据同步和计算资源分配等操作的全过程，并提供了容错机制和数据同步策略的优化方法。