技术新讯 > 计算推算,计数设备的制造及其应用技术 > 芯片布局模型训练及运用方法、装置、电子设备及存储介质与流程 > 正文

芯片布局模型训练及运用方法、装置、电子设备及存储介质与流程

国知局
2024-07-31 22:35:41

本发明涉及人工智能，尤其涉及一种芯片布局模型训练及运用方法、装置、电子设备及存储介质。

背景技术：

1、在模拟芯片设计的过程中，模拟芯片布局是一个至关重要的环节。同时，由于模拟芯片布局十分复杂，往往会使用各种自动化布局工具和算法来完成。

2、目前，强化学习算法是一种常用来进行模拟芯片布局的算法。基于强化学习算法构建芯片布局模型后，在训练模型时，则将芯片的一个或多个器件视为一个智能体，为每个智能体配置单独的策略网络。

3、然而，由于芯片布局模型中的策略网络与智能体一一对应，那么训练完成的模型在应用时，只能适用于器件数量与策略网络数量相同的芯片布局。例如，具有20个策略网络的芯片布局模型只能用于布局具有20个器件的芯片。因此，在基于强化学习算法构建并训练芯片布局模型时，若是为每个智能体配置单独的策略网络，就会出现模型泛化性能较差的问题。

技术实现思路

1、本发明提供一种芯片布局模型训练及运用方法、装置、电子设备及存储介质，用以解决现有技术中为每个智能体配置单独策略网络导致模型泛化性能较差的缺陷。

2、本发明提供一种芯片布局模型训练方法，包括：

3、确定对模拟芯片样本的所有智能体进行排序后得到的智能体序列，所述智能体对应所述模拟芯片样本上的一个器件；

4、将所述智能体序列中的第一个智能体作为目标智能体，基于所有智能体在当前时刻的状态信息，控制所述目标智能体执行预测动作以获取执行信息；

5、将所述智能体序列中位于所述目标智能体的下一智能体作为新的目标智能体，以控制新的目标智能体执行新的预测动作，获取新的执行信息；

6、遍历所述智能体序列，以获取每个智能体执行所述预测动作后的执行信息；

7、基于所有所述执行信息，计算所述芯片布局模型的策略网络损失函数值和价值网络损失函数值，以对所述芯片布局模型中策略网络和价值网络的结构参数进行更新。

8、根据本发明提供的一种芯片布局模型训练方法，所述将所述智能体序列中的第一个智能体作为目标智能体，基于所有智能体在当前时刻的状态信息，控制所述目标智能体执行预测动作以获取执行信息，包括：

9、获取所述模拟芯片样本的样本器件信息，以定义所述芯片布局模型的初始环境布局和智能体的初始状态；

10、基于初始环境布局信息和所有智能体在当前时刻的状态信息，得到第一融合向量；

11、将所述第一融合向量输入至策略网络，得到所述策略网络输出的动作向量，所述动作向量包括所述预测动作的运动方向和运动速度；

12、将所述动作向量和所述第一融合向量输入至价值网络，得到所述价值网络输出的价值结果；

13、控制所述目标智能体执行所述预测动作以获取执行信息；

14、所述执行信息包括所述第一融合向量、第二融合向量、当前状态向量、预测状态向量、评估函数值和所述动作向量。

15、根据本发明提供的一种芯片布局模型训练方法，所述基于初始环境布局信息和所有智能体在当前时刻的状态信息，得到第一融合向量，包括：

16、根据所有智能体在当前时刻的状态信息，构建观测向量；所述状态信息包括所有智能体在当前时刻的位置信息、距离信息、重叠面积信息和可布线性预测信息；

17、根据所述初始环境布局信息，构建环境向量；所述初始环境布局信息包括所有智能体对应的所有器件的连接关系信息、尺寸信息和边界信息；

18、将所述观测向量输入至编码器，得到所述编码器输出的观测特征向量；

19、将所述环境向量输入至卷积神经网络，得到所述卷积神经网络输出的环境特征向量；

20、融合所述环境特征向量和所述观测特征向量，得到所述第一融合向量。

21、根据本发明提供的一种芯片布局模型训练方法，所述评估函数值是在所述目标智能体在下一时刻执行所述预测动作之后，基于所有智能体对应的器件与具有重叠关系的智能体对应的器件之间的重叠面积、所有智能体对应的器件与具有对称关系的智能体对应的器件之间的对称性评估值、所有智能体对应的所有器件的可布线性预测值、所述所有器件在布线时的标准化总线长和标准化面积利用率综合确定。

22、根据本发明提供的一种芯片布局模型训练方法，所述评估函数值的表达式如下：

23、；

24、其中，是目标智能体的评估函数值，是任一智能体对应的器件与具有重叠关系的智能体对应的器件之间的重叠面积，是任一智能体对应的器件与具有对称关系的智能体对应的器件之间的对称性评估值，是所有智能体对应的所有器件的可布线性预测值，是任一智能体对应的器件在布线时的标准化总线长，是所有智能体对应的所有器件在布线时的标准化面积利用率。

25、根据本发明提供的一种芯片布局模型训练方法，对于任一智能体，所述智能体对应的器件与具有重叠关系的另一智能体对应的器件之间的重叠面积是基于以下步骤确定的：

26、确定具有重叠关系的两个或两个以上器件之间的重叠区域，并拟合所述重叠区域的最小外接矩形；

27、将所述重叠区域中不位于所述最小外接矩形的边长上，且距离所述最小外接矩形的任一边长最近的顶点作为中心点；

28、连接所述中心点与所述重叠区域的每一个顶点，以将所述重叠区域划分为若干个三角形；

29、将若干个三角形的面积之和作为所述重叠面积。

30、根据本发明提供的一种芯片布局模型训练方法，所述策略网络的损失函数的表达式如下：

31、；

32、；

33、其中，表示批量大小，表示智能体数量，表示第条轨迹中第个智能体的当前策略结果与第条轨迹中第个智能体的旧策略结果的概率比值，表示第条轨迹中第个智能体计算得到的广义优势估计，表示第条轨迹中第个智能体的所述第一融合向量，表示第条轨迹中第个智能体的所述动作向量，表示当前时刻的策略网络的结构参数，表示上一时刻的策略网络的结构参数，表示策略熵，表示熵系数超参数；

34、所述价值网络的损失函数的表达式如下所示：

35、；

36、其中，表示批量大小，表示智能体数量，表示第条轨迹中第个智能体的状态向量，表示折扣后的剩余奖励，表示当前时刻的价值网络的结构参数，表示上一时刻的价值网络的结构参数。

37、根据本发明提供的一种芯片布局模型训练方法，在根据所述策略网络损失函数值对所述策略网络的结构参数进行更新的情况下，将所述价值网络的结构参数设置为不可修改；

38、在根据所述价值网络损失函数值对所述价值网络的结构参数进行更新的情况下，将所述策略网络的结构参数设置为不可修改。

39、本发明还提供一种芯片布局模型运用方法，包括：

40、基于待布局芯片的器件信息，初始化芯片布局模型的初始环境布局和智能体的初始状态；所述智能体对应所述待布局芯片上的一个器件；

41、基于初始环境布局信息和每个智能体的初始状态信息，得到每个智能体的融合向量；

42、将每个智能体的融合向量输入至所述芯片布局模型，得到所述芯片布局模型输出每个智能体对应的最终状态；所述芯片布局模型是基于上述任一种所述芯片布局模型训练方法训练得到的；

43、根据每个智能体的所述最终状态，确定每个智能体对应的器件的布局位置。

44、本发明还提供一种芯片布局模型训练装置，包括：

45、智能体序列获取模块，用于确定对模拟芯片样本的所有智能体进行排序后得到的智能体序列，所述智能体对应所述模拟芯片样本上的一个器件；

46、目标智能体动作执行模块，用于将所述智能体序列中的第一个智能体作为目标智能体，基于所有智能体在当前时刻的状态信息，控制所述目标智能体执行预测动作以获取执行信息；

47、目标智能体重确定模块，用于将所述智能体序列中位于所述目标智能体的下一智能体作为新的目标智能体，以控制新的目标智能体执行新的预测动作，获取新的执行信息；

48、遍历执行模块，用于遍历所述智能体序列，以获取每个智能体执行所述预测动作后的执行信息；

49、网络参数更新模块，用于基于所有所述执行信息，计算所述芯片布局模型的策略网络损失函数值和价值网络损失函数值，以对所述芯片布局模型中策略网络和价值网络的结构参数进行更新。

50、本发明还提供一种芯片布局模型运用装置，包括：

51、模型初始化模块，用于基于待布局芯片的器件信息，初始化芯片布局模型的初始环境布局和智能体的初始状态；所述智能体对应所述待布局芯片上的一个器件；

52、融合向量获取模块，用于基于初始环境布局信息和每个智能体的初始状态信息，得到每个智能体的融合向量；

53、状态计算模块，用于将每个智能体的融合向量输入至所述芯片布局模型，得到所述芯片布局模型输出每个智能体对应的最终状态；所述芯片布局模型是基于上述任一种所述芯片布局模型训练方法训练得到的；

54、位置确定模块，用于根据每个智能体的所述最终状态，确定每个智能体对应的器件的布局位置。

55、本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述芯片布局模型训练方法，或实现如上述所述芯片布局模型运用方法。

56、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述芯片布局模型训练方法，或实现如上述所述芯片布局模型运用方法。

57、本发明提供的芯片布局模型训练及运用方法、装置、电子设备及存储介质，在芯片布局模型仅设置一个策略网络和价值网络的情况下，按顺序控制智能体执行预测动作，在所有智能体均执行一次预测动作之后，依据每次执行预测动作获取的所有执行信息更新模型结构参数，使得训练完成的芯片布局模型能够适用于器件数量各不相同的芯片布局，提高了模型泛化性能。