技术新讯 > 休闲运动,玩具,娱乐用品的装置及其制品制造技术 > 游戏智能体的训练方法、游戏中行为的判断方法及装置与流程 > 正文

游戏智能体的训练方法、游戏中行为的判断方法及装置与流程

国知局
2024-07-11 16:09:09

本技术涉及计算机，尤其涉及一种游戏智能体的训练方法、游戏中行为的判断方法、及其装置、游戏智能体、电子设备、以及计算机可读存储介质。

背景技术：

1、游戏智能体在对称式竞技游戏中已经较为成熟，但在一对多的非对称式竞技游戏中，因游戏规则的差异，采用传统的训练方式获得的游戏智能体的拟人化程度弱，还鲜有应用。

2、目前，针对非对称式竞技游戏的游戏智能体的训练方式主要包括规则学习和强化学习两种。对于规则学习而言，由于游戏规则是游戏策划人员自行设计的，会存在漏洞，因此，基于规则学习获得的游戏智能体普遍反应强硬，无法判断玩家行为，容易被玩家识别。针对强化学习而言，由于强化学习是基于游戏智能体与环境的交互，不断优化游戏智能体的动作的训练方式，因此，基于强化学习获得的游戏智能体普遍强度过高，导致游戏智能体为了获胜采用一些非玩家的手段，容易被玩家识别。

3、因此，现有技术存在基于传统的训练方式获得的游戏智能体拟人化程度弱，容易被玩家识别的技术问题。

技术实现思路

1、本技术提供了一种游戏智能体的训练方法、游戏中行为的判断方法、及其装置、游戏智能体、电子设备、以及计算机可读存储介质，以解决现有技术存在的基于传统的训练方式获得的游戏智能体拟人化程度弱，容易被玩家识别的技术问题。

2、第一方面，本技术实施例提供了一种游戏智能体的训练方法，所述方法包括：获取当前游戏对局中每一个游戏时刻所对应的游戏数据，所述游戏数据至少包括游戏智能体和至少一个其他虚拟角色在训练场景中对战所产生的交互数据；根据所述当前游戏对局中每一个游戏时刻对应的所述游戏数据，基于预设的奖励规则，获得所述当前游戏对局对应的总奖励值，其中，所述奖励规则用于指示所述游戏智能体与所述其他虚拟角色在所述训练场景中对战时发生的交互事件可获得的奖励值；将所述当前游戏对局中每一个游戏时刻对应的所述游戏数据作为输入数据，输入待训练的策略网络中，获得所述当前游戏对局中每一个游戏时刻对应的输出数据，所述输出数据用于判断所述其他虚拟角色在所述训练场景中的转绕点行为；以所述当前游戏对局中每一个游戏时刻对应的所述输出数据作为预测值，根据所述当前游戏对局中每一个游戏时刻对应的所述预测值，生成所述当前游戏对局中每一个游戏时刻对应的真实值；根据所述当前游戏对局对应的所述总奖励值、以及所述当前游戏对局中每一个游戏时刻对应的所述预测值和所述真实值，基于梯度下降算法，对所述待训练的策略网络进行训练，获得训练后的策略网络。

3、第二方面，本技术实施例提供了一种游戏中行为的判断方法，所述方法包括：响应于第一虚拟角色在游戏场景中移动，控制游戏智能体追随所述第一虚拟角色移动，所述游戏场景中包括至少一个所述游戏智能体和至少一个所述第一虚拟角色，所述游戏智能体与所述第一虚拟角色满足预设角色关系；获取当前游戏数据，所述游戏数据至少包括所述游戏智能体和所述第一虚拟角色在所述游戏场景中的交互数据；根据所述当前游戏数据，基于预训练的策略网络，获得当前游戏时刻对应的第一参数、第二参数、以及第三参数，其中，所述预训练的策略网络为通过游戏智能体的训练方法获得的；根据所述第一参数以及预采集的历史游戏数据，确定所述当前游戏时刻下，所述游戏场景中的多个绕点区域；根据所述当前游戏时刻下的所述多个绕点区域、所述第一虚拟角色在所述游戏场景中的位置、以及所述第二参数和所述第三参数，判断所述第一虚拟角色在所述当前游戏时刻下的移动行为。

4、第三方面，本技术实施例提供了一种游戏智能体的训练装置，所述装置包括：游戏数据获取单元、奖励值获取单元、预测值获取单元、真实值获取单元、策略网络训练单元；所述游戏数据获取单元，用于获取当前游戏对局中每一个游戏时刻所对应的游戏数据，所述游戏数据至少包括游戏智能体和至少一个其他虚拟角色在训练场景中对战所产生的交互数据；所述奖励值获取单元，用于根据所述当前游戏对局中每一个游戏时刻对应的所述游戏数据，基于预设的奖励规则，获得所述当前游戏对局对应的总奖励值，其中，所述奖励规则用于指示所述游戏智能体与所述其他虚拟角色在所述训练场景中对战时发生的交互事件可获得的奖励值；所述预测值获取单元，用于将所述当前游戏对局中每一个游戏时刻对应的所述游戏数据作为输入数据，输入待训练的策略网络中，获得所述当前游戏对局中每一个游戏时刻对应的输出数据，所述输出数据用于判断所述其他虚拟角色在所述训练场景中的转绕点行为；所述真实值获取单元，用于以所述当前游戏对局中每一个游戏时刻对应的所述输出数据作为预测值，根据所述当前游戏对局中每一个游戏时刻对应的所述预测值，生成所述当前游戏对局中每一个游戏时刻对应的真实值；所述策略网络训练单元，用于根据所述当前游戏对局对应的所述总奖励值、以及所述当前游戏对局中每一个游戏时刻对应的所述预测值和所述真实值，基于梯度下降算法，对所述待训练的策略网络进行训练，获得训练后的策略网络。

5、第四方面，本技术实施例提供了一种游戏中行为的判断装置，所述装置包括：游戏智能体控制单元、游戏数据获取单元、参数获取单元、绕点区域确定单元、移动行为判断单元；所述游戏智能体控制单元，用于响应于第一虚拟角色在游戏场景中移动，控制游戏智能体追随所述第一虚拟角色移动，所述游戏场景中包括至少一个所述游戏智能体和至少一个所述第一虚拟角色，所述游戏智能体与所述第一虚拟角色满足预设角色关系；所述游戏数据获取单元，用于获取当前游戏数据，所述游戏数据至少包括所述游戏智能体和所述第一虚拟角色在所述游戏场景中的交互数据；所述参数获取单元，用于根据所述当前游戏数据，基于预训练的策略网络，获得当前游戏时刻对应的第一参数、第二参数、以及第三参数，其中，所述预训练的策略网络为通过游戏智能体的训练方法获得的；所述绕点区域确定单元，用于根据所述第一参数以及预采集的历史游戏数据，确定所述当前游戏时刻下，所述游戏场景中的多个绕点区域；所述移动行为判断单元，用于根据所述当前游戏时刻下的所述多个绕点区域、所述第一虚拟角色在所述游戏场景中的位置、以及所述第二参数和所述第三参数，判断所述第一虚拟角色在所述当前游戏时刻下的移动行为。

6、第五方面，本技术实施例提供了一种游戏智能体，包括：策略网络模块、绕点区域确定模块、转绕点行为判断模块；所述策略网络模块，用于根据当前游戏时刻对应的游戏数据，基于预训练的策略网络，获得所述当前游戏时刻对应的第一参数、第二参数、以及第三参数，其中，所述预训练的策略网络为通过游戏智能体的训练方法获得的，所述游戏数据至少包括游戏智能体和第一虚拟角色在游戏场景中对战所产生的交互数据，所述游戏场景中包括至少一个所述游戏智能体和至少一个所述第一虚拟角色，所述游戏智能体与所述第一虚拟角色满足预设角色关系；所述绕点区域确定模块，用于根据所述第一参数以及预采集的历史游戏数据，确定所述当前游戏时刻下，所述游戏场景中的多个绕点区域；所述转绕点行为判断模块，用于根据所述当前游戏时刻下的所述多个绕点区域、所述第一虚拟角色在所述游戏场景中的位置、以及所述第二参数和所述第三参数，判断所述第一虚拟角色在所述当前游戏时刻下的移动行为。

7、第六方面，本技术实施例提供了一种电子设备，包括：存储器、处理器；所述存储器，用于存储一条或多条计算机指令；所述处理器，用于执行所述一条或多条计算机指令，以实现上述方法。

8、第七方面，本技术实施例提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，该指令被处理器执行时，执行上述方法。

9、与现有技术相比，本技术提供的游戏智能体的训练方法，将游戏智能体与其他虚拟角色在训练场景中对战时所产生的交互数据作为待训练的策略网络的输入数据，将用于判断其他虚拟角色在训练场景中的转绕点行为的参数作为待训练的策略网络的输出数据，以输出数据作为预测值，根据预测值生成真实值，并将基于预设的奖励规则获得的当前游戏对局对应的总奖励值作为权重，基于总奖励值、预测值、真实值建立损失函数，采用梯度下降法，对待训练的策略网络进行迭代训练，获得训练后的策略网络。本技术提供的游戏智能体的训练方法是一种改进的强化学习方法，相较传统的强化学习方法，该方法不直接对游戏智能体的动作进行优化，而是对用于判断其他虚拟角色的转绕点行为的参数进行优化，使得游戏智能体最终具备真实玩家一样的判断能力，从而提高了游戏智能体的拟人化程度。将该游戏智能体投放在真实游戏场景中，因其拟人化程度高，克服了基于规则学习的游戏智能体存在的反应强硬，无法判断玩家行为，易被玩家识别的缺陷，以及克服了基于传统的强化学习的游戏智能体存在的强度过高，易采用非玩家手段，易被玩家识别的缺陷。因此，本技术提供的游戏智能体的训练方法能够训练出具有真实玩家的判断能力，拟人化程度更高的游戏智能体，解决了现有技术存在的基于传统的训练方式获得的游戏智能体拟人化程度弱，容易被玩家识别的技术问题。