技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于智能体的决策方法、装置和设备与流程 > 正文

一种基于智能体的决策方法、装置和设备与流程

国知局
2024-08-30 15:05:16

本技术涉及智能体，尤其涉及一种基于智能体的决策方法、装置和设备。

背景技术：

1、智能体决策是指利用人工智能技术和算法来帮助系统或机器在面对不同情况时做出最佳选择的过程。在传统的智能体决策中，智能体在观测第一状态后，预测对应的第一动作；并执行第一动作后到达第二状态，观测并重复上述预测和执行步骤。智能体只能基于当前状态思考下一步动作，缺少对未来状态变化的理解，导致决策的准确度较低。

2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、有鉴于此，本技术实施例提供了一种基于智能体的决策方法、装置和设备，旨在解决决策准确度较低的问题。

2、第一方面，本技术实施例提供了一种基于智能体的决策方法，所述方法包括：

3、获取用户的操作指令，所述操作指令用于指示操作决策场景达到目标状态；

4、根据所述操作指令对所述决策场景进行智能体决策；所述智能体决策包括获取所述决策场景的第一状态，将所述第一状态和所述操作指令作为第一智能体的输入，得到第一动作状态序列，将所述第一动作状态序列和所述第一状态作为第二智能体的输入，得到第一动作，在所述决策场景执行所述第一动作；所述第一状态为所述决策场景的当前状态；所述第一动作状态序列用于描述基于所述第一状态预测得到的连续多步的动作以及状态；所述第一动作状态序列中的最终状态为所述目标状态；

5、若所述决策场景的第二状态为所述目标状态，则向用户展示所述决策场景的目标状态；所述第二状态为在所述决策场景执行所述第一动作后所述决策场景的状态；

6、若所述决策场景的所述第二状态为所述目标状态以外的状态，则再次进行智能体决策，直至所述第二状态为所述目标状态，并向用户展示所述决策场景的目标状态。

7、在一种可能的实现方式中，所述若所述决策场景的所述第二状态为所述目标状态以外的状态，则再次进行智能体决策，包括：

8、获取所述决策场景的第二状态，所述决策场景的当前状态为所述第二状态；

9、将所述第二状态和所述第一动作状态序列作为所述第一智能体的输入，得到第二动作状态序列；

10、将所述第二动作状态序列和所述第二状态输入所述第二智能体进行决策，得到第二动作；

11、在所述决策场景执行所述第二动作。

12、在一种可能的实现方式中，所述第一动作状态序列包括多组动作与状态的对应关系，所述多组动作与状态的对应关系包括第一对应关系组和第二对应关系组，所述第一关系组包括所述第一状态和所述第一动作，所述第二关系组包括所述第二状态和第二动作，所述第二动作为根据所述第二状态预测执行的动作。

13、在一种可能的实现方式中，所述第一动作状态序列包括多组动作与状态的对应关系，所述多组动作与状态的对应关系包括第一对应关系组和第二对应关系组，所述第一关系组包括所述第一动作和所述第二状态，所述第二关系组包括第二动作和第三状态，所述第二动作为根据所述第二状态预测执行的动作，所述第三状态为在所述决策场景执行所述第二动作预测得到的状态。

14、在一种可能的实现方式中，所述根据所述操作指令对所述决策场景进行智能体决策，包括：

15、将所述操作指令作为决策模型的输入，利用所述决策模型对所述决策场景进行操作；所述决策模型包括所述第一智能体和所述第二智能体。

16、在一种可能的实现方式中，所述第一智能体的训练过程为：

17、根据所述决策场景的多种状态、动作状态的对应关系和动作状态样本序列对待训练智能体进行训练，得到所述第一智能体；所述动作状态样本序列包括连续的多组动作与状态的对应关系。

18、在一种可能的实现方式中，所述第二智能体的训练过程为：

19、根据所述决策场景的状态、执行的动作以及动作与状态的对应关系对待训练智能体进行训练，得到所述第二智能体。

20、在一种可能的实现方式中，所述决策场景为网页导航场景或具身机器人。

21、第二方面，本技术实施例提供了一种基于智能体的决策装置，所述装置包括：

22、获取模块，用于获取用户的操作指令，所述操作指令用于指示操作决策场景达到目标状态；

23、决策模块，用于根据所述操作指令对所述决策场景进行智能体决策；所述智能体决策包括获取所述决策场景的第一状态，将所述第一状态和所述操作指令作为第一智能体的输入，得到第一动作状态序列，将所述第一动作状态序列和所述第一状态作为第二智能体的输入，得到第一动作，在所述决策场景执行所述第一动作；所述第一状态为所述决策场景的当前状态；所述第一动作状态序列用于描述基于所述第一状态预测得到的连续多步的动作以及状态；

24、展示模块，用于若所述决策场景的第二状态为所述目标状态，则向用户展示所述决策场景的目标状态；所述第二状态为在所述决策场景执行所述第一动作后所述决策场景的状态；用于若所述决策场景的所述第二状态为所述目标状态以外的状态，则通过所述决策模块再次进行智能体决策，直至所述第二状态为所述目标状态，并向用户展示所述决策场景的目标状态。

25、在一种可能的实现方式中，若所述决策场景的所述第二状态为所述目标状态以外的状态，所述决策模块具体用于：

26、获取所述决策场景的第二状态，所述决策场景的当前状态为所述第二状态；

27、将所述第二状态和所述第一动作状态序列作为所述第一智能体的输入，得到第二动作状态序列；

28、将所述第二动作状态序列和所述第二状态输入所述第二智能体进行决策，得到第二动作；

29、在所述决策场景执行所述第二动作。

30、在一种可能的实现方式中，所述第一动作状态序列包括多组动作与状态的对应关系，所述多组动作与状态的对应关系包括第一对应关系组和第二对应关系组，所述第一关系组包括所述第一状态和所述第一动作，所述第二关系组包括所述第二状态和第二动作，所述第二动作为根据所述第二状态预测执行的动作。

31、在一种可能的实现方式中，所述第一动作状态序列包括多组动作与状态的对应关系，所述多组动作与状态的对应关系包括第一对应关系组和第二对应关系组，所述第一关系组包括所述第一动作和所述第二状态，所述第二关系组包括第二动作和第三状态，所述第二动作为根据所述第二状态预测执行的动作，所述第三状态为在所述决策场景执行所述第二动作预测得到的状态。

32、在一种可能的实现方式中，所述决策模块，具体用于将所述操作指令作为决策模型的输入，利用所述决策模型对所述决策场景进行操作；所述决策模型包括所述第一智能体和所述第二智能体。

33、在一种可能的实现方式中，所述第一智能体的训练过程为：

34、根据所述决策场景的多种状态、动作状态的对应关系和动作状态样本序列对待训练智能体进行训练，得到所述第一智能体；所述动作状态样本序列包括连续的多组动作与状态的对应关系。

35、在一种可能的实现方式中，所述第二智能体的训练过程为：

36、根据所述决策场景的状态、执行的动作以及动作与状态的对应关系对待训练智能体进行训练，得到所述第二智能体。

37、在一种可能的实现方式中，所述决策场景为网页导航场景或具身机器人。

38、第三方面，本技术实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面中任一项所述的基于智能体的决策方法。

39、第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面中任一项所述的基于智能体的决策方法。

40、本技术实施例提供了一种基于智能体的决策方法、装置和设备。在执行所述方法时，先获取用户的操作指令；然后根据所述操作指令对所述决策场景进行智能体决策；最后，根据决策场景的状态判断是否继续进行智能体决策，直至决策场景的状态满足操作指令所指示的状态。在本技术实施例中，智能体决策可以预测连续多步的动作和状态序列，使智能体可以更好地规划未来的动作，而不仅仅是基于当前状态做出单一的决策。帮助智能体更好地理解整个决策过程，提高长远规划的能力。并且，在执行动作后，智能体可以通过观察实际达到的状态与目标状态之间的差距来获取反馈，进而修正调整智能体的决策，使其更适应当前场景，以实现更好的决策结果，提高决策的准确度。