技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于强化学习的智能仿真交互系统和方法、设备、介质与流程  >  正文

基于强化学习的智能仿真交互系统和方法、设备、介质与流程

  • 国知局
  • 2024-07-31 23:20:29

本技术涉及强化学习,尤其涉及一种基于强化学习的智能仿真交互系统和方法、设备、介质。

背景技术:

1、强化学习是让智能体(agent)通过与环境的交互学习如何做出决策,以达到最大化预期奖励的目标。强化学习常用于需要连续决策和反馈的任务领域,如无人机对抗、自动驾驶、机器人控制等领域。强化学习中,智能体通过与环境互动的过程来学习最优的决策策略,从而实现特定的目标。由于智能体与真实环境的交互存在大量的试错行为,导致在真实环境中的训练消耗较大,因此,通常会利用一个仿真应用系统为智能体提供一个安全可控的训练环境,以帮助智能体加速其学习的过程。

2、然而,由于强化学习算法的发展与仿真应用系统的开发并不同步,使得强化学习算法无法直接与现有的仿真软件系统进行有效的交互,导致训练过程受限,从而影响其在具体的任务领域的应用效率。为了解决该问题,相关技术通常为特定领域的强化学习定制化开发对应的仿真应用系统,以适应不同任务所需的仿真环境。但是,该方法会大大增加了仿真应用软件开发的复杂性,且在仿真应用软件开发上的资源消耗较大。因此,如何提供一种基于强化学习的智能仿真交互系统,能够适应不同任务所需的仿真环境,避免在仿真应用系统开发上的较大资源消耗,从而提高强化学习在不同任务领域的应用效率,成为了亟待解决的技术问题。

技术实现思路

1、本技术实施例的主要目的在于提出了一种基于强化学习的智能仿真交互系统和方法、设备、介质,能够适应不同任务所需的仿真环境,避免在仿真应用软件开发上的较大资源消耗,提高强化学习在不同任务领域的应用效率,从而提高强化学习在不同任务领域仿真交互的适用性。

2、为实现上述目的,本技术实施例的第一方面提出了一种基于强化学习的智能仿真交互系统,所述系统包括交互式客户端、任务仿真模块和目标决策平台,所述目标决策平台包括强化学习算法模块和环境交互模块,所述强化学习算法模块与所述交互式客户端通信连接,所述环境交互模块分别与所述交互式客户端和所述任务仿真模块通信连接;

3、所述交互式客户端,用于向所述强化学习算法模块发送目标任务的算法配置信息,并向所述环境交互模块发送所述目标任务的环境配置信息;其中,所述环境配置信息包括任务智能体属性信息、初始智能体行动信息和任务目标信息,所述任务目标信息用于指示完成所述目标任务时的智能体目标状态信息;

4、所述任务仿真模块,用于根据接收到的所述任务智能体属性信息和初始智能体行动信息在仿真环境进行实物映射,确定所述目标任务在所述仿真环境的多个目标智能体实物;所述任务仿真模块还用于获取每个所述目标智能体实物在仿真环境中实时行动后的信息,得到候选环境态势数据,并将所述候选环境态势数据发送到所述环境交互模块;

5、所述环境交互模块,用于根据所述候选环境态势数据与所述任务目标信息进行智能体状态比对,得到状态比对结果;若所述状态比对结果表示所述候选环境态势数据对应的多个所述目标智能体实物的状态信息不符合所述智能体目标状态信息,将所述候选环境态势数据发送到所述强化学习算法模块;

6、所述强化学习算法模块,用于从所述环境交互模块获取所述环境配置信息和所述候选环境态势数据;所述强化学习算法模块还用于根据所述任务目标信息和所述候选环境态势数据对多个所述目标智能体实物进行行动决策,得到智能体决策数据,并将所述智能体决策数据发送到所述环境交互模块;

7、所述任务仿真模块还用于根据所述智能体决策数据对所述仿真环境的多个所述目标智能体实物进行智能体行动调整,得到调整后环境态势数据,并将所述调整后环境态势数据发送到所述环境交互模块再次进行智能体状态比对,以更新所述状态比对结果,直至所述状态比对结果表示所述调整后环境态势数据对应的多个所述目标智能体实物的状态信息符合所述智能体目标状态信息。

8、在一些实施例中,所述目标决策平台包括语义交互层,所述语义交互层分别与所述交互式客户端、所述强化学习算法模块和所述环境交互模块通信连接;

9、所述语义交互层,用于从所述交互式客户端接收所述算法配置信息和所述环境配置信息,所述算法配置信息包括强化学习场景的场景配置信息,所述场景配置信息用于指导所述强化学习算法模块根据所述任务目标信息和实时接收到的环境态势数据对多个所述目标智能体实物进行行动决策;

10、所述语义交互层,还用于在所述候选环境态势数据不包含任务奖励子数据时,从所述交互式客户端接收与所述任务目标信息相关的目标自定义函数,并将所述目标自定义函数发送到所述强化学习算法模块,所述目标自定义函数用于根据所述候选环境态势数据进行任务奖励计算,以得到所述任务奖励子数据,所述任务奖励子数据用于生成所述智能体决策数据。

11、在一些实施例中,所述目标决策平台包括环境交互层,所述环境交互层与所述环境交互模块和所述任务仿真模块通信连接,所述环境交互层包括第一连接接口、初始化接口和交互发送接口;

12、所述第一连接接口,用于连接所述任务仿真模块;

13、所述初始化接口,用于在所述任务仿真模块完成配置输入时,对所述任务仿真模块初始化;所述初始化接口还用于在确定所述调整后环境态势数据对应的多个所述目标智能体实物的状态信息符合所述智能体目标状态信息后,还原所述任务仿真模块至启动时的初始化状态;

14、所述交互发送接口,用于调用所述任务仿真模块的交互类接口,将所述环境交互模块从所述强化学习算法模块获取的所述智能体决策数据发送到所述任务仿真模块;所述交互发送接口还用于将所述任务仿真模块调整后得到的所述调整后环境态势数据发送至所述环境交互模块。

15、在一些实施例中,所述环境交互层还包括日志管理接口和跨语言调用接口;

16、所述日志管理接口,用于记录所述任务仿真模块和所述环境交互模块之间交互的全部数据;

17、所述跨语言调用接口,用于实现与所述目标决策平台连接的不同编程语言之间的接口调用和数据交换。

18、在一些实施例中,所述目标决策平台还包括算法交互层,所述算法交互层与所述强化学习算法模块和所述环境交互模块通信连接,所述算法交互层包括第二连接接口、重置接口、获取接口;

19、所述第二连接接口,用于在强化学习训练启动前,建立所述算法交互层与所述环境交互层的通信连接;所述第二连接接口还用于调用所述第一连接接口;

20、所述重置接口,用于调用所述第一连接接口,并在确定所述调整后环境态势数据对应的多个所述目标智能体实物的状态信息符合所述智能体目标状态信息后,对所述任务仿真模块进行重置,以进行下一轮强化学习训练;

21、所述获取接口,用于获取所述强化学习算法模块输出的所述智能体决策数据,所述获取接口还用于从所述环境交互模块获取所述环境仿真模块输出的所述候选环境态势数据。

22、在一些实施例中,所述环境交互模块,用于根据所述候选环境态势数据与所述任务目标信息进行智能体状态比对,得到状态比对结果,具体包括:

23、所述环境交互模块用于从所述任务仿真模块接收所述候选环境态势数据,并将所述候选环境态势数据进行数据格式转换,得到转换后环境态势数据;

24、所述环境交互模块还用于根据所述转换后环境态势数据与所述任务目标信息进行智能体状态比对,得到所述状态比对结果。

25、在一些实施例中,在更新所述状态比对结果,直至所述状态比对结果表示所述调整后环境态势数据对应的多个所述目标智能体实物的状态信息符合所述智能体目标状态信息之后,所述环境交互模块还用于对所述环境交互模块接收的全部环境态势数据进行奖励数据提取,得到奖励数据序列;

26、所述环境交互模块还用于根据所述奖励数据序列生成奖励过程曲线,并将所述奖励过程曲线发送到所述交互式客户端。

27、为实现上述目的,本技术实施例的第二方面提出了一种基于强化学习的智能仿真交互方法,应用于本技术实施例的第一方面提出的基于强化学习的智能仿真交互系统中的目标决策平台,所述方法包括:

28、接收交互式客户端发送的目标任务的算法配置信息和环境配置信息;其中,所述环境配置信息包括任务智能体属性信息、初始智能体行动信息和任务目标信息,所述任务目标信息用于指示完成所述目标任务时的智能体目标状态信息;

29、接收任务仿真模块根据所述任务智能体属性信息和所述初始智能体行动信息发送的候选环境态势数据,所述候选环境态势数据用于表征与所述目标任务相关的每个目标智能体实物在仿真环境中实时行动后的信息;

30、根据所述候选环境态势数据与所述任务目标信息进行智能体状态比对,得到状态比对结果;

31、若所述状态比对结果表示所述候选环境态势数据对应的多个所述目标智能体实物的状态信息不符合所述智能体目标状态信息,根据所述任务目标信息和所述候选环境态势数据对多个所述目标智能体实物进行行动决策,得到智能体决策数据,并将所述智能体决策数据发送到所述任务仿真模块;

32、接收所述任务仿真模块根据所述智能体决策数据对所述仿真环境的多个所述目标智能体实物进行智能体行动调整后得到的调整后环境态势数据;

33、根据所述调整后环境态势数据与所述任务目标信息再次进行智能体状态比对,以更新所述状态比对结果,直至所述状态比对结果表示所述调整后环境态势数据对应的多个所述目标智能体实物的状态信息符合所述智能体目标状态信息。

34、为实现上述目的,本技术实施例的第三方面提出了一种计算机设备,包括:

35、至少一个存储器;

36、至少一个处理器;

37、至少一个计算机程序;

38、所述至少一个计算机程序被存储在所述至少一个存储器中,所述至少一个处理器执行所述至少一个计算机程序以实现上述第二方面所述的基于强化学习的智能仿真交互方法。

39、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述第二方面所述的基于强化学习的智能仿真交互方法。

40、本技术实施例提出的一种基于强化学习的智能仿真交互系统和方法、设备、介质,该系统包括交互式客户端、任务仿真模块和目标决策平台,该目标决策平台包括强化学习算法模块和环境交互模块,强化学习算法模块与交互式客户端通信连接,环境交互模块分别与交互式客户端和任务仿真模块通信连接。本技术能够通过设定的目标决策平台中的环境交互模块与强化学习算法模块,将环境交互模块与外部的任务仿真模块连接,实现在不同任务的仿真环境下的仿真交互。具体地,交互式客户端用于向强化学习算法模块发送目标任务的算法配置信息,并向环境交互模块发送所述目标任务的环境配置信息。其中,环境配置信息包括任务智能体属性信息、初始智能体行动信息和任务目标信息,任务目标信息用于指示完成目标任务时的智能体目标状态信息。任务仿真模块用于根据接收到的任务智能体属性信息和初始智能体行动信息在仿真环境进行实物映射,确定目标任务在所述仿真环境的多个目标智能体实物,且该任务仿真模块还用于获取每个目标智能体实物在仿真环境中实时行动后的信息,得到候选环境态势数据,并将候选环境态势数据发送到所述环境交互模块。环境交互模块用于根据候选环境态势数据与任务目标信息进行智能体状态比对,得到状态比对结果。若状态比对结果表示候选环境态势数据对应的多个目标智能体实物的状态信息不符合智能体目标状态信息,将候选环境态势数据发送到强化学习算法模块。这时,强化学习算法模块用于从环境交互模块获取环境配置信息和候选环境态势数据;所述强化学习算法模块还用于根据任务目标信息和候选环境态势数据对多个目标智能体实物进行行动决策,得到智能体决策数据,并将智能体决策数据发送到环境交互模块。然后,任务仿真模块还用于根据智能体决策数据对仿真环境的多个目标智能体实物进行智能体行动调整,得到调整后环境态势数据,并将调整后环境态势数据发送到环境交互模块再次进行智能体状态比对,以更新状态比对结果,直至状态比对结果表示调整后环境态势数据对应的多个目标智能体实物的状态信息符合智能体目标状态信息。因此,目标决策平台相当于一个中间装置,可以很好地实现不同任务仿真模块的强化学习训练,即相比于相关技术只能通过对不同定制化开发每个任务对应的仿真应用系统的方式,本技术能够适应不同任务所需的仿真环境,避免在仿真应用软件开发上的较大资源消耗,从而提高强化学习在不同任务领域的应用效率和适用性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197080.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。