技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于强化学习的高风险测试场景自适应生成方法 > 正文

一种基于强化学习的高风险测试场景自适应生成方法

国知局
2024-07-31 22:54:08

本发明涉及船舶智能航行测试，具体而言，尤其涉及一种基于强化学习的高风险测试场景自适应生成方法。

背景技术：

1、现阶段国内外关于船舶自主避碰决策算法测试的研究较少，大多是专家经验枚举法和随机采样技术法。然而，根据专家经验枚举构建出的典型测试场景数量有限。随机采样技术法虽然可以弥补该缺陷，但缺点是搜索空间巨大，参数组合的过程中可能存在大量不符合实际的场景或大量相似的低风险场景，这使得测试效率降低。二者均无法满足大规模、高覆盖度、高精准度的需求，所以在某种意义上尽可能多地收集、自动生成探测系统极限能力边界的小概率、高风险场景往往更具有测试价值。同时，场景是整个虚拟仿真测试的核心组成部分之一，测试高风险场景意味着探索系统性能的潜在风险和挑战，这对于确保高等级的自主避碰决策系统的安全性至关重要。

2、有鉴于此，本发明提出一种基于强化学习的高风险测试场景自适应生成方法。

技术实现思路

1、根据上述提出的不足，而提供一种基于强化学习的高风险测试场景自适应生成方法。本发明主要基于强化学习理论构建测试框架，建立异构多智能体系统测试环境，应用independence d3qn(independence dueling double deep q network，独立竞争双重深度q网络)算法求解或搜索具有较高测试价值的高风险场景，增加了测试场景的多样性，从而有助于找到被测算法可能存在的缺点和不足之处。

2、本发明采用的技术手段如下：

3、本发明提供了一种基于强化学习的高风险测试场景自适应生成方法，包括：

4、构建马尔科夫决策模型；

5、基于所述马尔科夫决策模型构建异构多智能体系统测试环境，包括：提供一个被测船舶和至少一个干扰船舶，所述被测船舶和所述干扰船舶均为智能体，所述被测船舶加载船舶自主避碰决策算法，所述干扰船舶导入independence d3qn算法；

6、确定所述被测船舶和所述干扰船舶的航行信息；

7、高风险测试场景自适应生成，包括：所述被测船舶和所述干扰船舶分别根据各自的航行信息航行；当所述被测船舶和所述干扰船舶之间的距离小于预设距离时，所述被测船舶根据所述船舶自主避碰决策算法采取避让行为，所述干扰船舶根据所述independenced3qn算法向所述被测船舶靠近施加压力，生成高风险测试场景；当所述被测船舶和所述干扰船舶发生碰撞或到达目的地时测试结束，得到所述被测船舶和所述干扰船舶的航行轨迹。

8、优选地，所述马尔科夫决策模型的参数，包括：

9、环境状态的有限集s，包括当前环境状态s，所述当前环境状态s包括船舶、动态障碍物和静态障碍物；

10、智能体观测状态集o，包括所述智能体在t时刻时，在环境中获取的观测状态ot；

11、智能体动作空间集a，包括所述智能体在所述t时刻执行的动作at，由策略函数生成；

12、状态转移函数p，为所述智能体在所述t时刻执行所述动作at后，状态由所述当前环境状态s转移至s'的概率；

13、奖励函数r，包括所述智能体在所述t时刻从所述环境中获得的奖励；

14、对未来奖励的衰减值γ；

15、所述智能体的学习效率α。

16、优选地，所述奖励函数r，包括碰撞奖励、未碰撞奖励、警告奖励、出界奖励、船舶施压奖励和其他奖励；

17、所述碰撞奖励包括：若所述被测船舶与所述干扰船舶的距离小于等于船间安全距离，则判定所述被测船舶和所述干扰船舶发生碰撞，所述干扰船舶从所述环境中获取第一正值的奖励；

18、所述未碰撞奖励包括：若所述被测船舶与所述干扰船舶的距离大于所述船间安全距离，所述干扰船舶从所述环境中获取第一负值的奖励，所述第一负值的绝对值等于所述第一正值的绝对值；

19、所述警告奖励包括：以所述被测船舶为中心，以碰撞危险距离为半径构成碰撞危险区，若所述干扰船舶位于所述碰撞危险区，所述干扰船舶从所述环境中获取第二正值的奖励，所述第二正值的绝对值小于所述第一正值的绝对值；

20、所述出界奖励包括：若所述干扰船舶驶出计划航行海域，所述干扰船舶从所述环境获取第二负值的奖励，所述第二负值的绝对值等于所述第二正值的绝对值；

21、所述船舶施压奖励包括：所述干扰船舶根据所述被测船舶与所述干扰船舶的距离从所述环境获取奖励；

22、所述其他奖励包括：若所述干扰船舶未获得所述碰撞奖励、所述未碰撞奖励、所述警告奖励、所述出界奖励或所述船舶施压奖励，所述干扰船舶从所述环境中获取的奖励为0。

23、优选地，所述干扰船舶根据所述被测船舶与所述干扰船舶的距离从所述环境获取奖励，按照以下方式计算：

24、

25、其中，r'为所述船舶施压奖励，r为所述被测船舶与所述干扰船舶的距离。

26、优选地，所述环境状态的有限集s按照以下方式表达：

27、

28、其中，ψn为船舶航向，vn为船舶航速，xn和yn为船舶经纬度，n为所述环境中目标的数量。

29、优选地，所述智能体观测状态集o中观测状态的变化，包括：

30、在所述t时刻，若所述智能体的预测碰撞危险区域不在视场范围内，所述智能体在所述t时刻时，在环境中获取的观测状态ot＝0；

31、在所述t时刻，若所述智能体的所述预测碰撞危险区域与所述视场范围有交叉，所述智能体在所述t时刻时，在环境中获取的观测状态ot＝1。

32、优选地，所述干扰船舶根据所述independence d3qn算法向所述被测船舶靠近施加压力，包括：

33、根据所述马尔科夫决策模型的参数，采用贪心搜索选择t时刻的最优动作；

34、所述马尔科夫决策模型的参数，采用神经网络估计所述t时刻的所述最优动作的价值；

35、所述环境根据所述t时刻的所述最优动作给予t时刻奖励rt，并更新t+1时刻的状态st+1；

36、对dueling dqn算法融入double dqn算法思想减轻dqn过高估计q值偏差的操作，计算所述t时刻的目标值yt；

37、所述干扰船舶根据所述t时刻的目标值yt调节所述干扰船舶在所述t+1时刻的动作at+1。

38、优选地，所述dueling dqn算法，按照以下方式计算：

39、

40、其中，v为价值函数，a为优势函数，θ为q网络参数，β为所述价值函数的网络参数，α为所述优势函数的网络参数。

41、优选地，所述对dueling dqn算法融入double dqn算法思想减轻dqn过高估计q值偏差的操作，按照以下方式计算：

42、yt＝rt+1+γq(st+1，argmaxaq(st+1，a；we)；wt)

43、其中，γ为未来奖励的衰减值，we为评估网络的参数，wt为目标网络的参数。

44、较现有技术相比，本发明具有以下优点：

45、1、本发明提供的一种基于强化学习的高风险测试场景自适应生成方法，通过基于强化学习理论构建测试框架，建立异构多智能体系统测试环境，应用independence d3qn(independence dueling double deep q network，独立竞争双重深度q网络)算法求解或搜索具有较高测试价值的高风险场景，增加了测试场景的多样性，减少人工设计测试场景的工作量和时间消耗，有助于找到被测算法可能存在的缺点和不足之处。

46、2、本发明提供的一种基于强化学习的高风险测试场景自适应生成方法，基于强化学习理论构建测试框架，将待解决问题描述为马尔科夫决策过程，并通过神经网络学习优化决策策略，这种方法可以在处理决策问题的动态过程中解决复杂性和不确定性。同时，通过综合考虑全局因素设置合适的场景生成模型奖励机制，可以根据被测船舶的算法表现行为，“积极但不极端”地向其施加压力，从而生成高风险测试场景，增大了测试场景的多样性，使测试结果更加真实可靠。

47、3、本发明提供的一种基于强化学习的高风险测试场景自适应生成方法，将测试流程分解为多个独立的功能模块，并为被测对象提供稳定的测试环境，实现了测试流程的标准化。通过将测试程序集成为“黑箱”，搭建一个具有高度集成性和保护性的测试平台，可以对测试结果进行分析和评估。这样的标准化测试流程有助于提高整体测试效率，减少测试过程中的误差和干扰因素。

48、4、本发明提供的一种基于强化学习的高风险测试场景自适应生成方法，提升了测试效率，提高了测试结果的可信度，并实现了测试流程的标准化，为船舶智能航行系统的安全性和可靠性提供了一种研究思路。