技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大型语言模型的自主无人车训练方法及系统  >  正文

一种基于大型语言模型的自主无人车训练方法及系统

  • 国知局
  • 2024-10-15 09:31:21

本发明属于自动驾驶和人工智能领域,涉及一种基于大型语言模型的自主无人车训练方法及系统。

背景技术:

1、强化学习作为一种关键的机器学习技术,在自动驾驶领域具有广阔的应用前景。目前,自主无人车导航面临的主要任务包括:复杂环境下的路径规划、车辆跟随等。现有的基于深度强化学习的方法虽然取得了一定进展,但在训练效率、泛化能力以及任务针对性上仍存在提升空间。

2、在强化学习中,奖励函数的设计尤为重要,其直接影响模型训练的效果,传统上,奖励函数主要依靠人工设计,难以高效适应不同驾驶场景,近年来,大型语言模型在语义理解和逻辑推理等方面取得了突破性进展,为解决上述难题带来了新思路。

技术实现思路

1、本发明的目的是针对现有技术中存在的上述问题,提供了一种基于大型语言模型的自主无人车训练方法及系统,来解决现有技术中奖励函数设计效率低且难以适应不同场景的问题。

2、本发明的目的可通过下列技术方案来实现:一种基于大型语言模型的自主无人车训练方法,其特征在于,包括以下步骤:

3、步骤1:将无人车自动驾驶任务的环境参数和任务描述输入预训练的大型语言模型,生成针对该任务的奖励函数;

4、步骤2:利用进化算法对语言模型生成的奖励函数进行优化,并结合人类反馈不断迭代更新;

5、步骤3:将优化后的奖励函数输入深度强化学习算法,在高度仿真的虚拟环境中训练无人车的驾驶策略;

6、步骤4:在真实或仿真道路环境中评估策略性能,根据评估结果反馈至语言模型和强化学习模块,形成闭环优化。

7、在上述一种基于大型语言模型的自主无人车训练方法中,,所述大型语言模型采用transformer先进神经网络架构形式,并通过海量文本语料的预训练,使其具备从复杂任务描述中提炼关键信息的能力。

8、在上述一种基于大型语言模型的自主无人车训练方法中,上述步骤2中对语言模型生成的奖励函数的优化通过进化算法实现,所述算法从多个候选奖励函数出发,经交叉变异等操作迭代搜索,择优筛选出更符合任务需求的奖励函数。

9、在上述一种基于大型语言模型的自主无人车训练方法中,所述步骤3中采用的深度强化学习算法优选为ppo算法,该算法具有样本利用率高、超参数敏感度低等优势。

10、一种基于大型语言模型的自主无人车训练系统,其特征在于,包括用户界面模块、语言模型生成模块、进化搜索模块、强化学习模块和策略评估模块;

11、所述用户界面模块用于接收用户以自然语言形式输入的驾驶任务描述,并传递人类专家对奖励函数的评价意见;

12、所述语言模型生成模块为内置预训练的大型语言模型,并能根据驾驶任务描述自动生成奖励函数;

13、所述进化搜索模块利用进化算法从语言生成模型模块输出的候选奖励函数中进行优选,并结合人类反馈对候选奖励函数进行打分排序;

14、所述强化学习模用于主流强化学习算法在仿真环境中训练无人车驾驶策略学习;

15、所述策略评估模块用于在不同难度评估环境中测试策略性能,产生对奖励函数和策略参数的优化信号。

16、与现有技术相比,本基于大型语言模型的自主无人车训练方法及系统具有以下优点:

17、1、利用大型语言模型自动映射任务描述至奖励函数,避免了人工设计的繁琐和偏差;

18、2、融合进化算法和人类反馈动态优化奖励函数,提升了奖励塑造的智能化水平和效率;

19、3、基于高仿真环境的端到端闭环训练,使策略能充分理解和适应复杂路况;

20、4、机器自动化和人机交互结合,在降低人工参与度的同时保留了顶层指导和评估。

技术特征:

1.一种基于大型语言模型的自主无人车训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于大型语言模型的自主无人车训练方法,其特征在于,所述大型语言模型采用transformer先进神经网络架构形式,并通过海量文本语料的预训练,使其具备从复杂任务描述中提炼关键信息的能力。

3.根据权利要求1所述一种基于大型语言模型的自主无人车训练方法,其特征在于,上述步骤2中对语言模型生成的奖励函数的优化通过进化算法实现,所述算法从多个候选奖励函数出发,经交叉变异等操作迭代搜索,择优筛选出更符合任务需求的奖励函数。

4.根据权利要求1所述一种基于大型语言模型的自主无人车训练方法,其特征在于,所述步骤3中采用的深度强化学习算法优选为ppo算法,该算法具有样本利用率高、超参数敏感度低等优势。

5.一种基于大型语言模型的自主无人车训练系统,其特征在于,包括用户界面模块、语言模型生成模块、进化搜索模块、强化学习模块和策略评估模块;

技术总结本发明提供了一种基于大型语言模型的自主无人车训练方法及系统,属于自动驾驶和人工智能领域。它解决了技术中奖励函数设计效率低且难以适应不同场景的问题。本基于大型语言模型的自主无人车训练方法及系统验证了所提出的无人车自主训练框架的性能,实验结果表明,利用本发明生成的奖励函数训练得到的驾驶策略,在路径规划成功率、行驶效率以及车距保持稳定性等指标上均优于人工设计的奖励函数。同时,本发明训练得到的策略展现出了良好的泛化能力,在不同评估环境下仍能保持稳健表现。本发明训练得到的策略展现出了良好的泛化能力,在不同评估环境下仍能保持稳健表现。技术研发人员:陈鹏展,官勇,李宁,张勇超,劳立明,郑宣受保护的技术使用者:台州学院技术研发日:技术公布日:2024/10/10

本文地址:https://www.jishuxx.com/zhuanli/20241015/314425.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。