技术新讯 > 计算推算,计数设备的制造及其应用技术 > 驾驶决策推理模型训练方法和装置与流程  >  正文

驾驶决策推理模型训练方法和装置与流程

  • 国知局
  • 2024-07-31 22:49:41

本公开涉及人工智能,具体为自动驾驶、大语言模型和深度学习。背景技术:::1、随着自动驾驶技术的发展,越来越多的研究投入到端到端学习的自动驾驶技术中。相比于基于规则的模块化系统,端到端学习的自动驾驶技术具有泛化性强,可基于海量数据驱动等特性。2、目前,常见的端到端学习的自动驾驶技术主要包括:3、1、注意力机制:在模型中加入注意力机制,有助于理解模型在做出决策时重点关注的输入区域。例如,在处理图像输入时,注意力机制可以突出显示模型认为最重要的图像部分。4、2、特征可视化:通过可视化技术,如梯度加权类激活映射,可以揭示决策过程中哪些特征被模型认为是重要的。这有助于分析模型依赖于哪些输入特征来做出决策。5、3、模块化模型设计:设计较为简单或结构明晰的网络,例如使用具有明确语义解释的中间层(如分割层、检测层等),可以增强模型的可解释性。6、4、后处理解释方法:应用例如lime(local interpretable model-agnosticexplanations,局部可解释模型-敏感解释)或shap(shapley additive explanations,沙普利加和解释)这样的后处理解释方法,可以帮助解释模型的单一预测结果。7、5、分层决策系统:通过将决策过程分解为多个层级,每个层级负责不同抽象级别的决策,可以提高系统的可控性。这样,高层可以基于更抽象的目标制定决策,而低层则负责具体的控制执行。8、6、模型集成与策略融合:将端到端模型与传统的基于规则或模块化的系统相结合,通过策略融合技术综合两者的决策,既保留了端到端模型的效率,又增加了系统的可控性和安全性。技术实现思路1、本公开实施例提出了一种驾驶决策推理模型训练方法、装置、设备、存储介质以及程序产品。2、第一方面,本公开实施例提出了一种驾驶决策推理模型训练方法,包括:基于样本驾驶记录数据,生成样本令牌化场景表示;基于样本驾驶记录数据,生成样本驾驶决策思考链;将样本令牌化场景表示作为输入,将样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练,得到驾驶决策推理模型。3、第二方面,本公开实施例提出了一种驾驶决策推理方法,包括:基于驾驶记录数据,生成令牌化场景表示;将令牌化场景表示和预设思考链提示输入驾驶决策推理模型,得到驾驶决策思考链,其中,驾驶决策推理模型是以基于样本驾驶记录数据生成的样本令牌化场景表示作为输入,以基于样本驾驶记录数据生成的样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练得到的。4、第三方面,本公开实施例提出了一种驾驶决策推理模型训练装置,包括:第一生成模块,被配置成基于样本驾驶记录数据,生成样本令牌化场景表示;第二生成模块,被配置成基于样本驾驶记录数据,生成样本驾驶决策思考链;模型训练模块,被配置成将样本令牌化场景表示作为输入,将样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练,得到驾驶决策推理模型。5、第四方面,本公开实施例提出了一种驾驶决策推理装置,包括:生成模块,被配置成基于驾驶记录数据,生成令牌化场景表示;推理模块,被配置成将令牌化场景表示和预设思考链提示输入驾驶决策推理模型,得到驾驶决策思考链,其中,驾驶决策推理模型是以基于样本驾驶记录数据生成的样本令牌化场景表示作为输入,以基于样本驾驶记录数据生成的样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练得到的。6、第五方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面描述的方法。7、第六方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面描述的方法。8、第七方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面描述的方法。9、本公开实施例提供了一种驾驶决策推理模型训练方法,基于大语言模型思考链的自动驾驶技术,可以让端到端自动驾驶模型输出决策的思考过程,包括对场景感知的描述,对环境未来的预测,以及当前行为决策的解释。有效解决传统端到端自动驾驶的可解释性问题,有助于系统的问题定位,并且可以通过决策指令对自动驾驶系统进行有效的干预,提升了整个端到端自动驾驶的可控性。10、本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。技术特征:1.一种驾驶决策推理模型训练方法,包括:2.根据权利要求1所述的方法,其中,所述基于样本驾驶记录数据,生成样本令牌化场景表示,包括:3.根据权利要求1所述的方法,其中,所述基于所述样本驾驶记录数据,生成样本驾驶决策思考链,包括:4.根据权利要求3所述的方法,其中,所述基于所述样本场景描述文本和所述样本驾驶决策,生成所述样本驾驶决策思考链,包括:5.根据权利要求4所述的方法,其中,所述将所述样本令牌化场景表示作为输入,将所述样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练,得到驾驶决策推理模型,包括:6.根据权利要求4所述的方法,其中,所述将所述样本令牌化场景表示作为输入,将所述样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练,得到驾驶决策推理模型,包括:7.一种驾驶决策推理方法,包括:8.根据权利要求7所述的方法,其中,所述基于驾驶记录数据,生成令牌化场景表示,包括:9.根据权利要求7所述的方法,其中,所述方法还包括:10.一种驾驶决策推理模型训练装置,包括:11.根据权利要求10所述的装置,其中,所述第一生成模块进一步被配置成:12.根据权利要求10所述的装置,其中,所述第二生成模块包括:13.根据权利要求12所述的装置,其中,所述第三生成子模块进一步被配置成:14.根据权利要求13所述的装置,其中,所述模型训练模块进一步被配置成:15.根据权利要求13所述的装置,其中,所述模型训练模块进一步被配置成:16.一种驾驶决策推理装置,包括:17.根据权利要求16所述的装置,其中,所述生成模块进一步被配置成:18.根据权利要求16所述的装置,其中,所述装置还包括:19.一种电子设备,包括:20.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6或7-9中任一项所述的方法。21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6或7-9中任一项所述的方法。技术总结本公开提供了一种驾驶决策推理模型训练方法和装置,涉及人工智能技术领域::,具体为自动驾驶、大语言模型和深度学习技术领域::。该方法的一具体实施方式包括:基于样本驾驶记录数据,生成样本令牌化场景表示;基于样本驾驶记录数据,生成样本驾驶决策思考链;将样本令牌化场景表示作为输入,将样本驾驶决策思考链作为目标输出,对第一大语言模型进行训练,得到驾驶决策推理模型。该实施方式基于大语言模型思考链的自动驾驶技术,可以让端到端自动驾驶模型输出决策的思考过程。技术研发人员:曾增烽,王凡,黄际洲,吴华受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194846.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。