一种基于大语言模型的食品检测数据库交互方法与流程
- 国知局
- 2024-07-31 23:09:04
本申请涉及食品检测,特别涉及一种基于大语言模型的食品检测数据库交互方法。
背景技术:
1、自然语言到sql语句转化,即text2sql,是自然语言处理的一个研究方向。其核心研究目标是将自然语言转化成专业的sql语句。在大语言模型(llm)出现之前,text2sql任务都是通过训练小模型来完成。这些小模型在定制的数据库表中需要经过大量监督训练,最终得到目标模型。
2、随着llm的出现,使得完成text2sql任务无需经过训练,仅依靠llm内部知识就可以完成。用户输入自己的数据库表模式和询问的自然语言问题,llm就可以输出对应自然语言问题的sql代码。目前,使用llm完成text2sql任务都是通过提示工程实现,具体框架如图1所示。对于mysql结构化数据库,需要专家人工设计合理的表格信息描述,该描述以自然语言形式介绍了数据库中的表、键、值。当用户使用自然语言操作数据库时,该方法将任务指令、表格信息描述、用户问题进行拼接,作为完整的prompt输入大语言模型,模型根据表格信息和用户问题生成相应的sql执行代码。此外部分研究中还使用text2sql的数据集对模型进行指令微调以提高模型在该任务方面的表现。
3、因此,由于传统的text2sql任务中需要训练小模型来完成任务,而小模型的训练需要大量人工标注数据。当数据库模式更换,例如表的字段更换、数据库更新后,就需要重新进行人工标注、训练,而且不同数据库也需要单独训练不同的小模型。如此繁琐的步骤将导致工作效率降低,人工成本增加的问题。与此同时,虽然大模型强大的推理能力可以完成上述工作,替代传统的text2sql任务。但是在食品检测领域,不同人员的知识水平参差不齐,工作内容也不尽相同,因此仅用大模型完成text2sql任务并且保持高准确率相当困难,从而影响到食品检测工业场景的实际应用效果,难以实现工业场景落地,有待改进。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种基于大语言模型的食品检测数据库交互方法,以提高模型的泛化能力从而实现工业场景落地的目的。其具体方案如下:
2、一种基于大语言模型的食品检测数据库交互方法,用于获得食品检测数据库,包括如下步骤:
3、步骤1、重构步:获得用户问题,基于语境学习与llm重写用户问题,获得规范问题格式;
4、步骤2、生成步:将规范问题作为llm的输入内容,并由llm根据规范问题答复对应的专业sql代码;
5、步骤3、执行步:食品检测数据库执行专业sql代码,并将执行结果转化成自然语言结果,输出自然语言结果。
6、优选地:所述语境学习为利用llm从输入内容中学习样本特征,并完成相应的任务。
7、优选地:所述llm重写用户的问题基于思维链提示与指导模型并逐步重写。
8、优选地:所述思维链提示采用将问题、推理过程和标准答案进行拼接作为示例输入。
9、优选地:所述指导模型包括字段-值与单独字段,基于符号进行分隔。
10、优选地:在重构步中,将重构问题指令、表格信息描述和用户问题拼接作为llm输入内容重写用户问题,以获得规范问题格式。
11、优选地:在生成步中,将规范问题中的sql生成指令、表格信息描述和规范问题拼接作为llm输入内容答复获得专业sql代码。
12、优选地:所述llm根据规范问题答复中基于贪心解码进行解码处理,预测概率最高词汇并添加至序列中并进行后续预测。
13、通过以上方案可知,本申请提供了一种基于大语言模型的食品检测数据库交互方法,该基于大语言模型的食品检测数据库交互方法通过基于llm的推理能力在text2sql任务上直接定制小模型,从而实现人与数据库的交互并减少人工成本;同时结合由重构步、生成步和执行步组成的三步法与食品检测领域的特点,优化llm在text2sql任务中的性能,从而提高模型的泛化能力,实现工业场景落地应用的效果。
技术特征:1.一种基于大语言模型的食品检测数据库交互方法,用于获得食品检测数据库,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于大语言模型的食品检测数据库交互方法,其特征在于:所述语境学习为利用llm从输入内容中学习样本特征,并完成相应的任务。
3.根据权利要求1所述的基于大语言模型的食品检测数据库交互方法,其特征在于:所述llm重写用户的问题基于思维链提示与指导模型并逐步重写。
4.根据权利要求3所述的基于大语言模型的食品检测数据库交互方法,其特征在于:所述思维链提示采用将问题、推理过程和标准答案进行拼接作为示例输入。
5.根据权利要求3所述的基于大语言模型的食品检测数据库交互方法,其特征在于:所述指导模型包括字段-值与单独字段,基于符号进行分隔。
6.根据权利要求1所述的基于大语言模型的食品检测数据库交互方法,其特征在于:在重构步中,将重构问题指令、表格信息描述和用户问题拼接作为llm输入内容重写用户问题,以获得规范问题格式。
7.根据权利要求1所述的基于大语言模型的食品检测数据库交互方法,其特征在于:在生成步中,将规范问题中的sql生成指令、表格信息描述和规范问题拼接作为llm输入内容答复获得专业sql代码。
8.根据权利要求7所述的基于大语言模型的食品检测数据库交互方法,其特征在于:所述llm根据规范问题答复中基于贪心解码进行解码处理,预测概率最高词汇并添加至序列中并进行后续预测。
技术总结本申请公开了一种基于大语言模型的食品检测数据库交互方法,涉及食品检测技术领域,包括如下步骤:步骤1、重构步:获得用户的问题,基于语境学习与LLM重写用户的问题,获得规范问题格式;步骤2、生成步:将规范问题作为LLM的输入内容,并由LLM根据规范问题答复对应的专业SQL代码;步骤3、执行步:食品检测数据库执行专业SQL代码,并将执行结果转化成自然语言结果,输出自然语言结果。本申请具有基于LLM的推理能力在Text2SQL任务上直接定制小模型,从而实现人与数据库的交互并减少人工成本;同时结合由重构步、生成步和执行步组成的三步法与食品检测领域的特点,优化LLM在Text2SQL任务中的性能,从而提高模型的泛化能力,实现工业场景落地应用的效果。技术研发人员:齐致潇,张秀宇,王若溪,俞一炅,朱元兵受保护的技术使用者:北京信睿浩扬科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196097.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。