技术新讯 > 计算推算,计数设备的制造及其应用技术 > 航迹领域知识库的大模型微调方法和场景适配系统与流程 > 正文

航迹领域知识库的大模型微调方法和场景适配系统与流程

国知局
2024-09-11 15:10:59

本发明属于数据管理领域，公开了一种航迹领域知识库的大模型微调方法和场景适配系统。

背景技术：

1、text-to-sql是一种自然语言处理技术，旨在将自然语言查询转换为数据库查询语言，通常是sql（structured query language）。它在数据库查询和自然语言理解之间架起了一座桥梁，使得非技术用户能够以自然语言的方式与数据库进行交互，而无需了解复杂的查询语言。在过去的几年中，text-to-sql 技术已经取得了长足的进步，得益于深度学习和自然语言处理领域的发展。传统的方法通常依赖于手工设计的规则和模板，而深度学习方法则利用神经网络模型从大量的语言-数据库配对数据中进行学习，从而能够更准确地理解自然语言查询的意图，并将其转换为等效的数据库查询语言。随着语言大模型的发展，最近依靠通用的语言大模型配合在提示(prompt)中做前置的信息输入，成为text-to-sql新的趋势。

2、但是在实际使用中存在问题，语言大模型，是通过接口的方式进行调用，调用的成本和输入的词元(token)数量相关，每一次调用都需要消耗不低的成本；传统的前置问答类型分类错误可能传递到后续的链路中导致整体判断出错，而且目前的语言大模型存在输出不稳定性，系统的结果无法保证等缺陷。

技术实现思路

1、发明目的，提供一种航迹领域知识库的大模型微调方法和场景适配系统，以解决现有技术存在的上述问题。

2、技术方案，航迹领域知识库的大模型微调方法，包括如下步骤：

3、s1、获取语音数据，对语音数据进行预处理，调用预配置的多模态语音识别模型将预处理后的语音数据转换为初始文本数据；

4、s2、构建航迹领域知识图谱，基于航迹领域知识图谱对初始文本数据进行多阶段纠错处理，得到纠错后的文本数据；对纠错后的文本数据进行后处理，包括数字识别转换和问句结构重写，生成改写后的文本数据；

5、s3、获取历史对话数据，基于历史对话数据，构建上下文表示，基于上下文表示和改写后的文本数据，形成模型输入数据；

6、s4、构建text-to-sql模型，基于模型输入数据，对text-to-sql模型进行训练，得到训练好的text-to-sql模型；

7、s5、使用训练好的text-to-sql模型，生成初始sql查询，对初始sql查询进行优化，得到最终sql查询。

8、航迹领域知识库的场景适配系统，包括：

9、至少一个处理器；以及，

10、与至少一个所述处理器通信连接的存储器；其中，

11、所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项技术方案所述的航迹领域知识库的大模型微调方法。

12、有益效果，本发明通过多阶段纠错处理和后处理，减少了每次调用所需的词元数量和对语言大模型的依赖，从而降低了调用成本；通过多模态融合错误识别算法和图神经网络进行上下文推理，增强了纠错能力，减少了前置问答类型分类错误对后续链路的影响，提高了文本数据的准确性；通过引入多头注意力机制、前馈神经网络和自适应知识蒸馏法，增强了模型的稳定性和准确性。

技术特征：

1.航迹领域知识库的大模型微调方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s1进一步为：

3.根据权利要求2所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s2进一步为：

4.根据权利要求3所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s3进一步为：

5.根据权利要求4所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s4进一步为：

6.根据权利要求5所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s5进一步为：

7.根据权利要求6所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s14进一步为：

8.根据权利要求6所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s22进一步为：

9.根据权利要求6所述的航迹领域知识库的大模型微调方法，其特征在于，步骤s32进一步为：

10.航迹领域知识库的场景适配系统，其特征在于，包括：

技术总结本发明公开了一种航迹领域知识库的大模型微调方法和场景适配系统，该方法包括获取语音数据，对语音数据进行预处理，调用预配置的多模态语音识别模型将语音数据转换为初始文本数据；构建航迹领域知识图谱，对初始文本数据进行多阶段纠错处理，得到纠错后的文本数据；对纠错后的文本数据进行后处理，生成改写后的文本数据；获取历史对话数据，构建上下文表示，基于上下文表示和改写后的文本数据，形成模型输入数据；构建Text‑to‑SQL模型，对Text‑to‑SQL模型进行训练，生成初始SQL查询，对初始SQL查询进行优化，得到最终SQL查询。本发明不仅降低了调用成本，还提高了文本数据和模型的准确性，增强了模型的稳定性。技术研发人员：黄光昊,孙立国受保护的技术使用者：中科南京人工智能创新研究院技术研发日：技术公布日：2024/9/9