技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于大语言模型的文本提取方法及系统与流程 > 正文

一种基于大语言模型的文本提取方法及系统与流程

国知局
2024-11-21 11:41:23

本发明涉及交通信息查询系统，尤其涉及一种基于大语言模型的文本提取方法及系统。

背景技术：

1、随着智能交通系统的发展，交通信息查询系统在日常生活中变得越来越重要。这些系统帮助用户获取实时交通状况、规划出行路线，并提供事故和路况等信息。然而，目前的交通信息查询系统存在一些显著的不足。现有的交通信息查询系统主要依赖于关键字匹配和预定义的数据库。当用户输入查询时，系统根据预设的规则和关键字进行匹配，返回相关结果。这种方式在处理简单查询时表现尚可，但在面对复杂或模糊的自然语言查询时，常常表现出以下不足，灵活性不足：现有系统主要依赖于固定规则和关键字匹配，难以处理复杂或多变的查询。上下文缺失：无法连续理解用户的历史查询和对话上下文，导致用户需要反复输入相似问题。精准性不高：依赖关键字匹配的方式经常返回与用户实际需求不符的结果。互动性差：缺乏与用户的互动能力，无法提供个性化、对话式的查询体验传统的交通信息查询系统主要依赖关键字匹配和预定义数据库，无法处理复杂的自然语言查询，缺乏灵活性和上下文理解能力。

2、例如，一种在中国专利文献上公开的“文本抽取模型的训练方法、文本抽取方法和设备”，其公告号：cn118132683a，公开了包括获取交通文本数据；将交通文本数据和第一提示信息输入大语言模型，第一提示信息用于提示获取交通要素对应的关键词；通过大语言模型提取交通文本数据中交通要素对应的关键词，输出交通文本数据对应的文本特征数据；文本特征数据包括交通要素与关键词的对应关系；构建训练数据集，训练数据集包括多个交通文本数据及对应的标签，交通文本数据对应的标签为文本特征数据；基于训练数据集对文本抽取模型进行训练，直至文本抽取模型满足预设收敛条件，得到目标文本抽取模型，但是该方案也缺乏对于复杂多变的查询优化。

技术实现思路

1、为了解决现有技术中无法处理复杂的自然语言查询的问题，本发明提供一种基于大语言模型的文本提取方法及系统，通过多层次意图识别，能够对复杂查询进行多重验证和确认，能够更好地处理多变和模糊的用户意图。

2、为了实现上述目的，本发明提供如下技术方案：

3、一种基于大语言模型的文本提取方法，包括：获取历史查询记录，通过机器学习建立行为模型；

4、通过模型识别算法确定行为模型的查询模式和行为特征，结合深度识别模型对行为模型进行动态优化；

5、获取实时交通信息，结合行为模型通过rag方法生成综合回答，根据综合回答对行为模型的输出进行修正得到精确回答。能够深入理解用户的查询习惯、偏好及行为模式，从而提供更加个性化的服务。这种个性化不仅提升了用户体验，也使得回答更加贴近用户的实际需求。系统能够不断学习并适应查询请求的变化。这种自适应能力使得系统在面对查询请求的变化或新出现的查询模式时，能够迅速调整并给出更准确的回答，保持了系统的时效性和准确性。结合行为模型，通过rag（retriever-augmenter-generator）方法生成综合回答，不仅能够提供与用户查询紧密相关的交通信息，还能结合用户的历史行为，给出更加全面、具体的回答。这种实时性和综合性的结合，大大提高了回答的质量和实用性。能够对复杂查询进行多重验证和确认，能够更好地处理多变和模糊的用户意图。

6、作为优选的，建立行为模型时，根据历史查询记录得到查询习惯和历史数据，对查询习惯和历史数据进行聚类分析后，基于机器学习模型进行训练得到行为模型。将相似的查询行为或数据模式分组，从而实现对查询行为的精细化分类。这种分类有助于更深入地理解用户群体的特征和行为模式，为后续模型训练提供更准确的输入。聚类分析后的数据更加纯净、集中，减少了噪声和异常值对模型训练的影响。基于这样的数据进行机器学习模型训练，能够显著提高模型的准确性和预测能力，使得生成的行为模型更加贴近用户的真实行为。

7、作为优选的，包括深度意图识别，根据深度学习模型进行语义分析，根据语义分析结果进行意图评估，并结合行为特征对行为模型进行优化。通过深度学习技术，该方案能够更准确地识别用户的深层意图，而不仅仅是表面的文字或查询，能够更准确地把握不同查询请求的细微差别，提高意图评估的准确性。

8、作为优选的，包括进行模式识别，使用k-means聚类算法识别查询模式和行为特征；检测异常查询行为，筛选历史查询记录中没有的查询请求。实现对查询行为的精细化分类，并能够快速识别出与常规行为不符的查询请求，为进一步的安全分析或业务优化提供依据。

9、作为优选的，对行为模型的输出进行修正时，遍历综合回答，当综合回答被命中则将对应的综合回答替换为行为模型的输出。能够更准确地反映用户的当前状态和偏好，能够根据实时数据动态调整输出，因此替换为行为模型的输出可以增强系统的灵活性和适应性，使其能够更好地适应不同场景和查询请求。通过将综合回答替换为行为模型的输出，实际上是在利用实际场景对模型进行反馈和验证。

10、作为优选的，包括进行唤醒，获取查询请求，识别查询请求中的唤醒词；当检测到唤醒词后，进行文本识别，获取查询文本。可以有效减少误触发，提高系统响应的准确性和效率。无需额外操作即可连续获取查询文本，提高了交互的流畅性和连贯性。

11、作为优选的，在进行唤醒后，通过rasa进行初步意图识别，确定查询请求中的基本意图；通过行为模型对基本意图进行识别和预测。通过rasa能够快速获得查询目的，并结合行为模型，可以显著提高意图识别的准确性，便于解决不同查询请求中的歧义和模糊问题。

12、一种基于大语言模型的文本提取系统，适用于如任一项实施例所述的一种基于大语言模型的文本提取方法，包括：输入模块，获取查询请求；

13、输入模块连接有意图识别模型，意图识别模型基于查询请求进行多层意图识别；

14、意图识别模型连接有rag模型，rag模型根据实时信息为意图识别模型提供意图回答范围。能够进行多层意图识别，深度理解查询请求的复杂性和主要需求，并能捕捉到查询请求中的细微差别和潜在意图。能够减少传统方法中检索和生成之间的信息损失，从而提高整个系统的效率和准确性。

15、作为优选的，意图识别模型包括依次连接的行为模型和深度学习模型，行为模型根据历史查询记录进行意图识别；深度学习模型对行为模型进行意图识别。通过分阶段、递进式的识别过程有助于减少误判和漏判，提高意图识别的准确性。

16、作为优选的，包括与意图识别模块连接的输出模块，输出模块生成回答文本并合成为语音输出。实现多模态的信息输出，便于适应更广泛的场景和查询需求。

17、本发明具有如下优点：

18、（1）提高意图识别准确性和灵活性：通过多层级自适应意图识别机制，本发明结合查询请求的分析模块和上下文记忆，能够更准确地理解和响应用户的查询需求，确保对复杂和连续查询的高效处理；（2）实时数据接入与动态信息整合：本发明集成多个实时交通数据源，通过检索增强生成rag技术，将实时数据与生成模型结合，提供最新和综合性高质量的交通信息回复，显著提升了交通管理的效率和效果。