技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于行业大模型的理解匹配提取方法及装置与流程  >  正文

一种基于行业大模型的理解匹配提取方法及装置与流程

  • 国知局
  • 2024-12-06 12:10:00

本发明涉及人工智能,具体提供一种基于行业大模型的理解匹配提取方法及装置。

背景技术:

1、在行业管理和决策中,准确理解行业内专项指标并进行匹配提取对于提高工作效率和决策准确性至关重要。传统方法往往依赖于人工解读和匹配,存在主观偏差和效率低下的问题。

2、已有技术方面可参考专利cn112487182b《文本处理模型的训练方法、文本处理方法及装置》,此专利提供了一种人工智能领域中自然语言处理领域的文本处理模型的训练方法、文本方法以及装置,该训练方法包括:获取训练文本;将该训练文本分别输入老师模型与学生模型,得到该老师模型输出的样本数据与该学生模型输出的预测数据,其中,该老师模型与该学生模型分别包括输入层、一个或者多个中间层以及输出层,该样本数据包括该老师模型的中间层输出的样本语义特征以及输出层输出的样本标签,该预测数据包括该学生模型的中间层输出的预测语义特征以及输出层输出的预测标签;基于该样本数据以及该预测数据训练该学生模型的模型参数,得到目标学生模型,从而提高学生模型的文本处理结果的准确率。

3、此技术存在的难点为需要工人标注标签,耗时较多影响实际执行效率,且只通过参数调整准确率,在部分行业内无法达到最优效果和最高准确率。

4、为了解决这些问题,如何快速、准确地理解和提取行业内专项指标的语义信息,并与大模型进行匹配,为决策者提供可靠的数据支持和参考依据是本领域技术人员亟待解决的技术问题。

技术实现思路

1、本发明是针对上述现有技术的不足,提供一种实用性强的基于行业大模型的理解匹配提取方法。

2、本发明进一步的技术任务是提供一种设计合理,安全适用的基于行业大模型的理解匹配提取装置。

3、本发明解决其技术问题所采用的技术方案是:

4、一种基于行业大模型的理解匹配提取方法,具有如下步骤:

5、s1、大模型内较小型的模型学习行业内专项指标的语义特征;

6、s2、设定相似度阈值,提取语义相似度高于阈值的top项;

7、s3、大模型实现整体语句的语义理解,包括上下文关联和语义推断;

8、s4、根据语义理解结果,选择最优匹配项作为提取结果;

9、s5、交互式确认,确保匹配结果符合行业人员意图;

10、s6、若匹配结果不符合行业人员意图,重复上述步骤进行匹配提取。

11、进一步的,在步骤s1中,进一步包括:

12、s1-1、确定学习目标,定义所要解决的具体问题、预期达成的业务目标,以及大模型在特定应用场景中的角色;

13、s1-2、收集专项指标,根据学习目标、大模型性收集与之相关的专项指标;

14、s1-3、判断数据是否完整,对已收集的数据进行全面检查,包括核实数据记录的数量是否符合预期、各个专项指标是否存在缺失值以及数据分布是否合理。

15、s1-4、数据预处理,若判断结果显示数据完整,则进入数据预处理阶段;

16、s1-5、使用大模型内较小型的模型学习语义特征,完成数据预处理后,运用小型模型进行训练,以学习专项指标蕴含的语义特征;

17、s1-6、评估大模型效果,大模型训练完成后,应用专项指标对大模型性能进行细致评估;

18、s1-7、异常处理,若步骤s3判断结果为数据不完整,则触发异常处理流程,此时,应追溯数据来源,查找原因,或借助数据插补技术补充缺失数据,之后,重新执行步骤s3至步骤s6,形成一个迭代循环,直至数据满足完整性要求,大模型学习与评估过程得以顺利进行。

19、进一步的,在步骤s2中,首先,设定一个相似度阈值,作为判断依据,接着,利用算法计算待比较文本间的语义相似度;

20、随后,进行判断,若计算得到的相似度高于预设阈值,表明两文本语义高度吻合,此时可进一步提取相关指标;

21、反之,若相似度低于阈值,则判定两文本语义不符,大模型反馈语义不符的结论,并详细抛出导致低相似度的异常原因。

22、进一步的,在步骤s3中,首先,大模型接收行业从业者提供的一个完整语句作为初始输入,接下来,大模型进行初步的语义与上下文关联性判断,通过对语句的语法解析、词义分析以及潜在背景知识的考量,评估语句与已知上下文的相关性。

23、进一步的,若判断结果为相关,大模型则进入语义推断阶段,运用自然语言理解和推理技术,若大模型判断结果显示语句与当前上下文不相关,大模型并不立即放弃理解,而是启动上下文搜索机制,从更广泛的互联网行业资源中寻找与输入语句主题相关的上下文信息;

24、找到相关上下文,大模型将与原有上下文整合,扩展知识背景,然后回到步骤s2,重新进行语义与更新后上下文的相关性判断,形成一个迭代循环。

25、进一步的,在步骤s4中,首先,大模型获取到由前序环节产生的语义理解结果,接着,大模型采用预定义的匹配算法或规则,对理解结果与内部知识库、数据库或特定目标数据集进行匹配度计算;

26、若匹配度未达到阈值,意味着语义理解结果与预期数据源之间存在较大出入,这时,大模型不生成提取结果,向行业人员反馈提示。

27、进一步的,在步骤s5中,首先,大模型接收来自匹配模块的初步匹配结果,大模型将这些匹配结果呈现给行业人员,大模型发起确认请求,询问行业人员是否认为这些匹配结果与需求相符,行业人员通过点击是或否按钮给予反馈;

28、若行业人员确认匹配结果准确,即选择是,大模型将记录此次匹配过程,依据匹配结果生成或更新行业人员的最终购物指标;

29、若行业人员反馈匹配结果不准确,即选择否,大模型将启动循环处理机制,重新从先前超过预设阈值的备选匹配结果中选取其他选项再次展示给行业人员。

30、进一步的,在步骤s5中,关于异常处理,如果在循环过程中始终未能找到行业人员满意的匹配结果,或者行业人员连续多次取消确认,大模型触发警报机制,提示运营人员介入分析原因。

31、一种基于行业大模型的理解匹配提取装置,包括:至少一个存储器和至少一个处理器;

32、所述至少一个存储器,用于存储机器可读程序;

33、所述至少一个处理器,用于调用所述机器可读程序,执行一种基于大模型的理解匹配提取方法。

34、本发明的一种基于行业大模型的理解匹配提取方法及装置和现有技术相比,具有以下突出的有益效果:

35、本发明自动化专项指标语义理解与匹配提取,减少人工干预,提高工作效率,按照传统模式人工识别指标时间约110个/h,或其他技术识别指标约前置工作需3天,若使用本技术实现训练大模型仅需1天。

36、高准确度匹配提取,大幅降低匹配错误率,大幅提高准确率,因采用大模型内匹配识别、语义理解、交互确认等步骤,实验测试准确率可达98.6%。

37、行业人员交互式确认,确保匹配结果符合预期,降低误解风险。

38、减少主观偏差,提高决策的客观性和准确性,实验学习某业内知识以及决策文档约230篇,测试结果均为客观回答,指标不会混杂个人色彩。

本文地址:https://www.jishuxx.com/zhuanli/20241204/339717.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。