技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种针对规章制度的企业知识问答方法及系统与流程  >  正文

一种针对规章制度的企业知识问答方法及系统与流程

  • 国知局
  • 2024-08-05 12:14:20

本发明涉及自然语言数据处理应用,具体涉及一种针对规章制度的企业知识问答方法及系统。

背景技术:

1、当前社会针对法律法规的应用和认知越来越深刻,人们可以通过各种途径获取相关法规内容。在做企业知识管理时法律法规和内部规章制度是最重要的依据,各个部门面临大量的规章制度。在知识高度密集型作业场景如投行,各业务品种(如:股权业务、债券业务、财务顾问业务等)、各业务环节(如:项目承做、证券承销、内控管理等)所需要的专业知识差异巨大,而这些知识多半由内外部业务规章制度体系构成。同时投行对知识的准确性要求较高,关键法规信息一定要溯源到原文。

2、传统的方法是将所有的规章制度传入搜索引擎中通过关键词进行搜索,对输入的关键词和问题的描述要求较高,易出现搜不到且搜不准的问题。现有的通用大模型意图理解能力强,但缺乏特定领域的法律法规知识,也无法做出专业的回答和溯源。

3、一种常见的方法是通过大模型检索增强的方式实现专业领域的问答。检索增强的模式是将用户问题与现有知识库进行向量匹配,将匹配后的知识片段与大模型进行交互得到专业的回答。其准确性取决于输入到大模型的有限长度文本内容的匹配度,核心是用户问题与规章制度匹配的精准度,关键技术点是如何对现有规章制度的准确拆分及编码。

4、另一种方式是依托本地小模型对用户可能询问的问题逐条累积,由于小模型能够获取的知识有限,可能出现无法答复的情况。其运营成功的核心也是对现有制度的条目抽取和问答对人工生成,因此存在积累的速度慢,覆盖法律法规不全的问题。

5、因此,市场上亟需一种解决上述问题的方法及系统。

技术实现思路

1、为解决上述技术问题,本发明提供了一种针对规章制度的企业知识问答方法,包括以下步骤:

2、步骤s1:构建规章制度数据库,并通过所述规章制度数据库对语言大模型和语言小模型进行训练;

3、步骤s2:接收前端提出的问题,判断所述问题是否与企业规章制度相关,如果是则进入步骤s3;

4、步骤s3:将所述问题拆解为若干个单目标问题;

5、步骤s4:将若干个所述单目标问题输入训练好的语言小模型,将问题对应的答案返回前端进行显示;当语言小模型无法找到答案时,则在所述规章制度数据库中进行相似文档匹配和召回得到对应的知识块;

6、步骤s5:将所述知识块输入所述语言大模型进行总结,生成答案后返回前端进行显示。

7、优选地,构建规章制度数据库的方法包括以下步骤:

8、步骤s11:识别规章制度文件,生成文本信息并进行编码;

9、步骤s12:将所述文本信息进行分段,采用分段后的文本对摘要提示词模板进行填充后输入所述语言大模型,生成摘要信息并进行编码;

10、步骤s13:确定文档的结构目录类型,选择对应的提示词模板,抽取文本的条目信息并进行编码;

11、步骤s14:对步骤s13中的条目信息进行拆分、解析及编码,生成句子编码信息;

12、步骤s15:对步骤s13中的条目信息进行分词,统计条目中的关键词和词频,生成到分词信息拆分、解析及编码;

13、步骤s16:将所述文本信息、摘要信息、条目信息、句子编码信息和分词信息,通过设定的文件id和条目id进行关联后存入数据库。

14、优选地,步骤s13中生成文本条目信息的方法包括:按照生成式大模型的最优token输入数,将规章制度文件拆分为多个子文件,每个子文件由若干页组成,之后输入生成式大模型,生成条目信息。

15、优选地,在进行拆分后,如果不是第一次请求则按照设定的向前兼容token长度向前兼容一次拆分的内容输入生成式大模型进行解析。

16、优选地,步骤s13还包括对生成的条目信息进行匹配度检查:将所述条目信息逐条与文本信息进行匹配,当首尾n个字符完全匹配,中间文本相似度在设定阈值以上时匹配成功,当匹配不成功时,则调整所述向前兼容token长度对条目对应页进行重新解析。

17、优选地,步骤s13还包括对生成的条目信息进行覆盖率检查,当当前页的覆盖率没有达到设定阈值时,则调整当前页的所述向前兼容token长度进行重新解析。

18、优选地,调整所述向前兼容token长度的方法包括:获取上次解析的最后一个条目,将最后一个条目与上一次的解析文本进行匹配;当匹配成功时,设定匹配该条目之后的所有文本长度为向前兼容token长度;当匹配不成功时,计算最近10条条目的条目平均长度,基于所述条目平均长度,往前遍历,遇到句号或者段落结束停止,将条目平均长度加上遍历长度,则为向前兼容token长度;当重新解析的次数大于设定的第一解析阈值时,则在调整所述向前兼容token长度的同时,将下一页中解析成功的第一个条目之前的文本作为向后兼容文本加入当页进行解析,并剔除当页已经成功解析的条目;当重新解析的次数大于设定的第二解析阈值时,向前兼容一页,向后兼容一页,并不再剔除条目,并且将生成式大模型的温度参数调高,topk参数调大;

19、步骤s2中判断所述问题时通过意图识别小模型进行判断,当所述意图识别小模型的输出分数不小于设定阈值时,则所述问题与企业规章制度相关。

20、优选地,步骤s4中进行相似文档匹配和召回得到对应的知识块得方法包括以下步骤:

21、步骤s41:通过所述规章制度数据库中的摘要信息与单目标问题进行匹配,得到若干个目标规章制度文档;

22、步骤s42:将所述目标规章制度文档对应规章制度数据库中所有的知识块与单目标问题进行相似度计算,获取相似度值最高的前a个知识块作为第一知识块,a的计算方式为按相似度倒排,遇到相似度在0.8以下或者累计知识块长度超过语言大模型最大token输入×0.6时停止,若a的值小于等于设定阈值则进入步骤s43,否则进入步骤s44;

23、步骤s43:将所述目标规章制度文档对应规章制度数据库中所有的知识块拆分为句子;将句子与单目标问题进行相似度匹配,获取前n个相似度的句子并按照知识块进行累加求和,再除以取log后的知识块句子数,得到当前知识块的相似度,对所有知识块的相似度进行倒排取前b个作为第二知识块,b的计算方式为:遇到相似度在设定阈值以下或者包括第一知识块在内的累计知识块长度超过语言大模型最大token输入×0.6时停止;

24、步骤s44:提取单目标问题的关键词,将提取到的全部关键词与所述目标规章制度文档对应规章制度数据库中所有的知识块原文的关键词进行比较,找到两者共有的关键词,将共有关键词对应的权重值相加得到关键词与当前知识块原文的相似度值,对所有知识块的相似度进行倒排取前c个作为第三知识块,c的计算方式为:累计知识块长度超过模型最大token输入×0.2时停止;

25、步骤s45:将所述第一知识块、第二知识块和第三知识块进行整合去重,得到最终的知识块。

26、本发明还提供了一种针对规章制度的企业知识问答系统,适用于上述针对规章制度的企业知识问答方法,包括规章制度数据库生成模块、意图识别模块、问题拆分模块和问答模块;

27、所述规章制度数据库生成模块,用于根据规章制度文件生成包括文本信息、摘要信息、条目信息、句子编码信息和分词信息的数据库;

28、所述意图识别模块,用于识别前端提出的问题,判断是否是关于规章制度的企业知识相关问题;

29、所述问题拆分模块,用于将前端提出的问题拆分为若干个单目标问题,并输入给问答模块;

30、所述问答模块,包括根据规章制度数据库训练好的语言小模型和语言大模型,用于将若干个所述单目标问题输入若干个语言小模型返回对应的答案;当语言小模型无法找到答案时,则在规章制度数据库中进行相似文档匹配和召回得到对应的知识块;将知识块输入语言大模型进行总结,生成答案。

31、本发明的有益效果至少包括:针对文件多和信息量大企业规章制度,提供了一种有效的数据处理及知识问答方法。本发明通过将复杂的问题拆分为多个单目标问题,先由语言小模型处理简单部分,再针对无法解决的问题通过相似文档匹配召回相关知识块,然后输入大模型进行处理,这种方法提高了问题求解的精准度和效率。

32、小模型和大模型的协同工作优化了资源利用,并通过逐步解决单目标问题和处理关联关系,增强了系统的鲁棒性。此外,文档匹配和知识块召回过程有助于知识库的积累和动态优化,提高系统在处理类似问题时的能力,具备较强的泛化能力,能够处理各种复杂格式的规章制度。

33、同时,上述方案解决了单独使用大模型时,大模型缺乏专业知识的问题;单独使用小模型时,小模型存在问题无法答复的情况。

34、另外,本发明还通过快速生成问答对的方式,提高了小模型的知识积累速度,增强小模型的法律法规覆盖能力。

本文地址:https://www.jishuxx.com/zhuanli/20240802/261728.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。