一种基于多源异构文件的大模型知识库构建方法及系统与流程
- 国知局
- 2024-12-06 12:10:59
本发明属于知识工程,尤其涉及一种基于多源异构文件的大模型知识库构建方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、2023年是大语言模型爆发元年,国内外多家厂商发布其大模型,在对话服务、内容创作、智能搜索等应用方面取得巨大成效,引起了学界、业界和政府的高度关注。大语言模型在自然语言领域的表现远超以往任何模型;但是大语言模型也存在很多不足,例如在处理一些专业领域的知识时,由于专业领域知识缺失,导致无法提供准确答案,面临生成幻觉、专业性和精准性不足等痛点。
3、为解决知识缺失导致的问题,需要针对特定领域建立特殊的知识库作为大模型的知识来源,辅助大模型进行知识生成。因此,知识库的构建效果直接影响到大模型的回答效果。
4、知识库的建设包含两个阶段,分别对应上游的知识抽取和下游的知识整合,知识抽取阶段需要把知识(一般是文档)中的信息尽量全的抽取出来,包括文档内容和文档格式;下游知识整合阶段,需要针对现在主流的搜索方式来定制化地进行知识库的建设。
5、现有的大模型的知识库构建过程中,未考虑行业特点和行业属性,无法满足垂直领域文档的特异性定制化要求,导致知识库构建的健壮性、准确性不够,间接影响了大模型的问答效果。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了一种基于多源异构文件的大模型知识库构建方法及系统,为多源异构文件定制不同的文件内容提取策略,并对提取的内容进行多尺度切片,最终构建强大、高效的知识库,从而提高大模型问答效果。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、本发明第一方面提供了一种基于多源异构文件的大模型知识库构建方法。
4、一种基于多源异构文件的大模型知识库构建方法包括:
5、采用markdown格式和光学字符识别相结合的方式,从多源异构文件中提取包含格式的文件内容;
6、根据大模型的输入数据量限制及主题的相关度,对提取的文件内容进行多尺度切片,得到若干个文件段落;
7、对文件段落进行向量化运算,同属于一个切片尺度的段落向量组成一个向量库;
8、由不同切片尺度的向量库,构成大模型知识库,用于大模型的检索增强生成。
9、进一步的,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。
10、进一步的,所述提取包含格式的文件内容,具体为:
11、对于第一类文件,直接提取文件内容;
12、对于第二类文件,直接提取文件内容,存为markdown格式;
13、对于第三类文件,采用表格识别和光学字符识别相结合的方法,识别文件内容,存为markdown格式。
14、进一步的,所述采用表格识别和光学字符识别相结合的方法,识别文件内容,具体步骤为:
15、通过目标检测算法,检测文件中的有边框表格和无边框表格;
16、针对有边框表格,识别单元格的边框,来区分不同的单元格,再针对不同单元格的内容做光学字符识别;
17、针对无边框表格,直接进行光学字符识别,将识别的结果进行后处理,通过检测结果的锚框坐标的相对位置关系来确定检测出来的文本是否是同一行或者同一列。
18、进一步的,所述多尺度切片,具体为:
19、依据大模型基本信息长度、综合提示词长度、rag参考文档长度和上下文长度,对提取的文件内容进行初步切片,得到多个文件段落;
20、设定多个重切片长度,对与主题强相关的连续文件段落进行重切片,最终将文件内容分为若干个文件段落。
21、进一步的,所述重切片,具体步骤为:
22、生成文件内容的主题;
23、计算每个文件段落和主题的相关度;
24、根据相关度,区分与主题强相关的段落和与主题关联度不大的段落;
25、设定多个重切片长度,对与主题强相关的连续段落进行重切片。
26、进一步的,所述同属于一个切片尺度的段落向量组成一个向量库,具体为:
27、以qdrant向量库为存储向量库,向同属于一个切片尺度的段落向量附加payload字段后,将同属于一个切片尺度的段落向量存入qdrant中的同一个存储单元collection中;
28、其中,payload字段中存储文档行业信息、主题信息,包括行业分类、段落id、内容来源、内容来源id、pdf-ocr定位锚框、是否启用、文章外链信息。
29、本发明第二方面提供了一种基于多源异构文件的大模型知识库构建系统。
30、一种基于多源异构文件的大模型知识库构建系统,包括:
31、内容提取模块,被配置为:采用markdown格式和光学字符识别相结合的方式,从多源异构文件中提取包含格式的文件内容;
32、内容切片模块,被配置为:根据大模型的输入数据量限制及主题的相关度,对提取的文件内容进行多尺度切片,得到若干个文件段落;
33、向量库构建模块,被配置为:对文件段落进行向量化运算,同属于一个切片尺度的段落向量组成一个向量库;
34、知识库构建模块,被配置为:由不同切片尺度的向量库,构成大模型知识库,用于大模型的检索增强生成。
35、本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种基于多源异构文件的大模型知识库构建方法中的步骤。
36、本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种基于多源异构文件的大模型知识库构建方法中的步骤。
37、以上一个或多个技术方案存在以下有益效果:
38、1.本发明在知识库的构建上采用了一套功能齐全的文件内容提取方法,为三类文件指定不同的内容提取策略,有效地解决了垂直领域文档的特异性定制化要求,提升了系统的行业属性和行业性能。
39、2.本发明在提取出来的文本进入知识库的过程中,充分考虑到了行业特点和行业属性,根据大模型的输入数据量限制及主题的相关度,对提取的文件内容进行多尺度切片,实现定制化的高性能的向量化过程。
40、3.本发明设计高可用和高性能的向量库架构,构建不同切片尺度的向量库,使得满足功能需求的同时,也满足了增删改查的性能需求。
41、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
技术特征:1.一种基于多源异构文件的大模型知识库构建方法,其特征在于,包括:
2.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。
3.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述提取包含格式的文件内容,具体为:
4.如权利要求3所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述采用表格识别和光学字符识别相结合的方法,识别文件内容,具体步骤为:
5.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多尺度切片,具体为:
6.如权利要求5所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述重切片,具体步骤为:
7.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述同属于一个切片尺度的段落向量组成一个向量库,具体为:
8.一种基于多源异构文件的大模型知识库构建系统,其特征在于,包括:
9.一种电子设备,其特征是,包括:
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述计算机可读指令由计算机执行时,执行权利要求1-7任一项所述的方法。
技术总结本发明提出了一种基于多源异构文件的大模型知识库构建方法及系统,涉及知识工程技术领域,具体方案包括:采用Markdown格式和光学字符识别相结合的方式,从多源异构文件中提取包含格式的文件内容;根据大模型的输入数据量限制及主题的相关度,对提取的文件内容进行多尺度切片,得到若干个文件段落;对文件段落进行向量化运算,同属于一个切片尺度的段落向量组成一个向量库;由不同切片尺度的向量库,构成大模型知识库,用于大模型的检索增强生成;本发明为多源异构文件定制不同的文件内容提取策略,并对提取的内容进行多尺度切片,最终构建强大、高效的知识库,从而提高大模型问答效果。技术研发人员:张照生,侯军委,史骁辰受保护的技术使用者:上海核工程研究设计院股份有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/339819.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。