一种基于大语言模型的知识图谱构建方法及系统
- 国知局
- 2024-12-06 12:10:06
本发明涉及文本处理,特别涉及一种基于大语言模型的知识图谱构建方法及系统。
背景技术:
1、目前,在知识图谱构建的过程中,准确有效地从源文本中提取实体,并将这些实体进行归类,是构建高质量知识图谱的基础。然而,由于文本的自然性、复杂性和多样性,这一过程面临一系列挑战,往往会出现将表征含义相同的实体作为图谱构建时的不同节点,导致构建出的知识图谱节点重复、繁杂,所以如何将含义相同的提取实体归为同一节点,如何简化知识图谱成为了迫在眉睫的问题。
2、但是,现有的一种基于大语言模型的知识图谱构建方法及系统只是通过对知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集,根据不同文本类型的知识文本数据集中各个知识实体的所述关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱,但并未考虑如何将含义相同的提取实体归类,未考虑如何进行知识图谱的简化。例如公开号为“cn117150050a”、专利名称为“一种基于大语言模型的知识图谱构建方法及系统”,其方法包括以下步骤:对知识文本数据进行文本聚类,得到若干不同文本类型的知识文本数据集动;将知识文本数据集动提交至第一hdfs进行分布式文件储存;按照知识文本t重组e的长度,有序从第一hdfs提取知识文本t重组e,并采用预设的大语言模型c练动,对提取的知识文本t重组e进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的所述关联信息提交至第二hdfs进行分布式文件储存;根据第二hdfs中存储的各个知识实体的所述关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱。但是该专利只能够适应海量知识文本数据的语言处理和保存功能,并处理大规模文本类型的知识图谱构建。未考虑如何将含义相同的提取实体归类,未考虑如何进行知识图谱的简化。
3、因此,本发明提出了一种基于大语言模型的知识图谱构建方法及系统。
技术实现思路
1、本发明提供一种基于大语言模型的知识图谱构建方法及系统,用以根据源文本的所有文本处理分句的所有提取实体获得源文本的所有第一判定相似实体组,有效地将表征含义相同的实体进行初步整合归类,减少后续处理的复杂性,并根据源文本的所有文本处理分句和所有第一判定相似实体组,获得源文本的所有文本分句组,便于后续根据文本分句组内分句的语义结构和上下文关系进行提取实体再次归类,根据源文本的所有文本分句组获得源文本的所有第二判定相似实体组,实现了根据语义结构和上下文关系进一步提高对提取实体归类的准确性,确保将含义相同的提取实体归入同一组,便于知识图谱构建的准确性,根据源文本的所有第二判定相似实体组获得源文本的所有文本处理分句的所有标准提取实体,便于后续知识图谱构建结果的准确获取,根据源文本的所有文本处理分句的所有标准提取实体和所有预文本处理分句内的提取关系获得知识图谱构建结果,实现了对知识图谱的简化,提高了知识图谱构建的效率。
2、本发明提供一种基于大语言模型的知识图谱构建方法,包括:
3、s1:对源文本进行数据预处理,获得源文本的所有源文本分句,基于源文本的所有源文本分句获得源文本的所有预文本处理分句;
4、s2:基于源文本的所有预文本处理分句和预设大语言模型获得源文本的所有预文本处理分句内的所有提取实体和所有提取关系,基于所有预文本处理分句的所有提取实体获得源文本的所有文本处理分句;
5、s3:基于源文本的所有文本处理分句的所有提取实体获得源文本的所有第一判定相似实体组,并基于源文本的所有文本处理分句和所有第一判定相似实体组,获得源文本的所有文本分句组,基于源文本的所有文本分句组获得源文本的所有第二判定相似实体组,基于源文本的所有第二判定相似实体组获得源文本的所有文本处理分句的所有标准提取实体;
6、s4:基于源文本的所有文本处理分句的所有标准提取实体和所有预文本处理分句内的提取关系获得知识图谱构建结果。
7、优选的,基于大语言模型的知识图谱构建方法,s1:对源文本进行数据预处理,获得源文本的所有源文本分句,基于源文本的所有源文本分句获得源文本的所有预文本处理分句,包括:
8、接收上传至知识图谱构建系统的源文本,并将源文本内的所有分句符号作为分句标志,基于所有分句标志对源文本进行分割,获得源文本的所有源文本分句;
9、基于源文本的所有源文本分句获得源文本的所有预文本处理分句。
10、优选的,基于大语言模型的知识图谱构建方法,基于源文本的所有源文本分句获得源文本的所有预文本处理分句,包括:
11、将源文本的每个源文本分句内的可剔除词进行剔除,获得每个源文本分句对应的文本剔除分句;
12、选取出所有文本剔除分句内的所有不明词,并将源文本中在每个不明词之前的所有文本作为对应不明词的分析文本;
13、基于每个不明词和对应的分析文本及不明词分析模型,获得对应不明词的替换词,将源文本中的所有文本剔除分句中的所有不明词都替换为对应的替换词,获得源文本的所有预文本处理分句。
14、优选的,基于大语言模型的知识图谱构建方法,s2:基于源文本的所有预文本处理分句和预设大语言模型获得源文本的所有预文本处理分句内的所有提取实体和所有提取关系,基于所有预文本处理分句的所有提取实体获得源文本的所有文本处理分句,包括:
15、基于预设大语言模型获得源文本的每个预文本处理分句的所有提取实体和所有提取关系;
16、将源文本中提取实体的个数为零的预文本处理分句作为无效文本处理分句;
17、将源文本内除所有无效文本分句以外的所有预文本处理分句作为源文本的文本处理分句。
18、优选的,基于大语言模型的知识图谱构建方法,基于源文本的所有文本处理分句的所有提取实体获得源文本的所有第一判定相似实体组,包括:
19、将源文本的所有文本处理分句的所有提取实体中任意两个不同的提取实体作为一组实体组,获得所有组实体组;
20、将源文本中,包含的两个提取实体之间存在重合字的所有实体组当作源文本的所有第一验证实体组;
21、获取源文本内每个字的字频,将每个字的字频作为对应字的向量元素表示,基于每个字的向量元素表示,获得每个第一验证实体组内每个提取实体的向量表示;
22、基于第一验证实体组内两个提取实体的向量表示和源文本的所有无效文本处理分句,获得对应第一验证实体组内两个提取实体之间的判定替代值,即为:
23、
24、其中,δ为当前计算的第一验证实体组内两个提取实体之间的判定替代值,s0为源文本的总字数,m为当前计算的验证实体组内两个提取实体之间的重合字的个数,s1为源文本的所有无效文本处理分句的字数之和,qi为当前计算的验证实体组内的第一个提取实体的第i个向量元素,wi为当前计算的验证实体组内的第二个提取实体的第i个向量元素,n为当前计算的验证实体组内的字数较少的提取实体的字数,ln为自然对数,且自然常数e的取值为2.718;
25、将所有判定替代值大于预设判定替代值阈值的第一验证实体组,当作源文本的第一判定相似实体组。
26、优选的,基于大语言模型的知识图谱构建方法,基于源文本的所有文本处理分句和所有第一判定相似实体组,获得源文本的所有文本分句组,包括:
27、将每个第一判定相似组内的两个提取实体,判定为互为第一同类实体,并将源文本中所有互为第一同类实体的提取实体汇总作为第一同类判定相似组;
28、将第一同类判定相似组内所有提取实体中,在源文本中的出现次数最多的提取实体当作第一替换实体,并利用所有第一替换实体替换源文本的所有文本处理分句中,对应第一同类判定相似组内除对应第一替换实体以外剩余的所有提取实体,获得源文本的所有文本分句;
29、若第一同类判定相似组内所有提取实体在源文本的出现次数相同时,则将第一同类判定相似组内所有提取实体中,在源文本中最先出现的提取实体当作第一替换实体,并利用所有第一替换实体替换源文本的所有文本处理分句中,对应第一同类判定相似组内除对应第一替换实体以外剩余的所有提取实体,获得源文本的所有文本分句;
30、将源文本的每个文本分句以及对应的相邻前一文本分句和对应的相邻后一文本分句组合,获得所有文本分句组。
31、优选的,基于大语言模型的知识图谱构建方法,基于源文本的所有文本分句组获得源文本的所有第二判定相似实体组,包括:
32、基于预设大语言模型获得每个文本分句组内每个文本分句的所有提取实体;
33、基于每个字的向量元素表示获得每个文本分句组内每个文本分句的所有提取实体的向量表示,将每个文本分句组中任意两个不同的提取实体作为一组比对组,获得所有比对组,其中,每个比对组内的两个提取实体为比对实体;
34、获取每个比对组的两个比对实体在对应文本分句组中出现的次数之和作为对应比对组的计算次数;
35、基于每个比对组内两个提取实体的向量表示和对应比对组的计算次数获得对应比对组内两个提取实体之间的计算替代值,即为:
36、
37、其中,σ为当前计算的比对组内两个提取实体之间的计算替代值,ε为当前计算的比对组的计算次数,z0为当前计算的比对组对应的文本分句组内的所有文本分句的所有提取实体的个数之和,r(为当前计算的比对组内的第一个提取实体的第j个向量元素,c(为当前计算的比对组内的第二个提取实体的第j个向量元素,k为当前计算的比对组内字数较少的提取实体的字数,ln为自然对数,且自然常数e的取值为2.718;
38、将所有计算替代值大于预设计算替代值阈值的比对组,作为源文本的所有第二判定相似实体组。
39、优选的,基于大语言模型的知识图谱构建方法,基于源文本的所有第二判定相似实体组获得源文本的所有文本处理分句的所有标准提取实体,包括:
40、将每个第二判定相似组内的两个提取实体,判定为互为第二同类实体,并将源文本中所有互为第二同类实体的提取实体汇总作为第二同类判定相似组;
41、将第二同类判定相似组内所有提取实体中,在源文本的出现次数最高的提取实体当作第二替换实体,并利用所有第二替换实体替换源文本的所有文本处理分句中,对应第二同类判定相似组内除对应第二替换实体以外剩余的所有提取实体,获得所有替换后的文本处理分句;
42、若第二同类判定相似组内所有提取实体在源文本的出现次数相同时,则将第二同类判定相似组内所有提取实体中,在源文本中最先出现的提取实体当作第二替换实体,并利用所有第二替换实体替换源文本的所有文本处理分句中,对应第二同类判定相似组内除对应第二替换实体以外剩余的所有提取实体,获得所有替换后的文本处理分句;
43、将每个替换后的文本处理分句内的所有提取实体作为对应文本处理分句的标准提取实体。
44、优选的,基于大语言模型的知识图谱构建方法,s4:基于源文本的所有文本处理分句的所有标准提取实体和所有预文本处理分句内的提取关系获得知识图谱构建结果,包括:
45、基于源文本的所有文本处理分句的所有标准提取实体对所有预文本处理分句内的提取关系进行简化获得所有简化提取关系;
46、将源文本的所有文本处理分句的所有标准提取实体作为节点,将所有简化提取关系作为关系边,获得知识图谱构建结果。
47、本发明提供了一种基于大语言模型的知识图谱构建系统,用于执行实施例1至9中任一一种基于大语言模型的知识图谱构建方法,包括:
48、预处理模块,用于对源文本进行数据预处理,获得源文本的所有源文本分句,基于源文本的所有源文本分句获得源文本的所有预文本处理分句;
49、提取模块,用于基于源文本的所有预文本处理分句和预设大语言模型获得源文本的所有预文本处理分句内的所有提取实体和所有提取关系,基于所有预文本处理分句的所有提取实体获得源文本的所有文本处理分句;
50、计算模块,用于基于源文本的所有文本处理分句的所有提取实体获得源文本的所有第一判定相似实体组,并基于源文本的所有文本处理分句和所有第一判定相似实体组,获得源文本的所有文本分句组,基于源文本的所有文本分句组获得源文本的所有第二判定相似实体组,基于源文本的所有第二判定相似实体组获得源文本的所有文本处理分句的所有标准提取实体;
51、构建模块,用于基于源文本的所有文本处理分句的所有标准提取实体和所有预文本处理分句内的提取关系获得知识图谱构建结果。
52、本发明相对于现有技术产生的有益效果为:根据源文本的所有文本处理分句的所有提取实体获得源文本的所有第一判定相似实体组,有效地将表征含义相同的实体进行初步整合归类,减少后续处理的复杂性,并根据源文本的所有文本处理分句和所有第一判定相似实体组,获得源文本的所有文本分句组,便于后续根据文本分句组内分句的语义结构和上下文关系进行提取实体再次归类,根据源文本的所有文本分句组获得源文本的所有第二判定相似实体组,实现了根据语义结构和上下文关系进一步提高对提取实体归类的准确性,确保将含义相同的提取实体归入同一组,便于知识图谱构建的准确性,根据源文本的所有第二判定相似实体组获得源文本的所有文本处理分句的所有标准提取实体,便于后续知识图谱构建结果的准确获取,根据源文本的所有文本处理分句的所有标准提取实体和所有预文本处理分句内的提取关系获得知识图谱构建结果,实现了对知识图谱的简化,提高了知识图谱构建的效率。
53、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的本技术文件中所特别指出的结构来实现和获得。
54、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本文地址:https://www.jishuxx.com/zhuanli/20241204/339728.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。