一种基于医学知识图谱的检索增强生成系统的制作方法
- 国知局
- 2024-07-31 23:25:41
本发明应用于生物医学信息检索领域,具体是一种基于医学知识图谱的检索增强生成系统。
背景技术:
1、大型语言模型(llms)正在改变信息检索的方式,通过自然语言对话就可以总结和呈现大量的知识。然而,这些模型在预训练期间学习了大量的数据,但它们倾向于从训练数据中提取最常见的信息,而忽略了罕见但可能同样重要的知识点。在生物医学研究领域,最新的发现对科研人员、医生和学生至关重要,但是这类最新的研究知识往往不存在于llms的语料中,或是被不断增长的文献库(信息过载问题)所掩盖。因此,现有的llms在处理长尾知识时存在局限性。此外,随着医学文献的不断增长,信息过载问题日益严重,使得从大量文献中快速准确地检索到相关信息变得困难。为了解决这一问题,需要一种能够有效地从医学文献中检索和总结知识的系统,该系统应能够识别和利用文献中的实体和关系,以及它们之间的相互作用。
技术实现思路
1、本发明所要解决的技术问题是针对现有技术的不足,提供一种基于医学知识图谱的检索增强生成系统。
2、为解决上述技术问题,本发明的一种基于医学知识图谱的检索增强生成系统,包括:
3、医学知识图谱构建模块,利用大型语言模型从医学文献中提取实体、关系和属性,以构建医学知识图谱;
4、实体识别和关系提取模块,通过分析用户查询来识别相关的医学实体,并提取实体间的关系;
5、检索增强模块,基于实体识别结果从医学知识图谱中检索实体相关信息,并生成结构化查询;
6、生成模块,结合检索到的信息和用户查询,通过大型语言模型生成精确、全面的答案。
7、作为一种可能的实施方式,进一步的,所述检索增强模块包括:
8、增强提示构造单元,通过在传统的检索提示中插入额外的文本块来实现增强检索提示的生成;
9、所述文本块从知识图谱中动态选取,以包含与用户查询相关的关键信息,包括在llm预训练数据中不常见的信息。
10、作为一种可能的实施方式,进一步的,所述检索增强模块还包括:
11、嵌入空间相似性匹配单元,使用嵌入技术来计算文本块与用户问题在嵌入空间中的相似度,根据相似度高低,选取前n个最相关的文本块用于查询增强。
12、作为一种可能的实施方式,进一步的,所述检索增强模块还包括:
13、基于知识图谱的信息检索单元,使用知识图谱进行深入的文本检索,利用实体识别技术,从用户问题中识别出关键的实体和它们的关系,将识别出的实体和关系映射到知识图谱中相应的节点和边,在知识图谱中执行查询,根据已识别的实体和关系,沿着最短路径进行信息检索,确保检索结果的相关性和精确性。
14、作为一种可能的实施方式,进一步的,所述检索增强模块还包括:
15、结果综合与优化单元,将所有检索到的信息进行整合和优化,以生成最终的增强提示,将从不同来源检索到的信息融合,优化信息的表示方式,根据融合后的信息重新构造增强提示,并确保提示的连贯性和信息的完整性。
16、一种基于医学知识图谱的检索增强生成方法,具体包括如下步骤:
17、a.利用大型语言模型从医学文献中提取实体、关系和属性,以构建医学知识图谱;
18、b.通过分析用户查询来识别相关的医学实体,并提取实体间的关系;
19、c.基于步骤b的实体识别结果从步骤a构建的医学知识图谱中检索实体相关信息,并生成结构化查询;
20、d.结合检索到的信息和用户查询,通过大型语言模型生成精确、全面的答案。
21、作为一种可能的实施方式,进一步的,所述步骤c包括:
22、c1.对用户的查询进行语义分析和总结,明确查询的关键意图和需求;在传统的检索提示中插入额外的文本块来实现增强检索提示的生成;所述文本块从知识图谱中动态选取,以包含与用户查询相关的关键信息,包括在llm预训练数据中不常见的信息。
23、作为一种可能的实施方式,进一步的,所述步骤c还包括:
24、c2.使用嵌入技术来计算文本块与用户问题在嵌入空间中的相似度并加以利用,包括:
25、问题向量化,将用户的问题转化为嵌入空间中的向量;
26、相似度计算,从语料库中提取出多个文本块的嵌入向量,并计算它们与问题向量的余弦相似度;
27、选择相关文本,根据相似度高低,选取前n个最相关的文本块,以便用于后续的查询增强。
28、作为一种可能的实施方式,进一步的,所述步骤c还包括:
29、c3.使用知识图谱进行深入的文本检索,首先利用实体识别技术,从用户问题中识别出关键的实体和它们的关系,将识别出的实体和关系映射到知识图谱中相应的节点和边,在知识图谱中执行查询,根据已识别的实体和关系,沿着最短路径进行信息检索,确保检索结果的相关性和精确性。
30、作为一种可能的实施方式,进一步的,所述步骤c还包括:
31、c4.将所有检索到的信息进行整合和优化,以生成最终的增强提示,将从不同来源检索到的信息融合,优化信息的表示方式,根据融合后的信息重新构造增强提示,并确保提示的连贯性和信息的完整性。
32、本发明采用以上技术方案,具有以下有益效果:
33、该系统通过整合大型语言模型和专门构建的医学知识图谱,能够更准确地识别和检索与用户查询高度相关的信息。这种方法特别有效于捕捉到那些在常规语言模型训练数据中不常见或被忽略的细节信息,因而显著提高了检索任务的精确度和召回率。
34、通过专门的知识图谱,该系统能够访问和利用普通预训练模型可能未覆盖的罕见或非常专业的医学知识。这对于医学和生物医学领域的研究者、医生和学生尤其有价值,因为它们依赖于最新且准确的信息来进行临床决策和学术研究。
35、系统设计包括对用户查询的深入语义分析,这不仅帮助于更好地理解用户的意图,还能根据这一理解优化信息的检索和呈现。这种深入的理解使得系统能够提供更为个性化和精确的答复,从而提高用户满意度。该系统的设计允许它适应不同类型的医学文献和用户需求。知识图谱的使用为系统提供了一种灵活的框架,可以根据需要扩展或修改以包括新的医学发现或更改的医学信息,这种适应性是传统信息检索系统难以比拟的。通过自动化的实体识别和知识图谱查询,该系统大幅度加快了从大量医学文献中检索和提取信息的速度。这种快速响应能力对于需要迅速获得关键医学信息的用户来说极为重要。
技术特征:1.一种基于医学知识图谱的检索增强生成系统,其特征在于,包括:
2.根据权利要求1所述的一种基于医学知识图谱的检索增强生成系统,其特征在于:所述检索增强模块包括:
3.根据权利要求1所述的一种基于医学知识图谱的检索增强生成系统,其特征在于:所述检索增强模块还包括:
4.根据权利要求1所述的一种基于医学知识图谱的检索增强生成系统,其特征在于:所述检索增强模块还包括:
5.根据权利要求1所述的一种基于医学知识图谱的检索增强生成系统,其特征在于:所述检索增强模块还包括:
6.一种基于医学知识图谱的检索增强生成方法,其特征在于,具体包括如下步骤:
7.根据权利要求6所述的一种基于医学知识图谱的检索增强生成方法,其特征在于:所述步骤c包括:
8.根据权利要求6所述的一种基于医学知识图谱的检索增强生成方法,其特征在于:所述步骤c还包括:
9.根据权利要求6所述的一种基于医学知识图谱的检索增强生成方法,其特征在于:所述步骤c还包括:
10.根据权利要求6所述的一种基于医学知识图谱的检索增强生成方法,其特征在于:所述步骤c还包括:
技术总结本发明公开一种基于医学知识图谱的检索增强生成系统,其特征在于,包括:医学知识图谱构建模块,利用大型语言模型从医学文献中提取实体、关系和属性,以构建医学知识图谱;实体识别和关系提取模块,通过分析用户查询来识别相关的医学实体,并提取实体间的关系;检索增强模块,基于实体识别结果从医学知识图谱中检索实体相关信息,并生成结构化查询;生成模块,结合检索到的信息和用户查询,通过大型语言模型生成精确、全面的答案。技术研发人员:王家逸受保护的技术使用者:新大陆数字技术股份有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/197504.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表