技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于自然问答与知识图谱的辅助医疗管理方法及系统与流程  >  正文

基于自然问答与知识图谱的辅助医疗管理方法及系统与流程

  • 国知局
  • 2024-09-05 14:29:18

本发明涉及医疗管理技术,尤其涉及基于自然问答与知识图谱的辅助医疗管理方法及系统。

背景技术:

1、近年来,人工智能技术在医疗健康领域得到了广泛应用。特别是随着自然语言处理、知识图谱等技术的发展,智能问答系统为辅助医疗管理提供了新的可能。传统的医疗管理主要依赖医生的经验和专业知识,存在效率低、成本高、主观性强等问题。因此,亟需开发一种基于自然问答与知识图谱的辅助医疗管理系统,帮助医生快速、准确地获取所需信息,提高医疗管理的智能化水平。

2、目前,医疗领域的问答系统主要有以下几类:基于规则的问答系统、基于检索的问答系统和基于知识图谱的问答系统。基于规则的方法通过构建问题模板和答案模板,利用模式匹配实现问答,但需要大量人工构建规则,扩展性差。基于检索的方法通过在文本库中搜索与问题相似度最高的句子作为答案,但难以处理复杂问题和生成完整答案。基于知识图谱的方法利用结构化的知识表示问题和答案,通过语义解析和推理生成答案,能够提供更精准、全面的答案。

3、在现有基于知识图谱的医疗问答系统中,主要存在以下不足:1)知识图谱构建不完善,缺乏高质量的医疗知识;2)问题理解和语义解析能力有限,难以准确抽取问题中的关键信息;3)答案生成方式单一,缺乏多样性和灵活性;4)缺乏用户交互和反馈机制,难以适应实际应用场景。

技术实现思路

1、本发明实施例提供基于自然问答与知识图谱的辅助医疗管理方法及系统,能够解决现有技术中的问题。

2、本发明实施例的第一方面,

3、提供基于自然问答与知识图谱的辅助医疗管理方法,包括:

4、使用预训练的bert模型提取医疗文本每个词的语义向量,将bert模型提取的语义向量输入bilstm层进行序列编码,将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体;

5、利用预训练的bert模型将自然语言问题转化为问题向量,计算问题向量与预先构建的医疗知识图谱中所有实体的嵌入向量之间的相似度,选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组;

6、将医疗实体、候选答案和知识三元组分别输入三个独立的bigru编码器进行特征提取,在seq2seq框架下使用注意力机制对bigru编码器的输出进行动态加权聚合,作为解码器各个时间步的注意力语境向量,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本。

7、在一种可选的实施方式中,

8、将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体包括:

9、确定bilstm层的输出向量对应的发射特征,所述发射特征用于度量bilstm层的输出向量与标签之间的相容性;

10、使用条件随机场模型对标签序列建模,通过发射特征和转移特征来刻画标签之间的依赖关系,其中,所述转移特征用于刻画相邻标签之间的依赖关系;

11、将所述发射特征和所述转移特征用于条件随机场模型的推断阶段,采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列,对超过预设长度阈值的候选标签序列进行提前终止;

12、对累积概率低于动态阈值的候选标签序列进行剪枝,对候选标签序列中的重复标签子串进行合并,以及根据预设的标签约束规则对不合法的标签组合进行剪枝,直到达到序列末尾,从所述多个候选标签序列中选取条件概率最大的作为全局最优的标签序列。

13、在一种可选的实施方式中,

14、采用近似解码算法通过递推地保留每一推理步骤的多个候选标签序列包括:

15、

16、其中,表示第i步beam search得到的第b个最优前缀标签序列的非规范化概率,b表示beam search中保留的候选序列索引,b'表示前一步beam search中保留的候选序列索引;yi表示当前时刻i的标签;表示前一步第b'个序列的结尾标签;表示相邻标签之间的转移特征值;f()表示发射特征函数,度量输入表示x在位置i与标签yi的相容性;n表示输入序列的长度。

17、在一种可选的实施方式中,

18、选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组包括:

19、获取目标问题的向量表示,计算所述问题向量与知识图谱中各实体向量的相似度,选取相似度最高的k个实体作为候选答案起点;

20、以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值l的关系路径,得到候选关系路径集合,其中,所述top-k跳跃式搜索策略在每一跳选取相似度最高的k个节点,并从整个搜索过程中选取综合相似度最高的k个节点,所述候选关系路径与所述问题向量的相似度采用基于注意力机制的编码器计算;

21、对于所述候选关系路径集合中的各候选关系路径,提取其包含的所有知识三元组,采用多粒度评分机制,计算各知识三元组与所述目标问题的相关性,所述多粒度评分机制包括单粒度评分、双粒度评分和整体评分,所述单粒度评分考虑三元组的头实体、关系和尾实体与问题的相似度,所述双粒度评分考虑三元组的头实体-关系、关系-尾实体和头实体-尾实体的组合与问题的相似度,所述整体评分考虑整个三元组与问题的相似度;

22、根据所述多粒度评分机制得到的各知识三元组的相关性,结合预设权重,计算各知识三元组的最终综合相关性得分,选取得分最高的知识三元组的尾实体作为所述目标问题的最终答案;如果不同知识三元组的尾实体不一致,则选取对应候选关系路径综合相关性得分最高的知识三元组的尾实体作为最终答案。

23、在一种可选的实施方式中,

24、以所述候选答案起点为中心,采用top-k跳跃式搜索策略,在知识图谱上搜索长度不超过预设阈值l的关系路径,得到候选关系路径集合包括:

25、获取知识图谱中当前节点的文本描述向量和问题的向量表示,计算两个向量的余弦相似度作为语义相似度打分项;

26、将语义相似度打分项与基于transe嵌入向量欧氏距离的原有打分项进行加权求和,得到改进的节点打分函数,所述改进的节点打分函数用于评估节点与问题的相关性;

27、基于知识图谱中实体的出现频率计算实体重要性权重,实体的出现频率越高,其重要性权重越低;

28、将实体重要性权重引入改进的节点打分函数,对打分结果进行调整;

29、使用基于注意力机制的路径编码器对关系路径进行表示学习,根据问题向量与路径中各关系向量的相似度计算路径注意力权重,通过加权求和获得路径向量,将多个路径向量进行汇总得到候选关系路径集合。

30、在一种可选的实施方式中,

31、将实体重要性权重引入改进的节点打分函数包括:

32、score(rk)=α*(-||eans+rpath-ek||2)+β*sim(ek,q)+γ*w(ek);

33、其中,ek表示第k个节点,α*、β*、γ*分别表示路径相关度系数、语义相似度系数、实体重要性权重的系数,eans、rpath分别表示候选答案实体和关系路径向量,q表示问题向量,w表示实体重要性权重。

34、在一种可选的实施方式中,

35、在seq2seq框架下使用注意力机制对bigru编码器的输出进行动态加权聚合,作为解码器各个时间步的注意力语境向量,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本包括:

36、利用双向gru分别对问题、候选答案实体和候选答案关系进行编码,得到问题编码向量、候选答案实体编码向量和候选答案关系编码向量,所述双向gru能够同时利用过去和未来的上下文信息,获得更全面的语义表示;

37、解码器在每一步根据当前隐藏状态计算与所有问题编码向量、候选答案实体编码向量和候选答案关系编码向量的注意力权重,通过加权求和得到注意力语境向量,所述注意力机制使解码器能够自适应地聚焦于不同的编码信息;

38、将当前解码器隐藏状态与注意力语境向量拼接后通过全连接层和softmax层,得到当前时间步的答案token概率分布;

39、从所述概率分布中采样或选择概率最大的token作为当前时刻的预测输出,同时输入下一时刻解码器,直到遇到句末标记,生成完整的答案文本;

40、训练时采用teacher forcing策略,每一步将真实答案token输入解码器;推断时则根据当前时刻的预测采样下一个token;

41、引入启发式规则对解码过程进行约束,根据问题意图类型选择目标答案开头和结尾。

42、本技术实施例的第二方面,

43、提供基于自然问答与知识图谱的辅助医疗管理系统,包括:

44、第一单元,用于使用预训练的bert模型提取医疗文本每个词的语义向量,将bert模型提取的语义向量输入bilstm层进行序列编码,将bilstm层的输出向量送入crf层进行序列标注,通过动态规划算法解码出全局最优的标签序列,识别出医疗文本中的医疗实体;

45、第二单元,用于利用预训练的bert模型将自然语言问题转化为问题向量,计算问题向量与预先构建的医疗知识图谱中所有实体的嵌入向量之间的相似度,选择多个最相似的实体作为候选答案,以多个最相似的实体为起点在医疗知识图谱上搜索与问题向量相关的关系路径,确定与问题向量匹配的知识三元组;

46、第三单元,用于将医疗实体、候选答案和知识三元组分别输入三个独立的bigru编码器进行特征提取,在seq2seq框架下使用注意力机制对bigru编码器的输出进行动态加权聚合,作为解码器各个时间步的注意力语境向量,解码器根据当前隐藏状态、注意力语境向量以及之前生成的词预测下一个答案词的概率分布,通过极大似然估计来生成自然语言形式的答案文本。

47、本发明实施例的第三方面,

48、提供一种电子设备,包括:

49、处理器;

50、用于存储处理器可执行指令的存储器;

51、其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。

52、本发明实施例的第四方面,

53、提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。

54、本技术利用预训练的bert模型提取医疗文本的语义特征,充分利用bert模型在大规模语料上学习到的领域无关的语言知识,增强了医疗实体识别的泛化能力和鲁棒性。采用bilstm+crf的序列标注架构,能够有效地捕捉医疗实体的上下文信息和长距离依赖关系,同时利用crf层进行全局优化,提高了医疗实体识别的准确率。通过动态规划算法解码出全局最优的标签序列,避免了贪心解码可能带来的错误传播问题,使得识别结果更加可靠。

55、此外,利用预训练的bert模型将自然语言问题映射到语义空间,得到问题向量的低维密集表示,有效地消除了词汇鸿沟,提高了问题理解的准确性。通过计算问题向量与知识图谱中实体嵌入向量的相似度,快速、精准地检索出与问题相关的候选答案实体,减少了搜索空间,提高了答案检索的效率。以候选答案实体为起点,在知识图谱上搜索与问题相关的关系路径,充分利用了知识图谱的结构化信息,获得了丰富、完整的答案线索,为后续答案生成提供了有力支持。

56、进一步地,将医疗实体、候选答案和知识三元组等多源信息输入独立的bigru编码器进行特征提取,充分利用了问题、答案和背景知识之间的互补信息,生成了语义丰富、信息全面的答案表示。在seq2seq框架下使用注意力机制对编码器输出进行动态加权聚合,使得解码器能够根据当前生成的内容自适应地分配注意力权重,捕捉问题和答案之间的关键联系,生成更连贯、流畅的答案文本。通过极大似然估计来优化答案生成过程,使得生成的答案与参考答案的条件概率最大,提高了答案的质量和可读性。

本文地址:https://www.jishuxx.com/zhuanli/20240905/286720.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。