基于句法关系注意力网络的基因药物关系抽取方法和系统与流程
- 国知局
- 2024-08-08 16:49:59
本发明涉及信息抽取领域,特别是涉及基于句法关系注意力网络的基因药物关系抽取方法和系统。
背景技术:
1、随着生物医学文献量的快速增长,手动提取其中存储的生物医学知识变得越来越困难。关系提取是文本挖掘的重要任务之一,它可以帮助医学研究人员有效地检索文献中的关联信息。因此,研究高效的生物医学关系提取方法显得尤为必要。
技术实现思路
1、基于此,提供一种基于句法关系注意力网络的基因药物关系抽取方法。该方法有利于高效的对生物医学文献实现基因药物关系抽取。
2、一种基于句法关系注意力网络的基因药物关系抽取方法,包括:
3、s100、获取生物医学文本,
4、s200、针对获取的生物医学文本,分析生物医学文本的句子的语法结构,形成关系图,
5、s300、将关系图输入关系图注意力网络,从关系图注意力网络输出句子的结构信息,
6、s400、将句子的结构信息和需要抽取关系的实体信息拼接并输入任务网络,获得预测关系。
7、在其中一个实施例中,所述步骤200中,使用stanford corenlp分析生物医学文本的句子的语法结构,形成关系图。
8、在其中一个实施例中,
9、所述步骤s200中,所述关系图用ω表示,且ω=(n,e),其中,n是输入关系图中的结点集合,n={n1,n2,...,nm},nm代表句子中的结点,e是边集合,e={e1,e2,...el},el是每条边,每条边el被表示为一个三元组:(nin,nout,l),其中,nin表示该边的入结点,nout表示该边的出结点,l表示该边的具体标签。
10、在其中一个实施例中,步骤s300中,所述将关系图输入关系图注意力网络,输出句子的结构信息具体包括:
11、所述关系图注意力网络包括关系图概率网络,
12、将关系图先输入关系图概率网络,计算各结点之间的关联概率,形成关联概率矩阵p,
13、接着,基于关联概率矩阵p,对关系图的原始结点加权求和,得到所有结点的特征矩阵h,其中,对于任意结点ni,其特征表示hi计算如下:
14、hi=pit·en,
15、其中,pi是关联概率矩阵p的第i行,表示结点ni与所有结点之间的关联概率,t表示矩阵转置,en是所有结点的词嵌入矩阵。
16、在其中一个实施例中,
17、使用多套独立的参数完成对特征的学习,进而获得多个特征矩阵h,采用平均值的方法得到最终的关系图注意力网络的输出,对于某个结点ni的输出特征oi,其计算表达式如下:
18、
19、其中,hk是基于第k套参数计算得出的所有结点的特征矩阵,k表示总共有k套独立的参数。
20、在其中一个实施例中,所述关联概率网络依次包括一个卷积层、一个最大池化层、一个全连接层和一个softmax层。
21、在其中一个实施例中,步骤s400中,所述任务网络依次包括一个卷积层、一个最大池化层、两个全连接层和一个softmax层。
22、在其中一个实施例中,所述需要抽取关系的实体信息用ientity表示,关系图注意力网络输出的句子的结构信息用isentence表示,
23、
24、其中,embeding(ni)表示对实体ni的词嵌入,
25、将isentence和ientity拼接作为任务网络的输入i,即:
26、i=(isentence,ientity)。
27、一种基于句法关系注意力网络的基因药物关系抽取系统,包括:
28、数据获取单元,所述数据获取单元用于获取生物医学文本,
29、数据处理单元,所述数据处理单元用于执行以下操作:
30、s200、针对获取的生物医学文本,使用stanford corenlp分析生物医学文本的句子的语法结构,形成关系图,
31、s300、将关系图输入关系图注意力网络,从关系图注意力网络输出句子的结构信息,
32、s400、将句子的结构信息和需要抽取关系的实体信息拼接并输入任务网络,获得预测关系。
33、一种计算机存储介质,所述计算机存储介质中存储有至少一个可执行指令,所述可执行指令使处理器执行所述的基于句法关系注意力网络的基因药物关系抽取方法对应的操作。
34、本申请的有益效果为:
35、本申请将自注意力机制与句法关系图相结合,提出了一种面向图结构建模的关系图注意力网络(rga network),用于学习多个句子的特征表示。本申请将关系图作为输入,经过关系概率网络(rgp network),计算出每个节点与其它结点之间的关联概率,得到关联概率矩阵。基于此,将每个结点的输出特征表示为与句子中其它结点的加权和,通过反向传播实现对不同关系的关注度的自我学习。并通过任务网络可获得最终的预测关系。本申请有利于高效的对生物医学文献实现基因药物关系抽取。
36、本申请网络结构简单,计算开销低,不仅在基因-药物-疾病关系提取任务中表现出优异的竞争性能,而且可以稳健地推广到其他任务,无需额外的改进,有效解决了生物医学关系抽取中面临的序列过长的问题。有助于更好地理解基因、药物和疾病之间的复杂关系,为生物医学研究提供了有力的工具和方法。
技术特征:1.一种基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,包括:
2.根据权利要求1所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,所述步骤200中,使用stanford corenlp分析生物医学文本的句子的语法结构,形成关系图。
3.根据权利要求2所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,
4.根据权利要求3所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,步骤s300中,所述将关系图输入关系图注意力网络,从关系图注意力网络输出句子的结构信息,具体包括:
5.根据权利要求4所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,
6.根据权利要求4所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,所述关联概率网络依次包括一个卷积层、一个最大池化层、一个全连接层和一个softmax层。
7.根据权利要求3所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,步骤s400中,所述任务网络依次包括一个卷积层、一个最大池化层、两个全连接层和一个softmax层。
8.根据权利要求7所述的基于句法关系注意力网络的基因药物关系抽取方法,其特征在于,所述需要抽取关系的实体信息用ientity表示,关系图注意力网络输出的句子的结构信息用isentence表示,
9.一种基于句法关系注意力网络的基因药物关系抽取系统,其特征在于,包括:
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一个可执行指令,所述可执行指令使处理器执行如权利要求1至7中任意一项所述的基于句法关系注意力网络的基因药物关系抽取方法对应的操作。
技术总结本发明涉及一种基于句法关系注意力网络的基因药物关系抽取方法和系统。该方法包括:S100、获取生物医学文本,S200、针对获取的生物医学文本,分析生物医学文本的句子的语法结构,形成关系图,S300、将关系图输入关系图注意力网络,输出句子的结构信息,S400、将句子的结构信息和需要抽取关系的实体信息融合并输入任务网络,获得预测关系。该方法有利于高效的对生物医学文献实现基因药物关系抽取。技术研发人员:陈延明,周雪阳,傅启明,仲陶,朱卿,兰青受保护的技术使用者:核工业总医院技术研发日:技术公布日:2024/8/5本文地址:https://www.jishuxx.com/zhuanli/20240808/270645.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。