基于对比学习和异构图注意力网络的作者名称消歧方法

2022-12-20 00:04:44 来源：中国专利 TAG：

1.本发明涉及知识图谱构建的实体消歧技术领域，尤其是基于对比学习和异构图注意力网络的作者名称消歧方法。

背景技术：

2.无论是当今的大数据，还是最近火热的元宇宙，在知识信息化的过程中，如何消除同名实体的歧义是一个重要且具有挑战性的问题。此问题在学术数据库建设、信息检索、自动问答、推荐系统等领域普遍存在且具有重要的研究意义。作者名称消歧在学术数据库建设中具有重要的研究价值，近些年有大量的学者参与相关研究。其在学术数据库建设方面的消歧主要是在同名作者方面，目前系统中大量的论文存在错误分配的情况，其中中国学者的英文名称存在歧义的现象尤为严重。其中很多是在作者名称消歧系统运行时产生的历史错误，并且这些错误会随着系统论文数量的增加而逐渐扩大。
3.在对学术数据库建设进行调查的过程中，历史错误又分为论文过合并以及论文过拆分两个子场景。论文的过合并问题是指某专家论文库中存在其他专家的论文，论文的过拆分问题是指同一个专家的论文被拆分成了若干个簇。目前这两种现象广泛出现在and算法的运行过程，并且这些错误如果不提高重视并加以解决的话会严重影响到后续算法的稳定执行，此问题是当前and研究中的一大挑战。

技术实现要素：

4.本发明需要解决的技术问题是提供一种基于对比学习和异构图注意力网络的作者名称消歧方法，通过异构图神经网络，聚类，对比学习等技术，通过对论文进行初步聚类将消歧问题转化成对齐问题，更好的实现了同名作者消歧的消歧问题，在一定程度上解决了论文过合并和论文过拆分的问题。
5.为解决上述技术问题，本发明所采用的技术方案是：
6.一种基于对比学习和异构图注意力网络的作者名称消歧方法，包括以下步骤：
7.s1，数据预处理：使用mongodb存取论文名称、作者、机构信息，使用python的字符处理库对数据进行清洗，去除噪声获得更加规范的文本，清洗成适用于后续步骤的数据；
8.s2，论文表征学习：使用对比学习对论文进行表征学习，获得论文的统一编码的嵌入；
9.s3，论文初步聚类：以纯度优先为原则对论文进行聚类，缓解论文过合并问题，得到论文簇；
10.s4，论文簇的对齐：对上一步得到的论文簇使用异构图注意力网络进行对齐；
11.s5，获得论文消歧结果：提出过拆分检测和过拆分对齐算法，保证论文消歧质量。
12.本发明技术方案的进一步改进在于：s2中，具体包括：
13.s21，使用语言预训练模型bert获取论文表征，此过程描述为：
14.15.式中，是作者a的第i篇论文，是论文对应的表征向量；
16.s22，构造正例对构造负例对并对正例和负例进行组合；
17.s23，引入训练的目标函数h＝f(bert(x))，训练的目标损失li描述为：
[0018][0019]
式中，n为最小batch_size，τ是temperature超参数，sim(h1，h2)为余弦相似度
[0020]
s24，经过训练后最终得到论文的表示向量vi。
[0021]
本发明技术方案的进一步改进在于：s3中，具体包括：
[0022]
s31，通过将聚类过程作为消歧的中间过程，按照规则将论文划分成更多的簇，降低同一簇中出现不同作者的情况；
[0023]
s32，通过lightgbn和层次聚类模型进行聚类，采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树；
[0024]
s33，提出指标recall
over-merge
去描述聚类结果的过合并现象，此指标定义描述为：
[0025][0026]
式中，p表示两个同一作者论文在同一个簇中的情况数量；fn表示两个同一作者论文分别在两个簇中的情况数量；m为理想聚类结果数，n为实际聚簇结果数；recall
over-merge
值越高聚类所带来的过拆分程度就越低。
[0027]
本发明技术方案的进一步改进在于：s4中，具体包括：
[0028]
s41，为名称相同的作者实体生成候选对；
[0029]
s42，对于每一个作者实体，构建异构图，如果候选对之间的机构、合著者名称相同或者论文相似，则相互连接，得到异构图g(v,e)；
[0030]
s43，利用异构图注意力网络确定作者匹配。
[0031]
本发明技术方案的进一步改进在于：s43中，具体包括：
[0032]
s431，通过s2的表示学习模型得到每一个论文实体的语义嵌入，通过line模型对s42中构建的异构图进行训练，得到每个实体的结构嵌入；
[0033]
s432，将两种嵌入合并在一起作为输入特征f，通过self-attention求出不同作者实体e之间的重要性，此过程描述为：
[0034]
t
ij
＝self-attention(wfi，wfj)
[0035]
[0036]
式中，w为共享的权重矩阵，对于每一个式中，w为共享的权重矩阵，对于每一个指的是ei的所有邻居节点。
[0037]
本发明技术方案的进一步改进在于：s5中，具体包括：
[0038]
s51，按照排列组合的规则生成无重复的pairs《name:cid1,name:cid2》，构建异构图；
[0039]
s52，使用预先训练好的hgat去检测一组pair是否从属于一个作者；
[0040]
s53，通过给出对齐规则对论文簇进行对齐；
[0041]
s54，过程需要进行多次，次数定义为loops，最终得出的cluster_pubs为最后的消歧结果。
[0042]
本发明技术方案的进一步改进在于：s53中，具体包括：
[0043]
s531，计算每个节点的临边节点取判断为对齐两两节点的相似度得分最高的一组边进行连接；
[0044]
s532，在所有节点都进行判定后，使用dfs实现联通子图算法，得出对齐规则，并进行合并。
[0045]
由于采用了上述技术方案，本发明取得的技术进步是：
[0046]
1、本发明通过对比学习技术对基于bert的论文表征进行微调让学习到的论文表征更适用于作者名称消歧这个任务上。
[0047]
2、本发明根据上一步获取的论文表征计算各个论文之间的相似度，以对论文进行初步聚类以获得细粒度的论文簇，此过程实现了将消歧问题转换为对齐问题，并充分利用了论文的文本语义信息进行聚类，生成了纯度高的细粒度的论文簇。
[0048]
3、本发明为了得到最后的消歧结果，需要对细粒度的论文簇进行对齐，此过程首先使用利用论文簇的各个属性构建异构图网络，然后利用异构图神经网络学习论文簇的表征，最后计算两两论文簇之间的相似度，取两两最相似的进行对齐，此过程考虑到了论文中的结构信息并通过异构图神经网络学习，从而得到了最终的论文消歧结果。
附图说明
[0049]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；
[0050]
图1是本发明提供的基于对比学习和异构图注意力网络的作者名称消歧方法的算法流程图；
[0051]
图2是本发明提供的基于对比学习和异构图注意力网络的作者名称消歧方法的算法模型框架图。
具体实施方式
[0052]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的
过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0053]
本技术实施例通过提供一种基于对比学习和异构图注意力网络的作者名称消歧方法，解决了现有技术中存在的“在and算法的运行过程广泛出现的论文过合并以及论文过拆分现象，会严重影响到后续算法的稳定执行”的问题，本技术着重考虑and过程中可能产生的两种错误场景，并且提出针对此类问题的and算法以及其在大数据场景下如何应用。
[0054]
部分专业术语解释：
[0055]
作者名称消歧：author name disambiguation—and,对学术数据库中的同名作者进行正确匹配，消除同名作者的歧义。
[0056]
下面结合附图及实施例对本发明做进一步详细说明：
[0057]
如图1、2所示，一种基于对比学习和异构图注意力网络的作者名称消歧方法，包括以下步骤：
[0058]
s1，数据预处理；
[0059]
使用mongodb存取论文名称、作者、机构等信息，使用python的字符处理库对数据进行清洗，去除噪声获得更加规范的文本，清洗成适用于后续步骤的数据；
[0060]
s2，论文表征学习；
[0061]
使用对比学习对论文进行表征学习，获得论文的统一编码的嵌入；
[0062]
s3，论文初步聚类；
[0063]
以纯度优先为原则对论文进行聚类，缓解论文过合并问题；
[0064]
s4，论文簇的对齐；
[0065]
对上一步得到的论文簇使用异构图注意力网络进行对齐；
[0066]
s5，获得论文消歧结果；
[0067]
提出过拆分检测和过拆分对齐算法，保证论文消歧质量；
[0068]
具体实施过程；
[0069]
s1，针对数据集中存在的数据噪声问题，以及数据中可能影响消歧质量的因素，首先对数据集进行预处理，对其数据清洗与分析，包括异常数据清洗、从不同特征角度对样本进行分析，然后对其进行特征工程，将处理好的数据作为后续模型训练提供输入；
[0070]
s2，在论文表征学习中，首先利用语言预训练模型初步获得论文表征，然后引用对比学习，构造正例负例对，经过训练后可最终得到论文的表征向量；具体包括以下步骤：
[0071]
s21，首先通过语言预训练模型bert获取论文的初步表征，此过程可描述为：
[0072][0073]
式中，是作者a的第i篇论文，是论文对应的表征向量；
[0074]
s22，使用对比学习simcse的方法来实现让论文相似度相近的论文拉到一起，并将论文相似度不高的论文拉开，构造正例和负例并进行组合；具体包括：
[0075]
s221，正例构造：对于给定作者名称为a的论文使用两次bert encoder分别得到和bert过程中每次生成的向量不是完全相同的，但是两两语义是完全一致的，由此构
成正例对另外为了更好的使同一作者的论文在得到的向量空间上更加接近，同一作者的不同论文也视为正样本，从而构成正例对
[0076]
s222，负例构造：为了让同一名称的不同作者之间论文的距离更远，将其视为负样本由此得到负例对
[0077]
s23，将p
pos
和p
neg
进行组合,形成其中xi是基准,是正例,是负例。为了训练之间的隐含关系，在bert-encoder之后引入一个训练目标函数h＝f(bert(x)),f为一个线性层函数。训练的目标损失li如以下公式所示：
[0078][0079]
式中，n为最小batch_size，τ是(temperature)超参数，sim(h1，h2)为余弦相似度
[0080]
经过训练后可得到论文的表示向量vi。
[0081]
s3，在对论文簇的初步聚类中，首先通过聚类模型按照纯度优先的原则进行聚类，尽可能多得产生合适数量的簇，然后根据过合并指标合理调节聚类情况；具体包括以下步骤：
[0082]
s31，为了处理论文的过合并问题，将聚类的过程作为消歧的一个中间过程。在聚类的过程中按照某种规则将论文尽可能划分到更多的簇，将有效地降低同一簇中出现不同作者论文的情况。
[0083]
s32，提出了一个指标recall
over-merge
去描述聚类结果的过合并现象，此指标定义如公式所示：
[0084][0085]
式中，tp表示两个同一作者论文在同一个簇中的情况数量；fn表示两个同一作者论文分别在两个簇中的情况数量；m为理想聚类结果数，n为实际聚簇结果数；recall
over-merge
值越高聚类所带来的过拆分程度就越低。
[0086]
s4，在对论文簇的对齐过程中，首先对作者实体进行连接，得到异构图。然后利用异构图注意网络进行确定作者匹配；具体包括以下步骤：
[0087]
s41，为名称相同的作者实体(簇)生成候选对；
[0088]
s42，对于每一个作者实体，构建异构图，如果候选对之间的机构、合著者名称相同或者论文相似，则相互连接，得到异构图g(v,e)；
[0089]
s43，利用异构图注意力网络确定作者匹配；
[0090]
s431，通过s2的表示学习模型得到每一个论文实体的语义嵌入，通过line模型对s42中构建的异构图进行训练，得到每个实体的结构嵌入；
[0091]
s432，将两种嵌入合并在一起作为输入特征f，此过程可描述为对于不同作者实体e之间使用self-attention求出，节点ei对ej的重要性t
ij
，公式如下：
[0092]
t
ij
＝self-attention(wfi，wfj)
[0093]
式中，w为共享的权重矩阵，对于每一个式中，w为共享的权重矩阵，对于每一个指的ei的所有邻居节点；其中归一化注意力系数如下：
[0094][0095]
s5，最后经过多次对齐规则对论文簇进行对齐，最终得出最后的消岐结果；
[0096]
包括以下步骤：
[0097]
s51、按照排列组合的规则生成无重复的pairs《name:cid1,name:cid2》，构建异构图；
[0098]
s52、使用预先训练好的hgat去检测一组pair是否从属于一个作者；
[0099]
s53、通过给出对齐规则对论文簇进行对齐；
[0100]
s531、计算每个节点的临边节点取判断为对齐两两节点的相似度得分最高的一组边进行连接；
[0101]
s532、在所有节点都进行判定后，使用dfs实现联通子图算法，得出对齐规则，并进行合并；
[0102]
s54、过程需要进行多次，次数定义为loops；最终得出的cluster_pubs为最后的消歧结果。
[0103]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种动车组关键系统及部件的健康评估方法与流程

基于对比学习和异构图注意力网络的作者名称消歧方法

相关文献

最热文献