一种基于多关系深度检索文本匹配的人名消歧方法与流程
- 国知局
- 2024-11-21 11:35:43
本发明属于检索文本匹配领域,更具体地说,尤其涉及一种基于多关系深度检索文本匹配的人名消歧方法。
背景技术:
1、基于机器学习的科研人名实体消歧方法可以分为两大类,分别是早期的传统机器学习方法和近期的深度表征学习方法。前者基于观察到的作者(对)特征向量进行同著分类器训练,并通过对预测的同著匹配对进行聚类或社区侦测来识别代表不同作者的同名作者档案。后者侧重于利用多样的神经网络模型,特别是图神经网络模型,学习如何对观察到的作者或论文的文本或统计特征向量进行非线性转换,然后通过某些特定的科研关系聚合转换后的信息,形成新的高维隐式表征向量。这些高维隐式向量包含并混合了经过非线性转换的特征信息和高阶关系信息。随后,聚类算法将基于这些新的向量划分不同的论文簇,每个簇代表一个独立的作者档案。需要注意的是,基于深度学习的消歧方法性能在很大程度上取决于学习到的隐式特征向量的质量。结构过于复杂的神经网络模型可能会引发表征学习出现过拟合问题,从而导致学习到的隐式特征向量的质量起伏很大。
2、作为当前的主流方法,基于深度表征学习的科研人名实体消歧主要采用图神经网络模型。其中,图嵌入和图卷积网络是最常用的技术。对于同构关系网络,即节点和边分别代表同一类实体和关系,主流方法通常使用图嵌入模型。它通过最小化由正负样本构成的三元损失函数对网络中的节点进行表征学习训练。对于异构关系网络,即节点和边可以代表不同种类的实体和关系,图嵌入和gcns都被用于从各种元路径实例中聚合各类异构节点的特征和关系信息。在这种情况下,每个元路径旨在捕捉不同节点和边类型之间的局部异构网络关系。对于基于元路径的图嵌入模型,它将word2vec的条件语言建模应用于元路径实例。这些实例由不同的网络搜索技术生成,例如加权随机游走。对于基于元路径的gcns,它们对每条元路径实例应用独立的卷积聚合操作,即以卷积非线性方程变换并聚合在元路径实例上传递的特征和关系信息,使它们嵌入到高维节点向量中。另一方面,使用图神经网络涵盖更多类型的信息往往需要更高的模型复杂度和计算复杂度,但这并不能保证学习到的节点表征向量在科研人名实体消歧时更有效。这主要是因为首先gnn模型更难有效地训练,其次使用复杂的模型训练会导致各类信息深度混合并嵌入在表征向量中,这可能导致原本各个文本或统计特征下的局部匹配信息丢失或衰减,从而导致作者对匹配或论文聚类效果的下降,因此,我们提出一种基于多关系深度检索文本匹配的人名消歧方法。
技术实现思路
1、本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于多关系深度检索文本匹配的人名消歧方法,通过训练同著作者分类器,目的是判断对于具有相同作者名的论文对,是否是否由同一作者撰写,该同著作者分类器训练完成后将被应用于预测在每个新的或测试人名下的任意一对论文的同作者概率,对于每个新的人名,这些预测将构成对应该人名的论文同著网络,并为之后的同名作者档案发现提供基础。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于多关系深度检索文本匹配的人名消歧方法,包括如下步骤:
4、s1、人名实体数据处理,数据包括论文对数据集、论文关系图以及作者关系图;
5、s2、论文对匹配向量计算并训练同著分类器;
6、s3、线下作者档案发现,在同著作者分类器训练完成后,使用社区侦测算法从相应的同著作者预测图中识别每个科研人名下的作者档案;
7、s4、部署同著作者分类器,实现线上新到论文分配。
8、优选的,步骤s1中,具体处理流程为:
9、s11、构建数据集,按照每个人名实体对论文对数据集、论文关系图以及作者关系图收集;
10、s12、根据上述数据构造供匹配模块的深度检索功能使用的两类交互矩阵;
11、其中,步骤s12中,近邻论文交互矩阵:该矩阵的(1,1)单元位置存储目标论文对的语义相似度,该相似度由两篇论文各自的预训练语义向量的cosine值得到,该矩阵的其他单元为两篇论文在近邻论文关系图中的所有k-阶近邻构成,k为预制值;
12、对于该矩阵的某个单元(i,j),它存放了两篇论文的某对k-阶近邻论文间的语义相似度,其中i=1,...,i和j=1,...,j代表了两篇论文各自的k-阶近邻的数量;
13、近邻作者交互矩阵:该矩阵的粒度是作者一级,该矩阵涉及了目标论文对的两篇论文各自的作者加上这些作者的k-阶内的所有近邻作者;
14、将这些作者的语义向量进行两两相似度计算就得到该矩阵的每个单元的语义相似度分数;
15、保留目标论文作者排序:在近邻作者交互矩阵中,需要保留目标论文作者的著作顺序。
16、优选的,步骤s2中,论文对匹配向量计算并训练同著分类器具体为:
17、s21、rbf核心池化:对作者级别的交互作用进行核心池化,该池化操作通过将s个rbf核心函数应用于交互矩阵的每个单元来实现;具体计算式为:
18、
19、对于每一行i和每一列j,分别在每个rbf核心上进行列和行的加法操作:
20、
21、
22、让每个核为论文对中两篇论文各自的第i和第j个作者整合所有的匹配信号,从而得到了针对第i和第j个作者的匹配度向量zi和z'j:
23、
24、对两篇论文各自的作者进行相应的匹配向量整合,从而得到表示两篇文章相互间整体匹配程度的向量:
25、
26、将论文对(d,d')对应的匹配向量f(z)和f(z')取平均即可得到针对该论文对的作者rbf匹配向量;
27、通过将一组不同的rbf核心函数作用于近邻论文交互矩阵,得到论文对的论文rbf匹配向量fdd';
28、s22、卷积池化:单独作用于论文对的著作作者交互;
29、s23、注意力池化操作同时作用于近邻论文交互矩阵和近邻作者交互矩阵;通过注意力机制与其他所有的作者的匹配向量进行如下操作:
30、
31、其中,wq,wu,ws分别代表了注意力机制中的(query,key,value)三元组对应的转换参数矩阵;而(q,u,s)对应三元组;当转换完成后,通过如下基于softmax的公式计算其他作者对于z或zz'的重要度分布a或a':
32、
33、通过注意力机制的加权平均操作,得到最终的基于注意力的论文对匹配向量h(z)和h(z'):
34、
35、其中si和s′j分别来自于s的第i行和s′的第j行;随后,对两篇论文各自的作者进行相应的匹配向量整合,从而得到表示两篇文章相互间整体匹配程度的向量:
36、
37、其中zi和z'j分别来自于z的第i行和z′的第j行;最后将论文对(d,d′)对应的匹配向量h(z)和h(z′)取平均即可得到针对该论文对的作者注意力匹配向量hdd′。
38、优选的,还包括:
39、s24、正则化加权平均:在得到基于论文对的各类匹配向量后,使用如下正则化加权平均公式获得论文对的最终匹配向量ydd′:
40、ydd′=a1norm(cdd′)+a2norm(fdd′)+a3norm(hdd′),...
41、其中a1,a2和a3代表权重,norm代表如下正则化操作:
42、
43、使得cdd′,fdd′,hdd′等所有向量处于同一个量级,其中“+”代表按向量的每个元素相加;
44、s25、训练同著分类器:end-mrnm使用对比学习和最小化如下损失函数训练同著分类器:
45、
46、其中,代表了真实标签y和的距离。
47、优选的,步骤s4中,在线上分配过程中,当一个新的论文集合批次到达时,首先会提取出它其中的科研人名实体以及对应的论文子集,然后,对于一个人名实体a以及它的论文子集中的每一篇论文d,end-mrnm的线上分配模块会将它分配到系统中对应人名a的现有作者档案集合c(a)中的一个,或者归属到全新的档案并更新
48、对于每个可能的候选作者档案,end-mrnm可以使用训练好的同著分类器来预测目标论文d与该档案的每篇成员论文之间的同著概率,随后,对概率进行平滑式平均以计算目标论文与候选档案之间的最终匹配分数;
49、所有候选档案的匹配分数将被排名,若该分数大于或等于预定义的阈值,则目标论文将被分配到具有最高分数的档案;若分数低于预定义的阈值,则该论文将被分配到一个全新创建的作者档案中代表它属于一个第一次出现在文献库中的同名作者。
50、优选的,步骤s4中,作者档案成员论文代表性计算:
51、在线分配策略的主要在于论文对同著作者预测的计算时间复杂度是o(n2),即复杂度随档案大小呈平方式增长,在线上环境中,该时间复杂度不利于实现高效分配,end-mrnm首先会评估各个候选档案中每个成员论文的代表性,所述代表性由两个因素决定:
52、主题性:作者档案的代表性成员论文应该代表作者的一个主要研究主题或课题:
53、权威性:作者档案的代表性成员论文应该包含尽可能多的权威同作作者。
54、优选的,对于一篇论文d′对其所属档案c(其中c∈c(a))的代表性分数importance(c)(d′)定义如下:
55、importance(c)(d′)=topicality(c)(d′)×authority(c)(d′)
56、计算论文d′相对于档案c的主题性topicality(c)(d′),首先将档案c下所有成员论文的预训练嵌入向量通过无监督学习算法,自动分成若干个簇;
57、每个得到的簇代表了由所有簇成员论文共同涉及到的一个独立科研主题;
58、每个簇的中心嵌入向量从聚类算法中直接获取,计算中心向量与相应簇成员的嵌入向量之间的距离,且成员与其所属簇的中心之间的距离越近,其主题性分数越高。
59、优选的,步骤s4中,还包括更新近邻论文和近邻作者关系图,新批次论文数据到达,包含的科研人名以及这些人名对应的以上各类关系图和同名作者档案也会不断地更新以满足线上论文分配的实时性和准确性要求。
60、优选的,步骤s4中,还包括目标论文-作者档案匹配,当作者档案成员论文代表性计算以及近邻论文和近邻作者关系图更新后,只保留所有大型作者档案中前10%的代表性论文,再将这些保留的论文集合与小型档案下的论文集合合并,构造出该论文集合与目标论文构成的目标论文对集合;
61、然后将目标论文对集合,更新后的近邻论文和近邻作者关系图输入到已训练完的同著作者分类器,为目标论文对集合预测同著概率;
62、同著作者分类器为每个候选档案计算其与目标论文的平均匹配度,并将它们按值从高到低排序,排在首位的作者档案,若平均匹配度高于一个预定的阈值,那么目标论文将会被分配给该档案;否则,目标论文将会被分配给一个全新的档案。
63、本发明的技术效果和优点:本发明提供的一种基于多关系深度检索文本匹配的人名消歧方法,与现有技术相比,本发明通过深度检索技术尽可能地保留了文本或统计特征下的局部匹配信息,确保了作者对匹配的精度;
64、同时,本发明还考虑了除字符外的其它不同来源和粒度的匹配信息,包括著作顺序信息,作者间关系和论文间关系信息,考虑这些信息能极大地丰富作者对匹配的维度,从而提高匹配的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20241120/331897.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。