技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多任务学习的冷启动同名消歧方法与流程  >  正文

一种基于多任务学习的冷启动同名消歧方法与流程

  • 国知局
  • 2024-07-31 23:11:33

本发明属于机器学习,涉及一种冷启动同名消歧方法,尤其涉及一种基于多任务学习的冷启动同名消歧方法。

背景技术:

1、近年来,随着在线学术系统如谷歌学术、dblp、aminer等在学术界的广泛应用,它们已成为研究人员获取领域内最新研究动态的重要渠道。除此之外,这些系统还为学术资助决策、个人职业提升等科研决策提供了关键的分析支持。因此,确保在线学术系统中数据信息的高质量变得至关重要。然而,随着学术论文数量的快速增长,由于姓名相同导致的学者身份混淆问题日益严峻,这不仅包括同一学者的多种姓名变体,也涉及不同学者共用同一姓名或存在同音姓名的情况。姓名歧义问题因此成为学术界关注的焦点,特别是在解决冷启动同名消歧任务方面,已经开发出众多方法。

2、目前,这些冷启动同名消歧方法主要可以根据是否依赖于构建基于论文关系的图来进行分类:

3、1、非图基同名消歧方法:这类方法通常依赖于手工定义的特征来量化论文成对相似度。这些相似度特征主要有两个类别:关系特征和语义特征。一方面,关系特征通常包含了共同作者,举例来说,有三篇论文在系统中都被归类至待消歧学者姓名“yang yang”之下,在三篇论文的作者列表中,除待消歧作者本人外,还有“yizhou sun”这一位共同作者,那么,这三篇文献之间就形成了共同作者关系,这一信息是基于社交关系区分作者的关键。另一方面,语义特征通常从各种论文属性中提取,如论文标题、摘要、关键词等,旨在根据研究主题的连贯性来区分是否为同一作者。然而,这些方法在有效利用论文关系图中的复杂高阶结构上存在局限性。

4、2、基于图的同名消歧方法:这类方法的共同点是需要构建异构图或同构图以利用高阶结构信息。随着网络表示学习和图神经网络的发展,一些代表性方法已被整合到同名消歧问题中,使得通过从邻近节点聚合信息来利用节点特征和图结构成为可能。一个典型的例子是在消歧中结合了两种类型的图:一个是通过连接具有共同作者的论文建立的图;一个是通过估计论文之间内容相似度建立的图。这类方法都遵循上一段讨论的关系和语义特征规律。然而,这些方法通常分别进行论文相似度学习和聚类学习,因此面临着两阶段信息无法互通的问题。

5、聚类学习是冷启动同名消歧的另一项重要技术,其中关键问题是如何估计聚类的数量。其中,有人采用层次聚类算法(hierarchical clustering algorithms,hac),主张将具有较高相似度的论文最先合并,随后合并初步簇类来进行再聚类。例如,其中一个两阶段方法使用了初始阶段的聚类结果来生成后续的聚类特征。此外,另几种方法结合了谱聚类(spectral clustering)以提高聚类学习的效率。

6、目前,用于冷启动同名消歧的聚类学习方法主要有以下几种:

7、1、louppe et al(参见论文:gilleslouppe,husseintal-natsheh,mateuszsusik,andeamonnjamesmaguire.2016.ethnicity sensitive author disambiguation usingsemi-supervised learning.in knowledge engineering and semantic web:7thinternational conference.272–287.https://doi.org/10.1007/978-3-319-45880-9_21):针对每对论文训练分类模型,旨在确定它们是否由同一个人撰写。其利用手工设计的特征和半监督的策略来形成论文簇类。

8、2、iuad(参见论文:na li,renyu zhu,xiaoxu zhou,xiangnan he,wenyuan cai,ming gao,and aoying zhou.2021.on disambiguating authors:collaboration networkrecon-struction in a bottom-up manner.in 2021ieee 37th internationalconference on data engineering.888–899.):根据共同作者关系构建论文相似度图。使用了结合网络结构、研究兴趣、科研社区的概率生成模型来对图进行增强。

9、3、g/l-emb(参见论文:yutaozhang,fanjinzhang,peiranyao,andjietang.2018.namedisambiguation in aminer:clustering,maintenance,and human in the loop..inproceedings of the 24th acm sigkddinternational conference on knowledgediscovery&data mining.1002–1011.https://doi.org/10.1145/3219819.3219859):使用了论文之间的共同作者构建论文图,并通过重构图来学习论文低维表示,并使用hac进行聚类。

10、4、land(参见论文:cristiansantini,genetasefagesese,silvioperoni,aldogangemi,haraldsack,and mehwish alam.2022.a knowledge graph embeddingsbased approach for author name disambiguation using literals.scientometrics127,8(2022),4887–4912.https://doi.org/10.1007/s11192-022-04426-2):构建了具有论文、作者和机构实体和多种关系的知识图谱,使用bert模型来初始化实体特征,并使用literale来进行知识表示学习。同样使用hac作为聚类方法。

11、5、phnet(参见论文:ziyue qiao,yi du,yanjie fu,pengfei wang,and yuanchunzhou.2019.un-supervised author disambiguation using heterogeneous graphconvolutional network embedding.in 2019ieee international conference on bigdata.910–919.https://doi.org/10.1109/bigdata47090.2019.9005458):建构了一个异构图,并使用异构图神经网络来学习节点表示。使用基于图增强的hac算法进行聚类,但需要人为定义聚类大小,具有一定局限性。

12、6、snd-all(参见论文:bo chen,jing zhang,fanjin zhang,tianyi han,yuqingcheng,xiaoyan li,yuxiao dong,and jie tang.2023.web-scale academic namedisambiguation:the whoiswho benchmark,leaderboard,and toolkit.in proceedingsof the 29th acm sigkdd conference on knowledge discovery and datamining.3817–3828.https://doi.org/10.1145/3580305.3599930):应用metapath2vec来捕捉异构网络中的关系特征,并辅以语义特征。使用了dbscan作为聚类方法,且在网络表示学习中引入了多个模型的集成策略。另外,对于聚类过程中的离群点设计了一系列基于规则的后处理方法。snd-all*为不包含规则后处理的单模型版本。

13、但是,这些现有技术均遵循两阶段的设计理念,导致局部相似度信息与全局聚类信息在训练过程中处于相互孤立的状态,这可能会引发训练过程中难以纠正的误差累积。

14、因此,针对上述现有技术中存在的缺陷,需要研发一种新型的冷启动同名消歧方法。

技术实现思路

1、为了克服现有技术的缺陷,本发明提出一种基于多任务学习的冷启动同名消歧方法,其是一种多任务联合学习方法,能够在一个端到端的框架内共同学习论文多视角图中的局部与全局信息,从而能够实现更加精确和有效的同名消歧。

2、为了实现上述目的,本发明提供如下技术方案:

3、一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:

4、论文信息预处理;

5、根据预处理后的论文信息构建论文的多视角图;

6、通过图编码器获得所述多视角图的节点低维表示;

7、基于所述节点低维表示重构多视角图的邻接矩阵并基于重构后的邻接矩阵和所述多视角图的原始邻接矩阵计算局部度量损失;

8、利用基于密度且噪声鲁棒的聚类方法,输入所述节点低维表示来对节点进行聚类,产生伪聚类标签;

9、在图编码器后设置一个全连接层,并将所述节点低维表示输入所述全连接层,以获得中间结果;

10、基于所述伪聚类标签和中间结果计算全局聚类损失;

11、基于所述局部度量损失和全局聚类损失进行联合优化;

12、基于所述联合优化的结果预测论文聚类簇,以获得消歧结果。

13、优选地,所述论文信息预处理具体包括:

14、对于每一篇论文,将该论文的标题、关键词和作者机构合成一段文本,然后对这一段文本进行预处理;

15、将预处理后的这一段文本的所有词送进训练好的词向量模型,以获得每个词的词向量并对得到的所有词的词向量取平均,作为该篇论文的语义向量;

16、对不同论文的共同作者、共同作者机构和共同发表期刊进行预处理,以获得具有相同表达的共同作者、共同作者机构和共同发表期刊

17、优选地,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;

18、所述对不同论文的共同作者、共同作者机构和共同发表期刊进行预处理具体包括:对于共同作者,进行小写化、统一姓和名书写顺序和归一化汉字拼音;对于共同作者机构和共同发表期刊,进行字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词。

19、优选地,根据预处理后的论文信息构建论文的多视角图具体包括:

20、将每篇论文分别作为所述多视角图的一个节点;

21、将每篇论文的语义向量作为所述多视角图中该论文的节点特征;

22、计算两篇论文的共同作者、共同作者机构和共同发表期刊之间的相似度并设定对应的相似度阈值,在两篇论文的共同作者、共同作者机构和共同发表期刊这三类属性中,若有一种属性的相似度超过对应的相似度阈值,就在这两篇论文节点之间建立一条该属性的边。

23、优选地,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。

24、优选地,通过图编码器获得所述多视角图的节点低维表示时,使用两层图注意力网络作为图编码器,每一层图注意力网络的输入为上一层的节点低维表示,输出为本层的节点低维表示,且其第一层的输入为论文的语义向量。

25、优选地,基于重构后的邻接矩阵和所述多视角图的原始邻接矩阵计算局部度量损失具体为:

26、将局部度量损失的目标函数设计为最小化重构后的邻接矩阵和原始邻接矩阵的交叉熵损失lrecon:

27、

28、式中,为重构后的邻接矩阵;为重构后的邻接矩阵中的元素,表示预测节点i和节点j之间存在边的概率,取值范围为[0,1];a是多视角图的原始邻接矩阵;aij为多视角图的原始邻接矩阵中的元素,取值为0或1;n是多视角图上的节点数量。

29、优选地,基于所述伪聚类标签和中间结果计算全局聚类损失具体为:

30、将所述伪聚类标签和中间结果的交叉熵损失函数定义为全局聚类损失lcluster:

31、

32、式中,c是中间结果;cij是局部视角下多视角图中节点i和j的相似度预测结果,p(cij)表示节点i和j同属一个簇类的概率,取值范围为[0,1];y是伪聚类标签,yij表示伪聚类标签中节点i和j的标签是否相同,取值为0或1;n是多视角图上的节点数量。

33、优选地,基于所述局部度量损失和全局聚类损失进行联合优化具体为:

34、使用全局聚类损失lcluster和局部度量损失lrecon的加权和来达到它们之间的平衡,即,

35、l=λlcluster+(1-λ)lrecon

36、式中,l是加权损失;λ是一个根据经验设置的超参数;

37、在得到所述加权损失l后,使用梯度下降算法,基于所述加权损失l对图编码器和全连接层的参数进行多轮训练,通过训练对图编码器和全连接层的参数进行联合优化。

38、优选地,基于所述联合优化的结果预测论文聚类簇,以获得消歧结果具体为:取最后一轮训练产生的伪聚类标签作为最终消歧结果。

39、与现有技术相比,本发明的基于多任务学习的冷启动同名消歧方法具有如下有益技术效果中的一者或多者:

40、1、本发明针对同名消歧中的论文相似度学习和论文聚类问题,创新性地引入了端到端的迭代优化策略。

41、2、本发明通过将局部度量学习与全局聚类学习融合为一个多任务学习框架,实现了两个任务的协同学习和性能相互提升,展示了一种有效的综合优化思想。

42、3、经过广泛的实验验证,本发明的方法展现了其在同名消歧领域的显著性能提升。特别是,在数据集whoiswho-v3上,即便缺乏复杂的集成学习(ensemble learning)和后处理策略,本发明也成功超越了先前的领先方法。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196319.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。