技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态特征融合的实体链接方法 > 正文

一种基于多模态特征融合的实体链接方法

国知局
2024-10-09 14:41:03

本发明属于自然语言处理，更为具体地讲，涉及一种基于多模态特征融合的实体链接方法。

背景技术：

1、多模态实体链接(multimodal entity linking)属于自然语言处理任务，旨在将文本中的提及目标链接到知识库中的实体上，从而消除实体歧义。多模态实体链接在语义理解、知识问答、信息挖掘以及知识图谱的构建等领域都具有广泛的应用。

2、在基于文本的单模态实体链接方法中，实体链接主要依赖的特征包括实体的先验知识、实体的类型信息以及基于实体上下文的文本信息等。而实体的先验知识、实体的类型信息均依赖于人工的统计，因此主流的实体链接方法是基于文本信息实现实体消歧。基于文本信息的实体链接模型在长文本的链接效果上取得了较好的实验性能，因为长文本可以提供与实体相关的丰富语义信息。而在短文本的链接效果上不尽人意。

3、短文本中的上下文信息有限，可提供的有利于消歧的语义信息有限，导致主要依赖文本特征的链接方案在短文本的链接效果上存在上限，仅依靠文本信息无法实现较为准确及可靠的链接。多模态数据的兴起给短文本实体链接带来新的契机，若在实体链接任务中提供与实体相关的图像等多模态信息，有助于模型更加全面的理解数据，增强模型的鲁棒性和有效性，从而有望提升短文本实体链接的性能。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种基于多模态特征融合的实体链接方法，引入与实体相关的图像特征、属性特征完成短文本实体链接任务，具有链接准确率高、无需人工特征等优点。

2、为实现上述发明目的，本发明一种基于多模态特征融合的实体链接方法，其特征在于，包括以下步骤：

3、(1)、下载实体链接数据集；

4、下载实体链接数据集，每个链接样本中包含提及目标m的上下文信息和图像信息；

5、下载每个链接样本中提及目标m对应的候选实体集，每个候选实体er包含描述文本、图像信息和属性信息；

6、(2)、对文本和图像进行嵌入表征；

7、将提及目标m的上下文信息和图像信息分别输入到bert编码器和resnet编码器中获得提及目标的上下文表征tm和图像表征vm；

8、将候选实体er的描述文本和图像信息分别输入到bert编码器和resnet编码器中获得候选实体er的文本表征ter和图像表征ver；

9、(3)、对提及目标m的不同模态特征进行语义增强；

10、将提及目标的上下文表征tm和候选实体er的文本表征ter一同输入到语义增强模块中，输出提及目标增强后的上下文表征tm'；

11、将提及目标m的图像表征vm和候选实体的图像表征ver一同输入到语义增强模块中，输出提及目标增强后的图像表征vm'；

12、(4)、对文本和图像表征进行互补增强；

13、将提及目标m增强后的上下文表征tm'和图像表征vm'输入到深度注意力网络中，输出提及目标m的上下文特征向量tm和图像特征向量vm；

14、将候选实体er的文本表征te和图像表征ve输入到深度注意力网络中，输出候选实体的文本特征向量ter和图像特征向量ver；

15、(5)、属性特征提取；

16、将候选实体er的属性信息输入到属性特征提取模块中，输出候选实体的属性特征向量per；

17、(6)、提取多模态表征；

18、(6.1)、构建初始化特征矩阵h0；

19、h0＝[tm,vm,te1,ve1,pe1,…,ter,ver,per,…,ter,ver,per]

20、将h0中每一个元素视为一个节点，从而将h0简化为：

21、

22、其中，以此类推，r表示候选实体数量，ter,ver,per分别表示第r个候选实体er的文本特征向量、图像特征向量和属性特征向量；

23、(6.2)、构建初始化邻接矩阵a0；

24、

25、其中，aij表示连接第i个节点与第j个节点的关系边的权重值；

26、(6.3)、通过循环迭代的方式更新初始化特征矩阵和初始化邻接矩阵；

27、

28、其中，l表示当前迭代次数，表示权重矩阵，σ(·)表示激活函数，m表示大小为n×n mask矩阵，矩阵中的元素满足：

29、

30、(6.4)、多模态表征提取；

31、记经过l次循环迭代后特征矩阵记为hl，邻接矩阵记为al；

32、提取特征矩阵hl中元素h1l作为提及目标的多模态表征fm，提取特征矩阵hl中分别作为1～r个候选实体的多模态表征fer；

33、(7)、提取提及目标需要链接的实体；

34、计算提及目标m和与每个候选实体er的多模态表征相似度大小：

35、s(m,er)＝cos(fm,fe,r)

36、其中，cos(·)表示余弦相似度计算，s(m,er)表示提及目标m与第r个候选实体er之间的相似度大小；

37、选择相似度最大的候选实体进行预测输出：

38、

39、其中，e*表示提及目标m要链接的实体。

40、本发明的发明目的是这样实现的：

41、本发明基于多模态特征融合的实体链接方法，先将提及目标和候选实体的相关的多模态信息输入到语义增强模块中，对提及的文本和图像分别进行特征增强，再经过深度注意力网络，充分捕捉异构模态信息间的语义关联性，然后利用图卷积神经网络实现多模态特征的融合，分别得到提及目标和候选实体相应的多模态表征，最后依据提及目标和候选实体多模态表征之间的相似度大小对候选实体进行排序，选择相似度最大的候选实体作为预测的链接实体。

42、同时，本发明基于多模态特征融合的实体链接方法还具有以下有益效果：

43、(1)、语义增强模块能依托注意力权重值对提及的信息特征增强和噪声削弱，从而丰富提及目标的特征表征，同时门控融合策略的设计有助于缓解特征在网络传递过程中的遗失问题。

44、(2)、深度注意力网络的设计能充分捕捉异构特征间的语义关联性同时起到特间互补增强的效果，增强模型的表征能力。

45、(3)、利用图结构实现不同模态特征的传递与动态融合，从而获得实体更准确和更加具有鲁棒性的多模态表征。

技术特征：

1.一种基于多模态特征融合的实体链接方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多模态特征融合的实体链接方法，其特征在于，所述语义增强模块包括模态增强部分和门控融合部分；

3.根据权利要求1所述的基于多模态特征融合的实体链接方法，其特征在于，所述深度注意力网络主要由文本注意力层、视觉注意力层和最大池化层组成；

4.根据权利要求1所述的基于多模态特征融合的实体链接方法，其特征在于，所述属性特征提取模块包括编码层和一维卷积层；

技术总结本发明公开了一种基于多模态特征融合的实体链接方法，先将提及目标和候选实体的相关的多模态信息输入到语义增强模块中，对提及的文本和图像分别进行特征增强，再经过深度注意力网络，充分捕捉异构模态信息间的语义关联性，然后利用图卷积神经网络实现多模态特征的融合，分别得到提及目标和候选实体相应的多模态表征，最后依据提及目标和候选实体多模态表征之间的相似度大小对候选实体进行排序，选择相似度最大的候选实体作为预测的链接实体。技术研发人员：徐杰,李家瑛,苗珂,谢麟冰,伍荣森,程诗雪,张树茂受保护的技术使用者：电子科技大学技术研发日：技术公布日：2024/9/29