一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法

2023-01-04 18:37:22 来源:中国专利 TAG:

技术特征:
1.一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,具体步骤如下,其特征在于:1)预训练高维教师知识图谱嵌入模型;训练一个高嵌入维度教师模型,为接下来指导低嵌入维度学生模型做准备;2)软标签权重自适应蒸馏;提出一种软标签权重自适应蒸馏机制,在教师模型指导学生模型训练的过程中,根据蒸馏损失的变化逐渐增加软标签损失的权重来解决硬标签损失的优化方向和软标签损失的优化方向不一致的问题;3)迭代蒸馏;提出一种迭代蒸馏的框架,使知识图谱嵌入模型在迭代蒸馏过程中交替成为学生模型和教师模型,加速训练过程,使用单个教师进行蒸馏,同时在蒸馏的过程中固定教师模型的参数;4)低维学生知识图谱嵌入模型预测。2.根据权利要求1所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤1)训练一个高嵌入维度教师模型的过程如下;首先,给定一系列的实体e和关系r,一个知识图谱g表示为一系列三元组的集合,使用h,r,t表示三元组,即头实体,关系,尾实体,知识图谱嵌入模型将知识图谱中原有的头实体、关系和尾实体构成的三元组作为正三元组,同时随机替换中的头实体和尾实体作为负三元组;然后,知识图谱嵌入模型将每个三元组嵌入为向量,然后用一个打分函数s计算每个三元组向量表示的得分;不同的知识图谱嵌入模型有不同的打分函数,得到每个三元组的得分后,损失函数采用二元交叉熵损失,公式如下:其中,,对于正三元组来说,;对于负三元组来说,,是softmax函数;训练高维教师模型结束后,保存训练好的高维教师模型。3.根据权利要求2所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤2)具体步骤如下;给定三元组h,r,t,首先将它同时输入给教师模型和学生模型,分别经过教师模型和学生模型进行编码,然后定义教师模型的打分函数打分结果为,学生模型的打分函数结果为,蒸馏过程中的硬标签损失为学生模型原始的损失,定义如下:
其中,,对于正三元组来说,;对于负三元组来说,,是softmax函数,软标签损失采用huber损失计算教师模型和学生模型的分布差异,定义如下:最终,蒸馏的总损失硬标签损失和软标签损失加权之和,如下所示:其中,是软标签的权重,用来平衡软标签损失和硬标签损失。4.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:所述步骤2)软标签权重自适应蒸馏机制的蒸馏的过程中只训练学生模型,教师模型的模型参数是固定不动的。5.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:所述步骤2)软标签权重自适应蒸馏机制的蒸馏的过程中动态地调整软标签的权重,将完整的训练过程划分为两个阶段;第一阶段,硬标签损失占主导地位,软标签损失权重被分配较小的初始值并逐渐增加;第二阶段,软标签权重被固定;定义完整的训练轮数为m,第m轮的软标签权重如下所示:其中,参数k的值在训练过程中动态调整,保证了的值在范围内,软标签时间控制参数p控制了软标签权重调整的时间占比,是初始软标签权重。6.根据权利要求3所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤3)具体步骤如下;定义在第k次迭代中教师模型的嵌入维度为,教师模型的嵌入维度为,则每次迭代的压缩率定义如下:
随后,每一次迭代都使用这个固定的压缩率进行模型压缩,在第一次迭代中,使用预先训练好的教师模型来训练第一个学生模型,在第k次迭代中,使用在第k-1次迭代中生成的学生作为第k次迭代中的教师,第k次迭代的硬标签损失定义如下:其中,为第k次迭代的学生模型打分函数的打分结果,第k次迭代的软标签损失定义如下:其中,为第k次迭代的教师模型打分函数的打分结果,第k轮的总损失定义如下:定义迭代的总次数为n,然后最终压缩率a定义如下:最终的压缩率a是预先设定的,所以迭代停止的条件为学生维度满足如下关系:。7.根据权利要求6所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤3)中模型压缩的时候预先设定好所需要的学生模型维度和每次迭代的压缩率,然后迭代次数由教师模型维度、学生模型维度和每次迭代的压缩率共同决定。8.根据权利要求6所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤4)具体步骤如下;经过步骤3),最终生成维度为的低维学生模型最为知识图谱嵌入模型压缩后的最终结果,得到蒸馏的低维模型后,即可进行低维学生模型预测。9.根据权利要求7所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特征在于:步骤4)低维学生模型预测采用的评价指标是平均倒数排名mrr 、排名小于等于1的三元组的平均占比和排名小于等于10的三元组的平均占比,而直接采用模型训练和预测所需的时间来评价模型速度的优劣。10.根据权利要求9所述的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,其特
征在于:步骤4)进行低维学生模型预测的预测阶段,给定查询,其中h和r分别表示头实体和关系,预测的目标是在给定头实体和关系的前提下,预测尾实体t;具体预测过程如下,首先,将给定的查询中的头实体和关系嵌入为向量,同时将所有候选的尾实体t嵌入为向量,然后,将查询q与所有候选的尾实体组成的三元组输入到打分函数中进行打分,将所有三元组的得分进行排序,计算指标,计算公式如下:其中,n表示所有三元组的数量,是指示函数,当满足条件时取1,不满足时取0。

技术总结
一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,1)预训练高维教师知识图谱嵌入模型;2)软标签权重自适应蒸馏;3)迭代蒸馏;4)低维学生知识图谱嵌入模型预测。本发明可实现蒸馏压缩知识图谱嵌入模型的优秀性能,同时保持了模型推理速度,并减少50%的训练时间,具有快速训练的优势,能满足现实应用中大规模知识图谱嵌入模型需要快速更新的需求。谱嵌入模型需要快速更新的需求。谱嵌入模型需要快速更新的需求。


技术研发人员:汪鹏 刘嘉骏
受保护的技术使用者:东南大学
技术研发日:2022.12.02
技术公布日:2022/12/30
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献