技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于深度学习ALBERT模型的集成电路知识图谱提取与构建方法  >  正文

基于深度学习ALBERT模型的集成电路知识图谱提取与构建方法

  • 国知局
  • 2024-07-31 22:55:07

本发明属于自然语言处理,具体涉及一种基于深度学习albert模型的集成电路知识图谱提取与构建方法。

背景技术:

1、随着集成电路技术的飞速发展,其设计和学习的复杂度不断增加,涉及的知识范围也日益扩大。传统的设计和构建方法主要依赖工程师的个人经验,并由工程师手动设计构建,这种方式不仅效率低下,极易出现错误,而且难以跟上知识更新的速度和范围的扩展。因此,有效地提取和构建集成电路知识图谱,以促进知识图谱设计和构建的自动化以及知识图谱范围的扩展,已经成为研究领域的一个热点。

2、目前,深度学习技术在自然语言处理、图像识别等多个领域已取得显著成就,为集成电路知识图谱的提取与构建开辟了新思路。尤其是bert(bidirectional encoderrepresentations from transformers)模型,作为一种基于transformer的预训练模型,在多种自然语言处理任务上展现出卓越的性能。但是,面对大规模数据处理时,bert及其变体存在着计算量大、训练耗时等问题。为应对这些挑战,研究者们推出了albert(a litebert)模型,该模型在维持bert性能的同时,大幅减少了模型参数量和计算需求,更加适合处理集成电路领域的庞大数据。

3、当前,集成电路知识图谱提取与构建主要包括基于规则、基于模板以及基于深度学习的方法。基于规则的方法依靠手动定义的规则,缺乏灵活性;基于模板的方法需要预定义模板,但其通用性有限;尽管基于深度学习的方法学习能力强,但在处理集成电路领域的复杂数据时仍面临如下诸多挑战:

4、(1)数据处理局限性:现有技术在处理复杂的集成电路相关数据时,往往难以有效地提取有用信息。这主要因为集成电路知识的复杂性和数据之间的强关联性,超出了传统数据处理方法的捕捉能力;

5、(2)模型性能不足:传统深度学习模型如bert及其变体,在处理大量集成电路数据时,受限于显著的内存和计算资源限制,虽然深度学习模型在知识提取和图谱构建方面具有优势,但在大规模数据处理方面仍存在计算量大、训练时间长等问题,且模型的泛化能力亟需提升,以满足不同场景的需求;

6、(3)知识图谱构建的效率和准确性不高:在从复杂的数据中提取关键实体及其关系时,现有技术常常无法达到高精度,尤其时在处理专业术语和技术关系复杂的集成电路领域时,由于知识的复杂性,当前的知识图谱构建方法难以精确表示知识间的关系,可能导致后续过程中出现知识缺失或错误,影响其准确性和效率;

7、(4)自动化程度不足:大多数现有的集成电路知识图谱提取与构建方法依赖于人工操作或半自动化流程,未能实现全自动化,增加了工程师的工作负担,降低了构建效率;

8、(5)多义性和上下文理解不足:现有技术在处理集成电路相关文档和数据时,难以准确处理多义性词汇和复杂上下文,限制了知识提取的准确性。

技术实现思路

1、为解决公知技术中存在的以上不足,本发明旨在提供一种基于深度学习albert模型的集成电路知识图谱提取与构建方法。

2、为实现上述目的,本发明所采用的技术方案如下:

3、一种基于深度学习albert模型的集成电路知识图谱提取与构建方法,所述方法包括依次进行的以下步骤:

4、s1、数据预处理,收集集成电路领域的文本数据,并将收集到的文本数据进行清洗,得到预处理后的语料库;

5、s2、albert模型训练,根据预处理后的语料库训练albert初始模型,得到albert模型,所述albert模型包括实体提取模块和关系提取模块;

6、s3、实体提取,将预处理后的语料库输入到albert模型中,由实体提取模块进行实体提取;

7、s4、关系提取,在实体提取的基础上,结合多粒度进一步利用albert模型的关系提取模块进行关系提取;

8、s5、知识图谱构建,通过将提取出的实体和提取出的关系进行结构化表示,构建集成电路领域的知识图谱,并根据关系提取的结果进一步优化albert模型。

9、作为限定,所述步骤s2中训练albert初始模型,得到albert模型的方法为:

10、将所述预处理后的语料库划分为训练集、测试集和验证集;通过训练集和测试集对albert初始模型进行微调训练,采用反向传播算法和adam优化算法,对albert初始模型参数进行迭代更新,以最小化损失函数,使模型更好地拟合训练集和具备对集成电路领域词汇和语境的感知能力;

11、训练过程中,使用验证集对albert初始模型进行评估,监控模型性能变化,防止模型过拟合或欠拟合;

12、所述损失函数表示为:

13、

14、其中,w为权重,b为偏置向量,n为样本数量,即训练集中的文本描述数量;c为知识图谱中的实体类别数量;yi,j为训练集中的真实标签,若样本i属于类别j,则yij=1,否则yij=0;表示模型预测样本i属于j的概率。

15、作为第二种限定,所述实体提取模块包括词嵌入层、albert预训练层和bilstm-crf实体分类层;

16、所述步骤s3中实体提取模块进行实体提取的具体步骤为:

17、a1)将预处理后的语料库中包含有m个词的句子s=(x1,x2,...,xm)输入至词嵌入层,句子s中的每个词xi,i∈[1,m],由嵌入矩阵转换为低维稠密嵌入向量ri,ri∈rd,d是嵌入矩阵的维度,所述嵌入矩阵为步骤s1中训练albert初始模型过程中得到的;

18、a2)albert预训练层中带有gelu非线性的transformer编码器对转化为低维稠密向量的所有文本进行语义编码,得到包含语义信息的词序列(r1,r2,...,rm);

19、a3)bilstm-crf实体分类层将词序列(r1,r2,...,rm)作为输入,结合前向和后向lstm的输出得到隐藏状态序列(h1,h2,...,hm)∈rm×n,将n维隐藏状态映射到k维状态,得到输出矩阵p(p1,p2,...,pm),p∈rm×c;

20、a4)根据输出矩阵p(p1,p2,...,pm),p∈rm×c,并通过bilstm-crf实体分类层中的条件随机场crf对句子序列进行标注,将句子视为带bio格式标签的标记序列,并输出得分最高的标签序列,实现实体的识别和提取;

21、a5)重复步骤a1)~a4)直至所有句子中的实体都被标注。

22、作为第三种限定,所述步骤a4)执行的具体过程为:

23、a41)bilstm-crf实体分类层中的条件随机场crf使用矩阵a,a∈r(k+2)×(k+2)对句子序列进行标注,得到标签序列y=(y1,y2,...,ym);

24、矩阵a为转移矩阵,其考虑了标签序列中相邻标签的依赖性;

25、a42)计算标签序列y的得分,输出得分最高的标签序列;

26、计算标签序列y=(y1,y2,...,ym)得分的公式为:

27、

28、其中,为输出矩阵p中的元素,代表第i个位置预测为标签yi的分数;为矩阵a中的元素,代表标签yj-1转移到标签yj的转移得分;

29、第一部分计算在输入序列的每个位置选择相应标签的得分总和。第二部分为序列中相邻标签之间的转移得分总和,包括从开始标签到第一个标签和从最后一个标签到结束标签的转移得分;

30、根据标签序列y的得分利用softmax函数计算归一化的概率:

31、

32、其中,y′是句子序列标注任务中考虑的一个候选标签序列,用于计算该序列相对于其他所有可能序列的归一化概率;

33、最大化训练样本(x,yx)的对数似然,

34、

35、其中,yx表示句子x对应的所有可能的标签序列;

36、接着使用viterbi算法确定预测的最优路径,找到得分最高的标签序列:

37、y*=argmaxyscore(x,y),

38、所述得分最高的标签序列中包含标记实体。

39、作为第四种限定,所述关系提取模块包括多粒度lattice lstm编码层和关系分类层;

40、所述步骤s4中采用关系提取模块进行关系提取的具体步骤为:

41、b1)输入已标注实体的句子s,所述句子s中的字符通过字符级和词级两种表示方法转换为字符序列;

42、b2)将所述字符序列输入至albert模型的多粒度lattice lstm编码层,并输出隐藏状态向量h′;

43、b3)根据隐藏状态向量h′,使用字符级注意力机制将隐藏状态向量h′整合成一个句子级特征向量h*,通过关系分类层中的softmax分类器确定每种关系的条件概率,实现关系提取。

44、作为第五种限定,所述句子s中的字符通过字符级表示方法转换为字符序列的方法为:

45、b11)句子s中的每个字符ci,使用skip-gram模型映射到一个维的向量

46、b12)根据得到的字符ci的向量表示,使用位置嵌入来定义特定实体对,分别计算字符ci距字符序列头实体的相对距离和字符ci距字符序列尾实体的相对距离

47、

48、

49、其中,b1和e1分别表示头实体的开始和结束索引,b2和e2分别表示头实体的开始和结束索引;

50、b13)将和转换为两个向量和

51、将向量向量和向量连接起来作为字符序列,表示为:

52、作为第六种限定,所述句子s中的字符通过词级表示方法转换为字符序列的方法为:

53、对于任意的词,从外部语言库获取所有k个词义,每个词义使用sat模型转换为实值向量即词级表示的字符序列dsen为实值向量的阶数。

54、作为第七种限定,所述隐藏状态向量h′整合成一个句子级特征向量h*的过程为:

55、b31)所有字符的隐藏状态向量h′中通过非线性变换进行聚合,得到隐藏状态h:

56、h=tanh(h′);

57、b32)根据所得的h,采用softmax函数计算注意力权重α:

58、α=softmax(wth);

59、b33)通过加权平均隐藏状态向量h′中的特征向量,根据注意力权重α,整合成句子级特征向量:

60、h*=h′αt。

61、作为第八种限定,所述每种关系的条件概率采用以下方式计算:

62、根据句子级特征向量h*,得到输出门o:

63、o=wh*+b,

64、其中,w为权重矩阵;根据输出门计算每种关系的条件概率:

65、p(y|s)=softmax(o)。

66、作为第九种限定,关系提取结束后,进一步优化albert模型的过程为:根据每种关系的条件概率,结合给定所有训练样本,使用交叉熵定义目标函数:

67、

68、优化损失函数中的权重w和偏置向量b,调整损失函数,优化albert模型参数;

69、其中,函数p(y(i)|s(i),θ)是模型对第i个样本输出yi的预测概率。

70、由于采用了上述的技术方案,本发明与现有技术相比,所取得的有益效果是:

71、(1)本发明方法采用albert模型作为核心算法和模型,相比于传统的bert及其变体,通过参数共享和嵌入因子化等策略,有效降低模型参数量,减少内存占用和通信开销,使得模型在保持高性能的同时,提高训练速度,适应大规模文本数据的处理需求;

72、(2)本发明采用多粒度关系提取框架,在考虑实体间的上下文信息和语义信息的基础上,解决了分割错误和一词多义的问题,提高了关系提取的准确率,针对集成电路领域的复杂数据,能更加准确地识别和提取实体间的关系,为知识图谱的构建提供有力的支撑;

73、(3)本发明中明确了从数据预处理到知识图谱构建的完整技术路线和框架,为集成电路图谱的提取与构建提供一条清晰的路径,同时为用户提供直观、便捷的学习与查询体验,降低集成电路知识的学习门槛,有助于推动集成电路产业的发展和知识普及。

74、综上所述,本发明有效提高训练速度,适应大规模文本数据的处理需求,提高关系提取的效率和准确率,为知识图谱的构建提供有力的支持。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195308.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。