一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种模型训练与实体识别方法及装置与流程

2022-02-19 02:55:24 来源:中国专利 TAG:

技术特征:
1.一种模型训练方法,其特征在于,包括:获取文本数据,针对每个文本数据,通过预先训练的通用分类模型,确定该文本数据中各实体以及各实体的通用类别;在预设的与目标领域对应的领域词库中,查询所述各实体在所述目标领域中的类别,作为专用类别;以所述各实体分别作为各训练样本,以各实体的专用类别分别作为各训练样本的标注,将各训练样本以及各训练样本的通用类别输入待训练的专用分类模型,得到所述待训练的专用分类模型对各训练样本在所述目标领域中的专用分类结果;根据各训练样本在所述目标领域中的专用分类结果以及各训练样本的标注,对所述待训练的专用分类模型进行训练,所述专用分类模型用于识别实体在所述目标领域中的类别。2.如权利要求1所述的方法,其特征在于,将各训练样本以及各训练样本的通用类别输入待训练的专用分类模型,得到所述待训练的专用分类模型对各训练样本在所述目标领域中的专用分类结果,具体包括:将各训练样本以及各训练样本的通用类别输入待训练的专用分类模型;针对每个训练样本,通过所述待训练的专用分类模型,确定该训练样本的文本特征以及该训练样本的通用类别对应的类别特征;根据所述文本特征以及所述类别特征,确定该训练样本的融合特征,并根据所述融合特征,确定该训练样本在所述目标领域中的专用分类结果。3.如权利要求2所述的方法,其特征在于,根据所述融合特征,确定该训练样本在所述目标领域中的专用分类结果,具体包括:根据所述融合特征,确定该训练样本属于预设的各专用类别的概率;根据该训练样本属于预设的各专用类别的概率,确定该训练样本在所述目标领域中的专用分类结果。4.如权利要求3所述的方法,其特征在于,根据所述融合特征,确定该训练样本属于预设的各专用类别的概率,具体包括:根据所述融合特征,确定该训练样本属于预设的各专用类别的分值;根据该训练样本属于预设的各专用类别的分值,确定各专用类别的总分值;针对每个专用类别,根据该专用类别的分值以及所述总分值,确定该训练样本属于该专用类别的概率。5.如权利要求3所述的方法,其特征在于,根据各训练样本在所述目标领域中的专用分类结果以及各训练样本的标注,对所述待训练的专用分类模型进行训练,具体包括:针对每个训练样本,根据该训练样本的标注,从预设的各专用类别中确定该训练样本的目标专用类别;根据该训练样本在所述目标领域中的专用分类结果,确定所述目标专用类别对应的概率,作为目标概率;根据各训练样本的目标概率,确定分类损失,并以所述分类损失最小为目标,对所述待训练的专用分类模型进行训练。6.一种实体识别方法,其特征在于,包括:
获取待识别文本,将所述待识别本输入预训练的通用分类模型,确定所述待识别文本中各实体以及各实体的通用类别;将所述待识别文本中各实体以及各实体的通用类别输入预训练的专用分类模型,确定各实体在目标领域中的类别,作为各实体的专用类别;将所述待识别文本中各实体以及各实体的专用类别,作为所述待识别文本的实体分类结果;所述专用分类模型,通过输入由所述通用分类模型确定出的实体作为的训练样本以及实体的通用类别,根据输出的专用分类结果,与根据所述目标领域对应的领域词库确定出的实体的专用类别作为的标注,训练得到。7.一种模型训练装置,其特征在于,包括:通用分类模块,用于针对每个文本数据,通过预先训练的通用分类模型,确定该文本数据中各实体以及各实体的通用类别;专用类别查询模块,用于在预设的与目标领域对应的领域词库中,查询所述各实体在所述目标领域中的类别,作为专用类别;样本生成模块,用于以所述各实体分别作为各训练样本,以各实体的专用类别分别作为各训练样本的标注,将各训练样本以及各训练样本的通用类别输入待训练的专用分类模型,得到所述待训练的专用分类模型对各训练样本在所述目标领域中的专用分类结果;训练模块,用于根据各训练样本在所述目标领域中的专用分类结果以及各训练样本的标注,对所述待训练的专用分类模型进行训练,所述专用分类模型用于识别实体在所述目标领域中的类别。8.一种实体识别装置,其特征在于,包括:获取模块,用于获取待识别文本,将所述待识别本输入预训练的通用分类模型,确定所述待识别文本中各实体以及各实体的通用类别;专用分类模块,用于将所述待识别文本中各实体以及各实体的通用类别输入预训练的专用分类模型,确定各实体在目标领域中的类别,作为各实体的专用类别;实体识别模块,用于将所述待识别文本中各实体以及各实体的专用类别,作为所述待识别文本的实体分类结果;所述专用分类模型,通过输入由所述通用分类模型确定出的实体作为的训练样本以及实体的通用类别,根据输出的专用分类结果,与根据所述目标领域对应的领域词库确定出的实体的专用类别作为的标注,训练得到。9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。

技术总结
本说明书公开了一种模型训练与实体识别方法及装置,通过预先训练好的通用分类模型,确定文本数据中的各实体,分别作为各训练样本,并确定各实体的通用类别,通过与目标领域对应的领域词库,查询各实体在目标领域中的类别,作为各训练样本的标注。将各训练样本以及各训练样本的通用类别输入待训练的专用分类模型中,确定各训练样本在目标领域中的专用分类结果,以根据各训练样本的专用分类结果及各训练样本的标注,对该专用分类模型进行训练。可利用预训练的通用分类模型对专用分类模型进行训练,能够减少训练专用分类模型的时间,节约计算资源。节约计算资源。节约计算资源。


技术研发人员:陈明昊 王磊 温丽红
受保护的技术使用者:北京三快在线科技有限公司
技术研发日:2021.09.15
技术公布日:2022/1/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献