一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法、目标跟踪方法、装置与流程

2022-09-03 18:24:33 来源:中国专利 TAG:

技术特征:
1.一种模型训练方法,包括:根据图文数据对第一模型进行第一预训练,得到所述第一模型在第二预训练中加载的预训练参数;根据第一图像样本集合及第二图像样本集合,构建训练数据;根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练,得到第二模型。2.根据权利要求1所述的方法,其中,所述预训练参数,用于表征由所述图文数据得到的目标对象类别。3.根据权利要求1或2所述的方法,其中,所述根据图文数据对第一模型进行第一预训练,得到所述第一模型在第二预训练中加载的预训练参数,包括:从所述图文数据中提取第一图像数据及与所述第一图像数据对应的第一文本数据;将所述第一图像数据及所述第一文本数据输入所述第一模型;根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练,得到所述预训练参数。4.根据权利要求3所述的方法,其中,所述根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练,得到所述预训练参数,包括:在所述第一模型中,根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标;根据所述第一预训练目标进行所述第一预训练,对所述第一模型中的映射模块进行参数调整,得到所述预训练参数。5.根据权利要求4所述的方法,其中,在所述第一模型中,根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标,包括:将所述第一图像数据输入所述第一模型的第一处理分支,对所述第一图像数据进行特征提取,得到第一图像特征;将所述第一文本数据输入所述第一模型的第二处理分支,对所述第一文本数据进行特征提取,得到第一文本特征;将所述第一图像特征及所述第一文本特征分别进行映射处理,并映射到同一个目标特征空间中,得到在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系;根据在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系,得到所述第一预训练目标。6.根据权利要求5所述的方法,其中,所述根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练,得到第二模型,包括:从所述训练数据中提取第一图像样本数据及第二图像样本数据;将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型,在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练,得到所述第二模型。7.根据权利要求6所述的方法,还包括:通过在所述第一模型中的所述映射模块加载所述预训练参数,得到先验信息;
在所述第一模型中,根据所述先验信息确定所述第一图像样本数据与所述第二图像样本数据中的待跟踪对象类别;其中,所述先验信息包括:通过所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系所指示的类别标签。8.根据权利要求7所述的方法,其中,所述将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型,在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练,得到所述第二模型,包括:将所述第一图像样本数据输入所述第一模型的第一处理分支,对所述第一图像样本数据进行特征提取,得到第一图像样本特征;将所述第二图像样本数据输入所述第一模型的第二处理分支,对所述第二图像样本数据进行特征提取,得到第二图像样本特征;将所述第一图像样本特征及所述第二图像样本特征分别通过所述映射模块进行映射处理,并映射到所述同一个目标特征空间中;在所述同一个目标特征空间中,根据所述先验信息对所述第一图像样本特征及所述第二图像样本特征中用于表征所述待跟踪对象类别的特征进行相似度匹配,得到匹配结果;根据所述匹配结果得到第二预训练目标,根据所述第二预训练目标进行所述第二预训练,得到所述第二模型。9.一种目标跟踪方法,包括:从视频流数据中获取第一图像帧及第n图像帧,所述n为大于2的正整数;将所述第一图像帧及所述第n图像帧输入用于目标跟踪的第二模型,所述第二模型通过加载预训练参数进行模型训练所得到;根据所述第二模型,对所述第一图像帧及所述第n图像帧中待跟踪对象的类别进行识别,得到识别结果;根据所述识别结果进行目标跟踪。10.根据权利要求9所述的方法,其中,所述预训练参数,用于表征由图文数据得到的目标对象类别。11.根据权利要求9或10所述的方法,其中,所述根据所述识别结果进行目标跟踪,包括:根据所述识别结果,确定所述第一图像帧及所述第n图像帧中包括的同一个待跟踪对象;将所述同一个待跟踪对象作为目标对象,根据所述目标对象的位置变化进行目标跟踪,得到所述目标对象对应的当前目标位置。12.一种模型训练装置,包括:第一训练模块,用于根据图文数据对第一模型进行第一预训练,得到所述第一模型在第二预训练中加载的预训练参数;第一构建模块,用于根据第一图像样本集合及第二图像样本集合,构建训练数据;第二训练模块,用于根据所述训练数据和所述预训练参数对所述第一模型进行第二预训练,得到第二模型。13.根据权利要求12所述的装置,其中,所述预训练参数,用于表征由所述图文数据得
到的目标对象类别。14.根据权利要求12或13所述的装置,其中,所述第一训练模块,用于:从所述图文数据中提取第一图像数据及与所述第一图像数据对应的第一文本数据;将所述第一图像数据及所述第一文本数据输入所述第一模型;根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练,得到所述预训练参数。15.根据权利要求14所述的装置,其中,所述第一训练模块,用于:在所述第一模型中,根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标;根据所述第一预训练目标进行所述第一预训练,对所述第一模型中的映射模块进行参数调整,得到所述预训练参数。16.根据权利要求15所述的装置,其中,所述第一训练模块,用于:将所述第一图像数据输入所述第一模型的第一处理分支,对所述第一图像数据进行特征提取,得到第一图像特征;将所述第一文本数据输入所述第一模型的第二处理分支,对所述第一文本数据进行特征提取,得到第一文本特征;将所述第一图像特征及所述第一文本特征分别进行映射处理,并映射到同一个目标特征空间中,得到在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系;根据在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系,得到所述第一预训练目标。17.根据权利要求16所述的装置,其中,所述第二训练模块,用于:从所述训练数据中提取第一图像样本数据及第二图像样本数据;将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型,在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练,得到所述第二模型。18.根据权利要求17所述的装置,还包括类别确定模块,用于:通过在所述第一模型中的所述映射模块加载所述预训练参数,得到先验信息;在所述第一模型中,根据所述先验信息确定所述第一图像样本数据与所述第二图像样本数据中的待跟踪对象类别;其中,所述先验信息包括:通过所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系所指示的类别标签。19.根据权利要求18所述的装置,其中,所述第二训练模块,用于:将所述第一图像样本数据输入所述第一模型的第一处理分支,对所述第一图像样本数据进行特征提取,得到第一图像样本特征;将所述第二图像样本数据输入所述第一模型的第二处理分支,对所述第二图像样本数据进行特征提取,得到第二图像样本特征;将所述第一图像样本特征及所述第二图像样本特征分别通过所述映射模块进行映射处理,并映射到所述同一个目标特征空间中;
在所述同一个目标特征空间中,根据所述先验信息对所述第一图像样本特征及所述第二图像样本特征中用于表征所述待跟踪对象类别的特征进行相似度匹配,得到匹配结果;根据所述匹配结果得到第二预训练目标,根据所述第二预训练目标进行所述第二预训练,得到所述第二模型。20.一种目标跟踪装置,包括:第一获取模块,用于从视频流数据中获取第一图像帧及第n图像帧,所述n为大于2的正整数;第一处理模块,用于将所述第一图像帧及所述第n图像帧输入用于目标跟踪的第二模型,所述第二模型通过加载预训练参数进行模型训练所得到;第二处理模块,用于根据所述第二模型,对所述第一图像帧及所述第n图像帧中待跟踪对象的类别进行识别,得到识别结果;目标跟踪模块,用于根据所述识别结果进行目标跟踪。21.根据权利要求20所述的装置,其中,所述预训练参数,用于表征由图文数据得到的目标对象类别。22.根据权利要求20或21所述的装置,其中,所述目标跟踪模块,用于:根据所述识别结果,确定所述第一图像帧及所述第n图像帧中包括的同一个待跟踪对象;将所述同一个待跟踪对象作为目标对象,根据所述目标对象的位置变化进行目标跟踪,得到所述目标对象对应的当前目标位置。23.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。

技术总结
本公开提供了一种模型训练方法、目标跟踪方法、装置,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术等领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:根据图文数据对第一模型进行第一预训练,得到第一模型在第二预训练中加载的预训练参数,根据第一图像样本集合及第二图像样本集合,构建训练数据,根据训练数据和预训练参数对第一模型进行第二预训练,得到第二模型。采用本公开,提高了模型精度。高了模型精度。高了模型精度。


技术研发人员:陈子亮
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.05.25
技术公布日:2022/9/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献