模型训练方法、目标跟踪方法、装置与流程

2022-09-03 18:24:33 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术等领域，可应用于光学字符识别(optical character recognition，ocr)等场景。

背景技术：

2.随着技术的发展，可以通过人工智能改善硬件性能，所适用的应用场景多种多样，比如涉及单目标跟踪、ocr识别、图像处理、视频处理等与计算机视觉相关的应用场景的硬件设计中，都可以采用人工智能技术，即：将训练好的模型部署于硬件中，以提高硬件的处理速度及处理准确率。其中，单目标跟踪作为计算机视觉领域的一项核心任务，由于真实环境的复杂性、目标对象本身的不稳定性以及目标对象本身分辨率等原因导致单目标跟踪的精度不高，因此，在实际应用中如何提高单目标跟踪的精度是要解决的问题。

技术实现要素：

3.本公开提供了一种模型训练方法、目标跟踪方法、装置、电子设备以及存储介质。
4.根据本公开的一方面，提供了一种模型训练方法，包括：
5.根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数；
6.根据第一图像样本集合及第二图像样本集合，构建训练数据；
7.根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型。
8.根据本公开的另一方面，提供了一种目标跟踪方法，包括：
9.从视频流数据中获取第一图像帧及第n图像帧，n为大于2的正整数；
10.将第一图像帧及第n图像帧输入用于目标跟踪的第二模型，第二模型通过加载预训练参数进行模型训练所得到；
11.根据第二模型，对第一图像帧及第n图像帧中待跟踪对象的类别进行识别，得到识别结果；
12.根据识别结果进行目标跟踪。
13.根据本公开的另一方面，提供了一种模型训练装置，包括：
14.第一训练模块，用于根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数；
15.第一构建模块，用于根据第一图像样本集合及第二图像样本集合，构建训练数据；
16.第二训练模块，用于根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型。
17.根据本公开的另一方面，提供了一种目标跟踪装置，包括：
18.第一获取模块，用于从视频流数据中获取第一图像帧及第n图像帧，n为大于2的正整数；
19.第一处理模块，用于将第一图像帧及第n图像帧输入用于目标跟踪的第二模型，第
二模型通过加载预训练参数进行模型训练所得到；
20.第二处理模块，用于根据第二模型，对第一图像帧及第n图像帧中待跟踪对象的类别进行识别，得到识别结果；
21.目标跟踪模块，用于根据识别结果进行目标跟踪。
22.根据本公开的另一方面，提供了一种电子设备，包括：
23.至少一个处理器；以及
24.与该至少一个处理器通信连接的存储器；其中，
25.该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。
26.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
27.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本公开任意一项实施例所提供的方法。
28.采用本公开，可以根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数，可以根据第一图像样本集合及第二图像样本集合构建训练数据，从而可以根据训练数据和预训练参数对第一模型进行第二预训练以得到第二模型，通过加载预训练参数得到的该第二模型，提高了模型精度。
29.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
30.附图用于更好地理解本方案，不构成对本公开的限定。其中：
31.图1是根据本公开实施例的一分布式集群处理场景的示意图；
32.图2是根据本公开实施例的模型训练方法的流程示意图；
33.图3是根据本公开实施例的应用示例中第一预训练的示意图；
34.图4是根据本公开实施例的应用示例中第二预训练的示意图；
35.图5是根据本公开实施例的目标跟踪方法的流程示意图；
36.图6是根据本公开实施例的目标跟踪方法的应用场景示意图；
37.图7是根据本公开实施例的模型训练装置的组成结构示意图；
38.图8是根据本公开实施例的目标跟踪装置的组成结构示意图；
39.图9是用来实现本公开实施例的模型训练方法/目标跟踪方法的电子设备的框图。
具体实施方式
40.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
41.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。本文中术
语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。
42.另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。
43.根据本公开的实施例，图1是根据本公开实施例的一分布式集群处理场景的示意图，该分布式集群系统为集群系统的一个示例，示例性的描述了可以利用该分布式集群系统进行模型训练，本公开不限于单机或多机上的模型训练，采用分布式的处理可以进一步提高模型训练的精度。如图1所示，在该分布式集群系统中包括多个节点(如服务器集群101、服务器102、服务器集群103、服务器104、服务器105，服务器105还可以连接电子设备，如手机1051及台式机1052)，多个节点间，以及多个节点与连接的电子设备间可以共同执行一个或多个模型训练任务。可选地，该分布式集群系统中的多个节点可以采用数据并行的关系进行模型训练，则多个节点可以基于相同的训练方式执行模型训练任务；若该分布式集群系统中的多个节点采用的是模型并行的模型训练方式，则多个节点可以基于不同的训练方式执行模型训练任务。可选地，在每一轮关系提取模型训练完成后，多个节点之间都可以进行数据交换(如数据同步)。
44.根据本公开的实施例，提供了一种模型训练方法，图2是根据本公开实施例的模型训练方法的流程示意图，该方法可以应用于模型训练装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备，可以实现模型训练等处理。其中，终端可以为用户设备(ue，user equipment)、移动设备、个人数字处理(pda，personal digital assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中，包括：
45.s201、根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数。
46.s202、根据第一图像样本集合及第二图像样本集合，构建训练数据。
47.s203、根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型。
48.s201-s203的一示例中，图文数据可以为海量的图像数据及其对应的文本数据，比如，一张图像数据的前景图像数据中包括待跟踪对象“车辆”、“车道线”、“如红绿灯等路测设备”等，该图像数据的背景图像数据中包括车辆周边的建筑物等，文本数据中可以描述该图像数据中的待跟踪对象，即：图像数据及其对应的文本数据可以建立映射关系，为识别出该图像数据中待跟踪对象的类别提供了可能性，从而，通过该图文数据(图像数据及其对应的文本数据)可以得到待跟踪对象中目标对象“如车辆”所属类别。根据图文数据对第一模型进行第一预训练可以得到第一模型在第二预训练中加载的预训练参数(该预训练参数用于表征由该图文数据得到的目标对象类别)，则根据第一图像样本集合及第二图像样本集合构建训练数据后，根据训练数据和预训练参数对第一模型进行第二预训练，得到训练好
的该第二模型，该第二模型可以用于计算机视觉相关的应用场景(单目标跟踪、ocr识别、图像处理、视频处理等)中针对目标对象类别的识别处理及识别处理后的相关处理。
49.采用本公开，可以根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数，可以根据第一图像样本集合及第二图像样本集合构建训练数据，从而可以根据训练数据和预训练参数对第一模型进行第二预训练以得到第二模型，通过加载预训练参数得到的该第二模型，提高了模型精度。
50.一实施方式中，根据图文数据对第一模型进行第一预训练，得到第一模型在第二预训练中加载的预训练参数，包括：从图文数据中提取第一图像数据及与第一图像数据对应的第一文本数据，将该第一图像数据及该第一文本数据输入该第一模型，根据该第一图像数据及该第一文本数据之间的映射关系进行第一预训练，得到该预训练参数。
51.一些示例中，该第一图像数据和该第一文本数据可以构成图文对，将该图文对作为该第一模型的输入。由于该第一图像数据及该第一文本数据之间是对应的，即存在映射关系，因此，该第一模型通过学习该映射关系，可以得到由该图文数据得到的目标对象类别，比如，第一图像数据中包括目标对象“人体”，第一文本数据中对应描述：在该第一图像数据中包括一目标对象，目标对象为人体，即：通过第一图像数据及其对应的第一文本数据建立的映射关系，识别出该图像数据中目标对象的类别为人体，而不是猫、狗、植物等类别。
52.一些示例中，该预训练参数用于表征由该图文数据得到的目标对象类别。
53.采用本实施方式，第一模型进行第一预训练的过程中，通过学习该第一图像数据和该第一文本数据存在的映射关系，可以得到预训练参数，由于该预训练参数用于表征由该图文数据得到的目标对象类别，因此，通过对第一模型的第一预训练，预先得到：能够识别出该目标对象类别所需的该预训练参数，进而在第一模型的第二预训练过程中，可以直接加载该预训练参数，不仅提高了模型训练的迭代过程，使其尽快收敛以完成模型训练，而且，提高了模型训练的精度。
54.一实施方式中，根据第一图像数据及第一文本数据之间的映射关系进行第一预训练，得到预训练参数，包括：在第一模型中根据该第一图像数据及该第一文本数据之间的映射关系得到第一预训练目标。根据该第一预训练目标进行第一预训练，对第一模型中的映射模块进行参数调整，得到预训练参数。
55.一些示例中，在第一模型中，可以将该第一图像数据输入该第一模型的第一处理分支，对第一图像数据进行特征提取以得到第一图像特征。将该第一文本数据输入该第一模型的第二处理分支，对第一文本数据进行特征提取以得到第一文本特征。将该第一图像特征及该第一文本特征分别进行映射处理，并映射到同一个目标特征空间中，得到在该同一个目标特征空间中第一图像数据及第一文本数据之间的映射关系，根据在该同一个目标特征空间中第一图像数据及第一文本数据之间的映射关系，得到该第一预训练目标。
56.一些示例中，在该第一模型中设置的该映射模块，可以为视觉投影到文本层(vision to text layer)，对该映射模块进行参数调整，得到预训练参数。
57.采用本实施方式，在第一模型的第二预训练过程中，可以通过该映射模块将提取的特征映射到该同一个目标特征空间，在第一模型的第二预训练过程中加载该映射模块使用的该预训练参数，该预训练参数可以是固定的，以约束该第一模型在第二预训练过程中，确保该第一模型在第二预训练过程中继承从第一预训练过程中学习到的先验信息。其中，
该先验信息包括：通过同一个目标特征空间中第一图像数据及第一文本数据之间的映射关系所指示的类别标签，以单目标跟踪场景为例，通过该类别标签可以在使用该第二模型进行单目标跟踪时，可以根据该类别标签确定待跟踪对象类别，由于该第二模型的训练来源于图文数据并继承了由该图文数据之间映射关系得到的该先验信息，因此，对于待跟踪对象存在的未知类别，也可以精准的进行识别，从而提高了对未知类别的识别精度。
58.如图3所示，在第一预训练过程中，第一模型(该第一模型具体为预训练前的第一模型)的输入为图文数据(如第一图像数据及其对应的第一文本数据)。第一模型可以为孪生网络结构，在孪生网络的第一处理分支中包括：卷积层301、视觉投影到文本层302、第一投影矩阵303；在孪生网络的第二处理分支中包括：预训练层304、第二投影矩阵305。其中，卷积层301可以采用卷积神经网络(convolutional neural network，cnn)，卷积层301用于对第一图像数据进行特征提取。视觉投影到文本层302，即上述提及的第一模型中映射模块的一个示例，视觉投影到文本层302用于将第一图像数据中的图像特征(或称视觉特征)与第一文本数据中的文本特征在同一个目标特征空间(该目标特征空间可以为语言特征空间)中，建立图像特征与对应的该文本特征之间的映射关系，以便根据该映射关系得到第一预训练目标。第一投影矩阵303为将第一图像数据中的图像特征(或称视觉特征)映射到该语言特征空间所得到的投影矩阵，称之为视觉投影到文本层的投影矩阵。预训练层304用于对第一文本数据进行预训练以提高文本数据的精度，还可以对第一文本数据进行切片处理，以得到该第一文本数据中各个文本段(多个字符构成的文本段)或单个字符，文本段可以为“第一图像数据中包括待定位的车辆”等，该示例中，文本段的该文字描述与第一图像数据中的目标对象“车辆”存在映射关系；预训练层304还可以对该第一文本数据进行特征提取以得到该文本特征。第二投影矩阵305为将第一文本数据中的文本特征映射到该语言特征空间所得到的投影矩阵。通过比较第一投影矩阵303与第二投影矩阵305的值，得到第一损失函数，将该第一损失函数作为该第一预训练目标，根据该第一预训练目标对第一模型进行预训练。
59.一实施方式中，根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型，包括：从该训练数据中提取第一图像样本数据及第二图像样本数据，将该第一图像样本数据及该第二图像样本数据输入该第一模型，在第一模型中的映射模块加载该预训练参数的情况下对第一模型进行第二预训练，得到第二模型。
60.一些示例中，在上述第一预训练的模型预训练后，还可以包括该第二预训练过程，该第二预训练过程为模型正式的训练过程。在上述第一预训练得到在第一模型中的映射模块使用的预训练参数后，可以在该模型正式的训练过程中固定该预训练参数，以约束该模型正式的训练过程，则将该第一图像样本数据及该第二图像样本数据输入该第一模型后，在第一模型中的映射模块加载该预训练参数的情况下对第一模型进行第二预训练，可以确保该第一模型在第二预训练过程中继承从第一预训练过程中学习到的先验信息。
61.采用本实施方式，由于该预训练参数是在第一预训练的模型预训练阶段已经调参好的，因此，在第二预训练的正式训练阶段中，通过该映射模块直接加载该预训练参数并使用，使得模型训练的迭代更快，最终训练得到的模型，其模型性能(如模型精度)也更好。
62.一实施方式中，还包括：通过在第一模型中的映射模块加载预训练参数，得到先验信息，在该第一模型中根据该先验信息确定第一图像样本数据与该第二图像样本数据中的
待跟踪对象类别。其中，该先验信息包括：通过上述同一个目标特征空间中第一图像数据及第一文本数据之间的映射关系所指示的类别标签。
63.采用本实施方式，第一模型可以继承该先验信息，从而对第一模型进行第二预训练得到训练好的第二模型之后，利用该类别标签可以精准的识别出待跟踪对象的类别，从而锁定待跟踪对象中的目标对象。
64.一实施方式中，将第一图像样本数据及第二图像样本数据输入第一模型，在该第一模型中的映射模块加载预训练参数的情况下对第一模型进行第二预训练，得到第二模型，包括：将该第一图像样本数据输入第一模型的第一处理分支，对第一图像样本数据进行特征提取，得到第一图像样本特征。将该第二图像样本数据输入第一模型的第二处理分支，对第二图像样本数据进行特征提取，得到第二图像样本特征。将该第一图像样本特征及该第二图像样本特征分别通过映射模块进行映射处理，并映射到同一个目标特征空间中。在该同一个目标特征空间中，根据先验信息对第一图像样本特征及第二图像样本特征中用于表征待跟踪对象类别的特征进行相似度匹配，得到匹配结果。根据该匹配结果得到第二预训练目标，根据该第二预训练目标进行第二预训练，得到该第二模型。
65.采用本实施方式，可以将该第一图像样本特征及该第二图像样本特征分别通过映射模块进行映射处理，并映射到同一个目标特征空间中。在同一个目标特征空间中，通过上述第一图像数据及第一文本数据之间的映射关系，第一模型继承了根据该映射关系得到的先验信息，从而，在同一个目标特征空间中，基于该先验信息对第一图像样本特征及第二图像样本特征中用于表征待跟踪对象类别的特征进行相似度匹配，继承先验信息后，根据该先验信息由于可以确定跟踪对象类别，因此，可以进行相似度匹配，最终得到第二预训练目标(如第二损失函数)，训练后得到第二模型。由于基于该先验信息可以识别出类别，因此，可以得到精确的匹配结果。
66.如图4所示，在第二预训练过程中，第一模型(该第一模型具体为预训练后的第一模型)的输入为图像数据，如第一图像样本集合中的第一图像样本数据、及第二图像样本集合中的第二图像样本数据。其中，该第一图像样本集合包括至少一个该第一图像样本数据(如包括多个待跟踪对象的原图，且多个待跟踪对象中包括目标对象)，该第二图像样本集合包括至少一个该第二图像样本数据(如对该原图剪裁得到的小图，小图只包括目标对象)，以便将该小图结合该原图，看看该原图中是否包括该小图中的该目标对象。
67.如图4所示，第一模型可以为孪生网络结构，在孪生网络的第一处理分支中包括：第一卷积层401、第一视觉投影到文本层403；在孪生网络的第二处理分支中包括第二卷积层405、第二视觉投影到文本层407。其中，第一卷积层401可以采用cnn网络结构，第一卷积层401用于对第一图像样本数据进行特征提取，得到位于原始特征空间的第一图像特征402，其中，第一图像特征402中的9个块，分别表示一张图像中多个待跟踪对象分别处于不同位置所对应的图像特征，这9个块用于表征该多个待跟踪对象所在图像的位置，可以通过第一视觉投影到文本层403进行映射，即将第一图像特征402由原始特征空间转换到目标特征空间(如语言特征空间)中，得到位于目标特征空间的第三图像特征404。第二卷积层405用于对第二图像样本数据进行特征提取，得到位于原始特征空间的第二图像特征406，其中，第二图像特征406中的1个块，表示一张图像中多个待跟踪对象中的目标对象，这1个块用于表征该目标对象所在图像的位置，可以通过第二视觉投影到文本层407进行映射，即将
第二图像特征406由原始特征空间转换到目标特征空间(如语言特征空间)中，得到位于目标特征空间的第四图像特征408。第一视觉投影到文本层403，及第二视觉投影到文本层407，都可以作为上述提及的第一模型中映射模块的示例，通过第一视觉投影到文本层403，及第二视觉投影到文本层407，可以在同一个目标特征空间进行图像特征的相似度匹配，由于预训练后的第一模型继承了根据该映射关系(即：上述第一图像数据及第一文本数据之间的映射关系)得到的先验信息，因此，同一个目标特征空间中，基于该先验信息对第三图像特征404和第四图像特征408进行图像特征的相似度匹配，由于基于该先验信息可以识别出目标对象的类别，因此，可以得到精确的匹配结果。其中，该相似度匹配可以是将1个特征(如上述第四图像特征408中的1个块)与9个特征(如上述第三图像特征404中的9个块)进行相似度计算，具体是通过计算余弦距离得到匹配结果。
68.根据本公开的实施例，提供了一种目标跟踪方法，图5是根据本公开实施例的目标跟踪方法的流程示意图，该方法可以应用于目标跟踪装置，例如，该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备，可以实现目标跟踪等处理。其中，终端可以为用户设备(ue，user equipment)、移动设备、个人数字处理(pda，personal digital assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图5所示，该方法应用于图1所示的集群系统中的任一节点或电子设备(手机或台式机等)中，包括：
69.s501、从视频流数据中获取第一图像帧及第n图像帧，n为大于2的正整数。
70.s502、将第一图像帧及第n图像帧输入用于目标跟踪的第二模型，第二模型通过加载预训练参数进行模型训练所得到。
71.s503、根据第二模型，对第一图像帧及第n图像帧中待跟踪对象的类别进行识别，得到识别结果。
72.s504、根据识别结果进行目标跟踪。
73.s501-s504的一示例中，该视频流数据中包括多个图像帧，比如三个图像帧，这三个图像帧中存在多个待跟踪对象，多个待跟踪对象中存在一个目标对象，首先通过第二模型对第一图像帧及第三图像帧中待跟踪对象的类别进行识别，得到识别结果，由于该第二模型是通过加载预训练参数(该预训练参数用于表征由图文数据得到的目标对象类别)得到的，因此，可以从第一图像帧及第三图像帧中识别出该目标对象，之后，根据该识别结果进行目标跟踪，即：对在该第一图像帧及该第三图像帧中存在的该目标对象进行位置跟踪。其中，该第二模型即：经上述实施例的第一预训练和第二预训练得到的第二模型，第二模型如图4所示。
74.采用本公开，通过加载预训练参数得到的第二模型进行目标对象的识别及跟踪，提高了识别精度，进而提高了目标跟踪的精度。
75.一实施方式中，根据识别结果进行目标跟踪，包括：根据识别结果，确定第一图像帧及第n图像帧中包括的同一个待跟踪对象，将同一个待跟踪对象作为目标对象，根据目标对象的位置变化进行目标跟踪，得到目标对象对应的当前目标位置。
76.采用本实施方式，根据第二模型的识别结果可以锁定第一图像帧及第n图像帧中包括的同一个待跟踪对象，从而，将该同一个待跟踪对象作为目标对象，根据该目标对象的位置变化进行目标跟踪，最终得到目标对象对应的当前目标位置，且目标跟踪的精度高。
77.一些示例中，如图6所示，在使用上述目标跟踪方法的一应用场景中，该视频流数据中包括多个图像帧，比如三个图像帧，这三个图像帧中存在多个待跟踪对象，多个待跟踪对象中存在一个目标对象。其中，进行目标对象的跟踪时，提取包括多个待跟踪对象(如多个待跟踪对象601-603)的图像帧的原图600，在该图像帧的原图的基础上进行图像截取，得到包括一个待跟踪对象602的小图604，且该待跟踪对象602为目标对象，将小图604作为原图600中的目标搜索区域，以在原图600中锁定该目标对象。具体的，将包括原图600及小图604输入第二模型进行相似度匹配，首先通过第二模型对第一图像帧及第三图像帧中待跟踪对象的类别进行识别，得到识别结果，由于该第二模型是通过加载预训练参数(该预训练参数用于表征由图文数据得到的目标对象类别)得到的，因此，可以从第一图像帧及第三图像帧中识别出该目标对象，之后，根据该识别结果针对同一个目标对象进行目标跟踪，即：对在该第一图像帧及该第三图像帧中都存在的该目标对象进行位置跟踪。
78.下面对上述本公开实施例提供的模型训练方法进行示例说明。
79.单目标跟踪是在一段连续的视频中，在起始帧选定一个实例物体框，然后在之后连续的视频帧中通过提取特征以计算相似度，或者根据位置计算交并比等方式，确定目标对象的当前目标位置。
80.单目标跟踪的一种方式是：核相关滤波，具体是采用循环矩阵的方式来扩充负样本的数量，由于样本数量的增多，从而增强了用于目标跟踪的模型(如滤波器)性能。虽然采用了直方图(hog)特征以及通过循环矩阵的方式提升了滤波器的鲁棒性，并且通过时域卷积等于频域相乘的性质把图像域转换到频域来减少计算量，但是传统手工设计的特征的丰富程度远不如卷积神经网络提取到的特征，使用传统手工设计的特征，很难具有较强的泛化效果。
81.目标跟踪的另一种方式是：采用孪生网络结构的模型把单目标跟踪当成模板匹配问题，该模型并不需要理解目标对象，当新一帧的目标对象到来的时候，只需要找到相同的目标对象即可，从而确定目标对象的当前目标位置。由于现实世界的多样性，而这种方案很依赖训练数据，假如训练数据中不存在相关类别，那么在单目标跟踪时，跟踪的效果会有明显的降低，换言之，这种方案是针对在固定类别上训练的模型，在训练数据中没见过的未知类别上往往具有较差的泛化能力。
82.本应用示例中，最终训练得到的第二模型，基于海量图文数据的易于获取性，以及海量图文数据包含内容的复杂性，利用了海量图文数据进行预训练模型的先验信息来提高单目标跟踪的精度，尤其提高了在未知类别上单目标跟踪的适用性。海量图文数据的易于获取性，降低了人工成本，海量图文数据中图像数据及其对应文本数据中存在的映射关系，可以用于识别未知类别。具体的，利用海量图文进行预训练前的第一模型的第一预训练，基于海量图文数据进行孪生网络结构的模型预训练，由于在海量图文数据中存在相关类别，孪生网络结构的模型预训练可以继承这种先验信息，因此具有对未知类别很好的泛化能力，根据投影矩阵把图像特征(或称视觉特征)映射到语言特征空间中，第一模型的第一预训练结束后可以得到预训练参数。在预训练后的第一模型的第二预训练中加载该预训练参数，该预训练参数可以是固定的，则该投影矩阵的权重是固定的，以使得训练后的第一模型继承海量图文数据的先验信息，也能够保证图像特征(或称视觉特征)到语言特征的一致性，从而提高单目标跟踪器在未知类别上的泛化能力，即：在单目标跟踪中采用第二模型，
让单目标跟踪算法在不同类别(特别是训练数据集中不存在的未知类别)均能取到精准的目标跟踪效果。
83.根据本公开的实施例，提供了一种模型训练装置，图7是根据本公开实施例的模型训练装置的组成结构示意图，如图7所示，模型训练装置包括：第一训练模块701，用于根据图文数据对第一模型进行第一预训练，得到所述第一模型在第二预训练中加载的预训练参数；第一构建模块702，用于根据第一图像样本集合及第二图像样本集合，构建训练数据；第二训练模块703，用于根据训练数据和预训练参数对第一模型进行第二预训练，得到第二模型。
84.一实施方式中，预训练参数，用于表征由图文数据得到的目标对象类别。
85.一实施方式中，所述第一训练模块701，用于从所述图文数据中提取第一图像数据及与所述第一图像数据对应的第一文本数据；将所述第一图像数据及所述第一文本数据输入所述第一模型；根据所述第一图像数据及所述第一文本数据之间的映射关系进行所述第一预训练，得到所述预训练参数。
86.一实施方式中，所述第一训练模块701，用于在所述第一模型中，根据所述第一图像数据及所述第一文本数据之间的映射关系得到第一预训练目标；根据所述第一预训练目标进行所述第一预训练，对所述第一模型中的映射模块进行参数调整，得到所述预训练参数。
87.一实施方式中，所述第一训练模块701，用于将所述第一图像数据输入所述第一模型的第一处理分支，对所述第一图像数据进行特征提取，得到第一图像特征；将所述第一文本数据输入所述第一模型的第二处理分支，对所述第一文本数据进行特征提取，得到第一文本特征；将所述第一图像特征及所述第一文本特征分别进行映射处理，并映射到同一个目标特征空间中，得到在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系；根据在所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系，得到所述第一预训练目标。
88.一实施方式中，所述第二训练模块703，用于从所述训练数据中提取第一图像样本数据及第二图像样本数据；将所述第一图像样本数据及所述第二图像样本数据输入所述第一模型，在所述第一模型中的所述映射模块加载所述预训练参数的情况下对所述第一模型进行所述第二预训练，得到所述第二模型。
89.一实施方式中，还包括类别确定模块，用于通过在所述第一模型中的所述映射模块加载所述预训练参数，得到先验信息；在所述第一模型中，根据所述先验信息确定所述第一图像样本数据与所述第二图像样本数据中的待跟踪对象类别；其中，所述先验信息包括：通过所述同一个目标特征空间中所述第一图像数据及所述第一文本数据之间的映射关系所指示的类别标签。
90.一实施方式中，所述第二训练模块703，用于将所述第一图像样本数据输入所述第一模型的第一处理分支，对所述第一图像样本数据进行特征提取，得到第一图像样本特征；将所述第二图像样本数据输入所述第一模型的第二处理分支，对所述第二图像样本数据进行特征提取，得到第二图像样本特征；将所述第一图像样本特征及所述第二图像样本特征分别通过所述映射模块进行映射处理，并映射到所述同一个目标特征空间中；在所述同一个第二目标特征空间中，根据所述先验信息对所述第一图像样本特征及所述第二图像样本
特征中用于表征所述待跟踪对象类别的特征进行相似度匹配，得到匹配结果；根据所述匹配结果得到第二预训练目标，根据所述第二预训练目标进行所述第二预训练，得到所述第二模型。
91.根据本公开的实施例，提供了一种模型训练装置，图8是根据本公开实施例的目标跟踪装置的组成结构示意图，如图8所示，目标跟踪装置包括：第一获取模块801，用于从视频流数据中获取第一图像帧及第n图像帧，所述n为大于2的正整数；第一处理模块802，用于将所述第一图像帧及所述第n图像帧输入用于目标跟踪的第二模型，所述第二模型通过加载预训练参数进行模型训练所得到；第二处理模块803，用于根据所述第二模型，对所述第一图像帧及所述第n图像帧中待跟踪对象的类别进行识别，得到识别结果；目标跟踪模块804，用于根据所述识别结果进行目标跟踪。
92.一实施方式中，预训练参数，用于表征由图文数据得到的目标对象类别。
93.一实施方式中，所述目标跟踪模块804，用于根据所述识别结果，确定所述第一图像帧及所述第n图像帧中包括的同一个待跟踪对象；将所述同一个待跟踪对象作为目标对象，根据所述目标对象的位置变化进行目标跟踪，得到所述目标对象对应的当前目标位置。
94.本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
95.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
96.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
97.如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序，来执行各种适当的动作和处理。在ram 903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
98.电子设备900中的多个部件连接至i/o接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
99.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如模型训练方法/目标跟踪方法。例如，在一些实施例中，模型训练方法/目标跟踪方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实
施例中，计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到ram 903并由计算单元901执行时，可以执行上文描述的模型训练方法/目标跟踪方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法/目标跟踪方法。
100.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
101.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
102.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
103.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
104.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
105.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
106.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。
107.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于联盟链的数据同步方法和装置与流程

模型训练方法、目标跟踪方法、装置与流程

相关文献

最热文献