获取标签的方法、装置和系统，及计算机终端与流程

2022-05-18 00:07:39 来源：中国专利 TAG：

1.本技术涉及互联网领域，具体而言，涉及一种获取标签的方法、装置和系统，及计算机终端。

背景技术：

2.在电商平台的直播场景中，需要实时获取直播间内容的标签。目前可以通过检测直播视频中的产品，并将其与直播间已上架的产品进行匹配，并基于匹配结果获取直播视频中的产品的标签。
3.但是，由于直播间已经上架的商品是由主播手工上传的，因此，直播间已上架的产品的标签采用人工方式获得，导致上传的直播视频中存在标签的内容不准确，进而导致直播视频中的产品的标签获取不准确。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本技术实施例提供了一种获取标签的方法、装置和系统，及计算机终端，以至少解决相关技术中已有产品的标签采用人工方式获得，导致目标对象的标签获取准确度较低的技术问题。
6.根据本技术实施例的一个方面，提供了一种获取标签的方法，包括：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
7.根据本技术实施例的另一方面，还提供了一种获取标签的方法，包括：展示目标对象的对象信息；在选择界面中展示对应目标对象的多模态媒体信息，其中，多模态媒体信息基于对象信息而产生，包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
8.根据本技术实施例的另一方面，还提供了一种获取标签的方法，包括：通过调用第一接口获取目标对象的对象信息，其中，第一接口包括：第一参数，第一参数的参数值为对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签；通过调用第二接口输出标签，其中，第二接口包括：第二参数，第二参数的参数值为标签。
9.根据本技术实施例的另一方面，还提供了一种获取标签的装置，包括：第一获取模块，用于获取目标对象的对象信息；第二获取模块，用于基于对象信息，获取对应目标对象
的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；识别模块，用于采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；分析模块，用于采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
10.根据本技术实施例的另一方面，还提供了一种获取标签的装置，包括：第一展示模块，用于展示目标对象的对象信息；第二展示模块，用于在选择界面中展示对应目标对象的多模态媒体信息，其中，多模态媒体信息基于对象信息而产生，包括如下至少两种类型的信息：视频、音频和文本；识别模块，用于采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；分析模块，用于采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
11.根据本技术实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的获取标签的方法。
12.根据本技术实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的获取标签的方法。
13.根据本技术实施例的另一方面，还提供了一种获取标签的系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
14.在本技术实施例中，在获取到目标对象的对象信息之后，可以基于对象信息获取目标对象的多模态媒体信息，进一步通过多模态识别模型生成标签特征，通过多标签分类器生成目标对象的标签，从而达到获取目标对象的标签的目的。容易注意到的是，多模态媒体信息中包含有目标对象的丰富信息，而且，目标对象的标签是通过对目标对象的多模态媒体信息进行识别分析得到的，无需精细到同款产品粒度，也无需主播人工上传产品标签，从而达到了提高召回率，降低人工操作成本，提高标签获取准确度，提升用户体验的技术效果，进而解决了相关技术中已有产品的标签采用人工方式获得，导致目标对象的标签获取准确度较低的技术问题。
附图说明
15.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
16.图1是根据现有技术的一种用于实现获取标签的方法的计算机终端(或移动设备)的硬件结构框图；
17.图2是根据本技术实施例的一种获取标签的方法的流程图；
18.图3是根据本技术实施例的一种可选的获取标签的方法的流程图；
19.图4是根据本技术实施例的另一种获取标签的方法的流程图；
20.图5是根据本技术实施例的一种获取标签的装置的示意图；
21.图6是根据本技术实施例的另一种获取标签的装置的示意图；
22.图7是根据本技术实施例的又一种获取标签的方法的流程图；
23.图8是根据本技术实施例的又一种获取标签的装置的示意图；
24.图9是根据本技术实施例的一种计算机终端的结构框图。
具体实施方式
25.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
26.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
28.深度学习：可以是指具有较高层数的人工神经网络结果，可以用来实现图像检测、分类等。
29.标签：可以是需要通过模型进行预测的目标，例如，对于图像检测目标，标签可以是检测框。
30.多模态媒体信息：可以是指包含多种来源或者形式的信息，信息的媒介可以是语音、视频、文字等。
31.多标签分类器：多标签可以是指每个样本存在有多个标签，例如，直播视频中的产品可以标记上服饰、主播主推产品等多个标签。多标签分类器可以是指用于识别输入样本对应的多个标签的分类器。
32.transformer：可以是一种端到端的网络结构，包含encoder和decoder两个部分，encoder负责对输入进行解析，decoder负责生成输出结果。
33.目前，在直播场景中，获取产品的标签信息的方法可以通过检测直播视频中的产品，并与直播间上架的产品进行匹配，从而识别出同款产品，并直接获取同款产品的标签信息作为该产品的标签信息。但是上述方法需要进行产品匹配，导致召回率偏低，覆盖不足。另外，同款产品的标签信息来自于主播手工上传的商品信息，导致同款产品的标签信息获取不准确、不完整，进而导致该产品的标签信息获取不准确、不完整。
34.为了解决上述问题，本技术构建了直播间产品标签体系，可以直接建立模型识别直播视频中的产品标签，具体实现方式如下：
35.实施例1
36.根据本技术实施例，还提供了一种获取标签的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
37.本技术实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现获取标签的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
38.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
39.存储器104可用于存储应用软件的软件程序以及模块，如本技术实施例中的获取标签的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的获取标签的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
40.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface control ler，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
41.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
42.此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
43.在上述运行环境下，本技术提供了如图2所示的获取标签的方法。图2是根据本技术实施例的一种获取标签的方法的流程图。如图2所示，该方法可以包括如下步骤：
44.步骤s22，获取目标对象的对象信息。
45.上述步骤中的目标对象可以是直播过程中展示的服饰、护肤品、零食等产品，对象信息可以是直播产品的名称、型号、厂家、价格等信息，但不仅限于此。
46.在一种可选的实施例中，主播或观众可以在移动终端(例如智能手机、平板电脑、笔记本电脑、掌上电脑等)或计算机终端的交互界面上输入直播产品的产品信息，从而移动终端或计算机终端可以获取到直播产品的产品信息。
47.在另一种可选的实施例中，主播或观众可以在移动终端或计算机终端的交互界面上输入直播产品的产品信息，并通过移动终端或计算机终端上传直播视频中展示的直播产品的产品信息至服务器，从而服务器可以获取到直播产品的产品信息。
48.步骤s24，基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本。
49.需要说明的是，在实时直播过程中，视频、音频、文本等直播内容包含了直播产品的丰富信息，因此，通过对上述直播内容进行识别可以较为准确获取到直播产品的标签。
50.在一种可选的实施例中，在获取到直播产品的产品信息之后，可以基于产品信息从直播视频中获取到直播产品的视频片段、音频片段、以及语音识别得到的文本信息，从而得到主播产品的多模态媒体信息。
51.需要说明的是，为了准确、快速地获取到多模态媒体信息，主播或观众在上传产品信息的同时，还可以上传该直播产品在直播视频中开始和结束展示的时间点，从而可以直接获取直播视频中位于两个时间点之间的视频片段、音频片段以及语音识别得到的文本信息。
52.步骤s26，采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征。
53.上述步骤中的多模态识别模型可以是预先通过不同产品的多模态媒体信息以及对应的产品标签进行训练得到的神经网络模型，其中，多模态媒体信息作为输入，产品标签作为输出。该模型可以包括特征提取模块和特征融合模块，特征提取模块可以提取出多模态媒体信息中不同模态下的特征；特征融合模块可以将可变长的不同模态下的特征融合成一个特征，也即，得到上述的标签特征。
54.在一种可选的实施例中，在获取到直播产品的多模态媒体信息之后，可以将其输入至多模态识别模型中，由三个特征提取模块分别提取视频、音频和文本的特征，提取出的三个特征由特征融合模块进行特征融合，特征融合模块的输出结果即为标签特征。
55.步骤s28，采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
56.在一种可选的实施例中，由于直播产品往往可以标注多个标签，因此，可以采用多标签分类器对标签特征进行分类，从而得到直播产品的标签。移动终端或计算机终端在得到直播产品的标签之后，可以将直播产品的标签展示给主播或观众；服务器在得到直播产品的标签之后，可以将直播产品的标签返回给移动终端或计算机终端，由移动终端或计算机终端展示给主播或观众。
57.通过本技术上述实施例提供的方案，在获取到目标对象的对象信息之后，可以基于对象信息获取目标对象的多模态媒体信息，进一步通过多模态识别模型生成标签特征，通过多标签分类器生成目标对象的标签，从而达到获取目标对象的标签的目的。容易注意
到的是，多模态媒体信息中包含有目标对象的丰富信息，而且，目标对象的标签是通过对目标对象的多模态媒体信息进行识别分析得到的，无需精细到同款产品粒度，也无需主播人工上传产品标签，从而达到了提高召回率，降低人工操作成本，提高标签获取准确度，提升用户体验的技术效果，进而解决了相关技术中已有产品的标签采用人工方式获得，导致目标对象的标签获取准确度较低的技术问题。
58.在本技术上述实施例中，采用多模态识别模型处理目标对象的多模态媒体信息，生成标签特征，包括：提取多模态媒体信息中不同模态下的特征；对不同模态下提取到的特征进行特征融合，生成标签特征。
59.可选的，在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
60.在一种可选的实施例中，多模态媒体信息中包含有不同模态的信息，因此可以针对不同模态的信息构建不同的特征提取模型，并通过不同特征提取模型对不同模态的信息进行特征提取，从而得到不同模态下的信息。例如，对于包含有视频、音频和文本的多模态媒体信息，可以预先构建三个特征提取模型，分别命名为视频特征模型、音频特征模型和文本特征模型，通过视频特征模型提取视频特征，通过音频特征模型提取音频特征，并通过文本特征模型提取文本特征。
61.需要说明的是，不同的特征提取模型可以采用相同的模型结构，区别仅在于训练样本不同。
62.在另一种可选的实施例中，不同模态下的特征长度往往不同，因此，可以构建一个采用多层transformer结构的特征融合模块，在提取出多模态媒体信息中不同模态下的特征之后，通过特征融合模块将不同模态下的特征进行融合，生成一个标签特征。
63.在本技术上述实施例中，在采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理之前，该方法还包括：采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
64.上述步骤中的神经网络模型可以是指多模态识别模型的网络架构，对神经网络模型进行训练后即可得到多模态识别模型。上述步骤中的历史时间段可以是根据训练精度和训练速度所设定的时间段，也可以是预先设定好的固定值。上述步骤中的标签信息可以是主播上传的直播产品的标签。
65.在一种可选的实施例中，为了达到构建多模态识别模型的目的，可以预先根据识别需求确定神经网络模型的具体网络结构，并获取历史时间段内所有主播上传的直播产品的产品信息及其对应的标签信息，进一步通过主播上传的产品信息收集该产品对应的多模态媒体信息，从而将多模态媒体信息和对应的标签信息构建样本数据，进一步利用样本数据对神经网络模型进行训练，可以得到多模态识别模型。
66.在本技术上述实施例中，在采用神经网络模型训练样本数据，构建得到多模态识别模型之前，该方法还包括：获取历史时间段内播放的目标对象的对象信息；基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信
息和文本信息；将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
67.在一种可选的实施例中，主播可以直接在移动终端或计算机终端中选择历史时间段内的所有直播产品，并输入所有直播产品的产品信息，从而移动终端或计算机终端可以获取到历史时间段内的产品信息。在另一种可选的实施例中，主播可以在移动终端或计算机终端中选择历史时间段内的所有直播产品，并输入所有直播产品的产品信息，通过移动中单或计算机终端上传至服务器，从而服务器可以获取到历史时间段内的产品信息。
68.进一步地，在获取到产品信息之后，可以结合主播上传的时间点，从相关的直播视频中提取视频片段、音频片段以及语音识别得到文本信息，从而得到直播产品的历史媒体信息。另外，可以收集主播上传的每个直播产品的历史标签信息，通过历史媒体信息和历史标签信息构建样本数据，将历史媒体信息作为训练输入，并将历史标签信息作为训练目标。在构建好样本数据之后，可以通过将样本数据输入至神经网络模型中达到模型训练的目的。
69.在本技术上述实施例中，在获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息之后，该方法还包括如下至少之一：将历史媒体信息和历史标签信息中不满足条件的信息进行删除；将历史媒体信息和历史标签信息中的重复内容进行合并；将历史媒体信息和历史标签信息中的错误内容进行更新；将历史媒体信息和历史标签信息中的遗漏内容进行补充。
70.上述步骤中不满足条件的信息可以是指视觉不可分的信息，例如，视觉不可分的标签。上述步骤中的重复内容可以是指相同或同义的内容，例如，相同或重复的标签。
71.需要说明的是，由于历史媒体信息往往是直接从直播视频中提取的，因此，历史媒体信息的准确度和完整性较高。而历史标签信息是主播主动上传的标签，因此，历史标签信息存在不准确、不完整的问题，需要进行人工校验。
72.在一种可选的实施例中，在收集到所有直播产品的历史标签信息之后，需要对历史标签信息进行人工校验，具体可以进行如下校验步骤：对视觉不可分的历史标签信息进行删除；将相同、同义的历史标签信息进行合并；对存在错误、不完整的历史标签信息，可以通过与已上架商品进行匹配的方式，通过已上架商品的标签进行纠正、补充，使历史标签信息更加准确、完整。
73.在本技术上述实施例中，该方法还包括：从历史媒体信息中提取目标对象的产品图像特征；基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；使用匹配到的产品标签替换历史标签信息。
74.上述步骤中预存的产品标签集合可以包括已有的精品集中所有产品的标签信息，该集合中包含的产品的标签更加准确、完整。
75.在一种可选的实施例中，对于存在错误、不完整的历史标签信息，可以从历史媒体信息中提取直播产品的产品图像特征，并将其与已有的精品集产品进行搜索匹配，将匹配成功，也即匹配度最高的精品集中的产品的标签，应用到直播产品上，也即，直接将直播产品的历史标签信息替换为匹配度最高的产品标签，或者将匹配度最高的产品标签中未存在于历史标签信息中的产品标签补充至历史标签信息中，从而达到对直播产品的历史标签信
息进行纠正、补充的目的。
76.下面结合图3以直播间的应用场景为例对本技术一种优选的实施例进行详细说明。该方法可以由移动终端或服务器执行，本技术对此不作具体限定，该方法可以包括两个部分，分别是直播间标签构建和直播间标签识别。
77.对于直播间标签构建部分，如图3所示，具体实现流程如下：
78.步骤s32，收集主播上传的直播产品及其标签信息。
79.步骤s34，人工过滤筛选，得到产品标签体系。
80.可选的，对于收集到的标签集合需要经过人工校验，将视觉不可分的标签进行删除；对相同、同义的标签进行合并；对错误、不完整的标签进行纠正、补充，完成上述人工校验流程之后，最终得到的标签集合可以构建为产品标签体系。
81.步骤s36，通过图像特征匹配精品集产品，对错误、不完整标签进行纠正、补充。
82.对于错误、不完整的标签，可以通过提取产品的图像特征，将其与已有的精品集产品进行搜索匹配，并将匹配成功的精品集中的产品的标签，应用于该产品，从而对该产品的标签进行纠正、补充。
83.对于直播间标签识别部分，如图3所示，具体实现流程如下：
84.步骤s38，收集直播产品对应的视频、音频、以及语音识别得到的文本。
85.可选的，可以通过主播上传的产品信息及其时间点，收集到直播产品对应的视频、音频以及文本。
86.需要说明的是，在确定出产品的产品标签之后，可以结合视频、音频、文本数据，将视频、音频、文本作为数据，产品标签作为输出，构建多模态识别模型，其中，多模态识别模型可以包括三个特征提取模块和一个特征融合模块。
87.步骤s310，利用视频特征模块提取视频特征，利用音频特征模块提取音频特征，并利用文本特征模块提取文本特征。
88.步骤s312，利用特征融合模块将视频特征、音频特征和文本特征融合成一个特征。
89.步骤s314，将融合后的特征输入至多标签分类器，得到最终的产品标签。
90.通过上述步骤提供的方案，本技术可以自动构建产品标签集合，达到提高标签获取效率，降低运营成本，提升用户体验。通过多模态识别模型和多标签分类器进行识别，识别出直播产品的产品标签。与相关技术相比，由于不需要精细到同款商品粒度，所以召回率会更高；由于构建了统一的标签体系和对应的识别算法，避免依赖手工上传信息造成的标签不准确、不完整问题。
91.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
92.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储
介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
93.实施例2
94.根据本技术实施例，还提供了一种获取标签的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
95.图4是根据本技术实施例的另一种获取标签的方法的流程图。如图4所示，该方法可以包括如下步骤：
96.步骤s42，展示目标对象的对象信息。
97.上述步骤中的目标对象可以是直播过程中展示的服饰、护肤品、零食等产品，对象信息可以是直播产品的名称、型号、厂家、价格等信息，但不仅限于此。
98.步骤s44，在选择界面中展示对应目标对象的多模态媒体信息，其中，多模态媒体信息基于对象信息而产生，包括如下至少两种类型的信息：视频、音频和文本。
99.上述步骤中的选择界面可以是方便用户根据获取准确度和获取速度，从给定的不同媒体信息中选择多个媒体信息，得到多模态媒体信息。
100.在一种可选的实施例中，移动终端或计算机终端在获取到直播产品在直播视频中的视频、音频、以及语音识别得到的文本之后，可以将获取到的信息显示在选择界面中，由主播进行选择，并基于主播的选择确定多模态媒体信息。
101.步骤s46，采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征。
102.上述步骤中的多模态识别模型可以是预先通过不同产品的多模态媒体信息以及对应的产品标签进行训练得到的神经网络模型，其中，多模态媒体信息作为输入，产品标签作为输出。该模型可以包括特征提取模块和特征融合模块，特征提取模块可以提取出多模态媒体信息中不同模态下的特征；特征融合模块可以将可变长的不同模态下的特征融合成一个特征，也即，得到上述的标签特征。
103.步骤s48，采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
104.在本技术上述实施例中，采用多模态识别模型处理目标对象的多模态媒体信息，生成标签特征，包括：提取多模态媒体信息中不同模态下的特征；对不同模态下提取到的特征进行特征融合，生成标签特征。
105.可选的，在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
106.在本技术上述实施例中，在采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理之前，该方法还包括：采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
107.上述步骤中的神经网络模型可以是指多模态识别模型的网络架构，对神经网络模型进行训练后即可得到多模态识别模型。上述步骤中的历史时间段可以是根据训练精度和
训练速度所设定的时间段，也可以是预先设定好的固定值。上述步骤中的标签信息可以是主播上传的直播产品的标签。
108.在本技术上述实施例中，在采用神经网络模型训练样本数据，构建得到多模态识别模型之前，该方法还包括：获取历史时间段内播放的目标对象的对象信息；基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
109.在本技术上述实施例中，在获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息之后，该方法还包括如下至少之一：将历史媒体信息和历史标签信息中不满足条件的信息进行删除；将历史媒体信息和历史标签信息中的重复内容进行合并；将历史媒体信息和历史标签信息中的错误内容进行更新；将历史媒体信息和历史标签信息中的遗漏内容进行补充。
110.上述步骤中不满足条件的信息可以是指视觉不可分的信息，例如，视觉不可分的标签。上述步骤中的重复内容可以是指相同或同义的内容，例如，相同或重复的标签。
111.在本技术上述实施例中，该方法还包括：从历史媒体信息中提取目标对象的产品图像特征；基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；使用匹配到的产品标签替换历史标签信息。
112.上述步骤中预存的产品标签集合可以包括已有的精品集中所有产品的标签信息，该集合中包含的产品的标签更加准确、完整。
113.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
114.实施例3
115.根据本技术实施例，还提供了一种用于实施上述获取标签的方法的获取标签的装置，如图5所示，该装置500包括：第一获取模块502、第二获取模块504、识别模块506和分析模块508。
116.其中，第一获取模块502用于获取目标对象的对象信息；第二获取模块504用于基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；识别模块506用于采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；分析模块508用于采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
117.此处需要说明的是，上述第一获取模块502、第二获取模块504、识别模块506和分析模块508对应于实施例1中的步骤s22至步骤s28，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
118.在本技术上述实施例中，识别模块包括：提取单元和融合单元。
119.其中，提取单元用于提取多模态媒体信息中不同模态下的特征；融合单元用于对不同模态下提取到的特征进行特征融合，生成标签特征。
120.可选的，融合单元还用于在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
121.在本技术上述实施例中，该装置还包括：构建模块。
122.其中，构建模块用于采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
123.在本技术上述实施例中，该装置还包括：第三获取模块、第四获取模块和输入模块。
124.其中，第三获取模块用于获取历史时间段内播放的目标对象的对象信息；第四获取模块用于基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；输入模块用于将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
125.在本技术上述实施例中，该装置还包括如下至少之一：删除模块、合并模块、更新模块和补充模块。
126.其中，删除模块用于将历史媒体信息和历史标签信息中不满足条件的信息进行删除；合并模块用于将历史媒体信息和历史标签信息中的重复内容进行合并；更新模块用于将历史媒体信息和历史标签信息中的错误内容进行更新；补充模块用于将历史媒体信息和历史标签信息中的遗漏内容进行补充。
127.在本技术上述实施例中，该装置还包括：提取模块和匹配模块。
128.其中，提取模块用于从历史媒体信息中提取目标对象的产品图像特征；匹配模块用于基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；更新模块还用于使用匹配到的产品标签替换历史标签信息。
129.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
130.实施例4
131.根据本技术实施例，还提供了一种用于实施上述获取标签的方法的获取标签的装置，如图6所示，该装置600包括：第一展示模块602、第二展示模块604、识别模块606和分析模块608。
132.其中，第一展示模块602用于获取目标对象的对象信息；第二展示模块604用于基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；识别模块606用于采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；分析模块608用于采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
133.此处需要说明的是，上述第一展示模块602、第二展示模块604、识别模块606和分析模块608对应于实施例2中的步骤s42至步骤s48，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的
一部分可以运行在实施例1提供的计算机终端10中。
134.在本技术上述实施例中，识别模块包括：提取单元和融合单元。
135.其中，提取单元用于提取多模态媒体信息中不同模态下的特征；融合单元用于对不同模态下提取到的特征进行特征融合，生成标签特征。
136.可选的，融合单元还用于在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
137.在本技术上述实施例中，该装置还包括：构建模块。
138.其中，构建模块用于采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
139.在本技术上述实施例中，该装置还包括：第一获取模块、第二获取模块和输入模块。
140.其中，第一获取模块用于获取历史时间段内播放的目标对象的对象信息；第二获取模块用于基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；输入模块用于将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
141.在本技术上述实施例中，该装置还包括如下至少之一：删除模块、合并模块、更新模块和补充模块。
142.其中，删除模块用于将历史媒体信息和历史标签信息中不满足条件的信息进行删除；合并模块用于将历史媒体信息和历史标签信息中的重复内容进行合并；更新模块用于将历史媒体信息和历史标签信息中的错误内容进行更新；补充模块用于将历史媒体信息和历史标签信息中的遗漏内容进行补充。
143.在本技术上述实施例中，该装置还包括：提取模块和匹配模块。
144.其中，提取模块用于从历史媒体信息中提取目标对象的产品图像特征；匹配模块用于基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；更新模块还用于使用匹配到的产品标签替换历史标签信息。
145.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
146.实施例5
147.根据本技术实施例，还提供了一种获取标签的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
148.图7是根据本技术实施例的又一种获取标签的方法的流程图。如图7所示，该方法可以包括如下步骤：
149.步骤s72，通过调用第一接口获取目标对象的对象信息，其中，第一接口包括：第一
参数，第一参数的参数值为对象信息。
150.上述步骤中的第一接口可以是服务器与客户端之间进行数据交互的接口，客户端可以将目标对象的对象信息传入接口函数，作为接口函数的一个参数，实现对象信息上传至服务器的目的。
151.上述步骤中的目标对象可以是直播过程中展示的服饰、护肤品、零食等产品，对象信息可以是直播产品的名称、型号、厂家、价格等信息，但不仅限于此。
152.步骤s74，基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本。
153.步骤s76，采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征。
154.上述步骤中的多模态识别模型可以是预先通过不同产品的多模态媒体信息以及对应的产品标签进行训练得到的神经网络模型，其中，多模态媒体信息作为输入，产品标签作为输出。该模型可以包括特征提取模块和特征融合模块，特征提取模块可以提取出多模态媒体信息中不同模态下的特征；特征融合模块可以将可变长的不同模态下的特征融合成一个特征，也即，得到上述的标签特征。
155.步骤s78，采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
156.步骤s710，通过调用第二接口输出标签，其中，第二接口包括：第二参数，第二参数的参数值为标签。
157.上述步骤中的第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以将与目标对象匹配的标签传入接口函数，作为接口函数的一个参数，实现标签下发至客户端的目的。
158.在本技术上述实施例中，采用多模态识别模型处理目标对象的多模态媒体信息，生成标签特征，包括：提取多模态媒体信息中不同模态下的特征；对不同模态下提取到的特征进行特征融合，生成标签特征。
159.可选的，在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
160.在本技术上述实施例中，在采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理之前，该方法还包括：采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
161.上述步骤中的神经网络模型可以是指多模态识别模型的网络架构，对神经网络模型进行训练后即可得到多模态识别模型。上述步骤中的历史时间段可以是根据训练精度和训练速度所设定的时间段，也可以是预先设定好的固定值。上述步骤中的标签信息可以是主播上传的直播产品的标签。
162.在本技术上述实施例中，在采用神经网络模型训练样本数据，构建得到多模态识别模型之前，该方法还包括：获取历史时间段内播放的目标对象的对象信息；基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信
息和文本信息；将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
163.在本技术上述实施例中，在获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息之后，该方法还包括如下至少之一：将历史媒体信息和历史标签信息中不满足条件的信息进行删除；将历史媒体信息和历史标签信息中的重复内容进行合并；将历史媒体信息和历史标签信息中的错误内容进行更新；将历史媒体信息和历史标签信息中的遗漏内容进行补充。
164.上述步骤中不满足条件的信息可以是指视觉不可分的信息，例如，视觉不可分的标签。上述步骤中的重复内容可以是指相同或同义的内容，例如，相同或重复的标签。
165.在本技术上述实施例中，该方法还包括：从历史媒体信息中提取目标对象的产品图像特征；基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；使用匹配到的产品标签替换历史标签信息。
166.上述步骤中预存的产品标签集合可以包括已有的精品集中所有产品的标签信息，该集合中包含的产品的标签更加准确、完整。
167.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
168.实施例6
169.根据本技术实施例，还提供了一种用于实施上述获取标签的方法的获取标签的装置，如图8所示，该装置800包括：第一调用模块802、获取模块804、识别模块806、分析模块808和第二调用模块810。
170.其中，第一调用模块802用于通过调用第一接口获取目标对象的对象信息，其中，第一接口包括：第一参数，第一参数的参数值为对象信息；获取模块804用于基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；识别模块806用于采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；分析模块808用于采用多标签分类器分析标签特征，生成与目标对象匹配的标签；第二调用模块810用于通过调用第二接口输出标签，其中，第二接口包括：第二参数，第二参数的参数值为标签。
171.此处需要说明的是，上述第一调用模块802、获取模块804、识别模块806、分析模块808和第二调用模块810对应于实施例5中的步骤s72至步骤s710，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
172.在本技术上述实施例中，识别模块包括：提取单元和融合单元。
173.其中，提取单元用于提取多模态媒体信息中不同模态下的特征；融合单元用于对不同模态下提取到的特征进行特征融合，生成标签特征。
174.可选的，融合单元还用于在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
175.在本技术上述实施例中，该装置还包括：构建模块。
176.其中，构建模块用于采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
177.在本技术上述实施例中，该装置还包括：第三获取模块、第四获取模块和输入模块。
178.其中，第三获取模块用于获取历史时间段内播放的目标对象的对象信息；第四获取模块用于基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；输入模块用于将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
179.在本技术上述实施例中，该装置还包括如下至少之一：删除模块、合并模块、更新模块和补充模块。
180.其中，删除模块用于将历史媒体信息和历史标签信息中不满足条件的信息进行删除；合并模块用于将历史媒体信息和历史标签信息中的重复内容进行合并；更新模块用于将历史媒体信息和历史标签信息中的错误内容进行更新；补充模块用于将历史媒体信息和历史标签信息中的遗漏内容进行补充。
181.在本技术上述实施例中，该装置还包括：提取模块和匹配模块。
182.其中，提取模块用于从历史媒体信息中提取目标对象的产品图像特征；匹配模块用于基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；更新模块还用于使用匹配到的产品标签替换历史标签信息。
183.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
184.实施例7
185.根据本技术实施例，还提供了一种获取标签的系统，包括：
186.处理器；
187.存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
188.需要说明的是，本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。
189.实施例8
190.本技术的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
191.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
192.在本实施例中，上述计算机终端可以执行获取标签的方法中以下步骤的程序代码：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
193.可选地，图9是根据本技术实施例的一种计算机终端的结构框图。如图9所示，该计算机终端a可以包括：一个或多个(图中仅示出一个)处理器902、以及存储器904。
194.其中，存储器可用于存储软件程序以及模块，如本技术实施例中的获取标签的方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的获取标签的方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
195.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
196.可选的，上述处理器还可以执行如下步骤的程序代码：提取多模态媒体信息中不同模态下的特征；对不同模态下提取到的特征进行特征融合，生成标签特征。
197.可选的，上述处理器还可以执行如下步骤的程序代码：在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
198.可选的，上述处理器还可以执行如下步骤的程序代码：在采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理之前，采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
199.可选的，上述处理器还可以执行如下步骤的程序代码：在采用神经网络模型训练样本数据，构建得到多模态识别模型之前，获取历史时间段内播放的目标对象的对象信息；基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
200.可选的，上述处理器还可以执行如下步骤的程序代码：在获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息之后，将历史媒体信息和历史标签信息中不满足条件的信息进行删除；将历史媒体信息和历史标签信息中的重复内容进行合并；将历史媒体信息和历史标签信息中的错误内容进行更新；和/或将历史媒体信息和历史标签信息中的遗漏内容进行补充。
201.可选的，上述处理器还可以执行如下步骤的程序代码：从历史媒体信息中提取目标对象的产品图像特征；基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；使用匹配到的产品标签替换历史标签信息。
202.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：展示目标对象的对象信息；在选择界面中展示对应目标对象的多模态媒体信息，其中，多模态媒体信息基于对象信息而产生，包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
203.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取目标对象的对象信息，其中，第一接口包括：第一参数，第一参数的参数值为对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签；通过调用第二接口输出标签，其中，第二接口包括：第二参数，第二参数的参数值为标签。
204.采用本技术实施例，提供了一种获取标签的方案。通过多模态识别模型和多标签分类器对目标对象的多模态媒体信息进行识别分析得到目标对象的标签，无需精细到同款产品粒度，也无需主播人工上传产品标签，从而达到了提高召回率，降低人工操作成本，提高标签获取准确度，提升用户体验的技术效果，进而解决了相关技术中已有产品的标签采用人工方式获得，导致目标对象的标签获取准确度较低的技术问题。
205.本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobi le internet devices，mid)、pad等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端a还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。
206.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
207.实施例9
208.本技术的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的获取标签的方法所执行的程序代码。
209.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
210.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标对象的对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特
征，生成与目标对象匹配的标签。
211.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：提取多模态媒体信息中不同模态下的特征；对不同模态下提取到的特征进行特征融合，生成标签特征。
212.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在对多模态媒体信息中的视频、音频和文本均进行特征提取的情况下，采用神经网络模型中的多层transformer的结构，将视频、音频和文本中提取到的特征序列进行融合，融合成一个标签特征。
213.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理之前，采用神经网络模型训练样本数据，构建得到多模态识别模型，其中，样本数据为历史时间段内播放的目标对象的历史媒体信息，以及针对历史媒体信息标注的标签信息。
214.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在采用神经网络模型训练样本数据，构建得到多模态识别模型之前，获取历史时间段内播放的目标对象的对象信息；基于历史时间段内播放的目标对象的对象信息，获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息，其中，历史媒体信息的类型包括如下至少两种类型：视频信息、音频信息和文本信息；将历史媒体信息和对应的历史标签信息作为样本数据输入至神经网络模型。
215.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在获取历史时间段内产生的与目标对象关联的历史媒体信息和历史标签信息之后，将历史媒体信息和历史标签信息中不满足条件的信息进行删除；将历史媒体信息和历史标签信息中的重复内容进行合并；将历史媒体信息和历史标签信息中的错误内容进行更新；和/或将历史媒体信息和历史标签信息中的遗漏内容进行补充。
216.可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：从历史媒体信息中提取目标对象的产品图像特征；基于目标对象的产品图像特征，与预存的产品标签集合进行匹配，获取到产品标签集合中与产品图像特征匹配度最高到产品标签；使用匹配到的产品标签替换历史标签信息。
217.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：展示目标对象的对象信息；在选择界面中展示对应目标对象的多模态媒体信息，其中，多模态媒体信息基于对象信息而产生，包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签。
218.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取目标对象的对象信息，其中，第一接口包括：第一参数，第一参数的参数值为对象信息；基于对象信息，获取对应目标对象的多模态媒体信息，其中，多模态媒体信息包括如下至少两种类型的信息：视频、音频和文本；采用多模态识别模型对目标对象的多模态媒体信息进行标签识别处理，生成标签特征；采用多标签分类器分析标签特征，生成与目标对象匹配的标签；通过调用第二接口输出标签，其中，第二接口包括：第二参数，第二参数的参数值为标签。
219.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
220.在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
221.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
222.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
223.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
224.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
225.以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于迁移学习的螺栓群松动定位和定量分析方法及系统与流程

获取标签的方法、装置和系统，及计算机终端与流程

相关文献

最热文献