数据处理方法、装置、设备及可读存储介质与流程
- 国知局
- 2024-08-30 14:31:02
本技术涉及计算机,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术:
1、视频标签识别是视频内容特征中重要的一部分。由于ugc(user-generatedcontent,用户生产的内容)视频的多样性,ugc视频所使用的标签库中的标签数量可以达到数十万甚至百万以上的量级,使得给每一个视频打上相应的内容标签存在诸多难点。
2、现有技术是对一批视频标注其对应的内容标签,构造训练集训练分类模型,再通过分类模型对新视频进行特征提取,将得到的视频特征直接通过分类层输出每个标签的概率,当输出的概率达到了针对该标签所预设的激活阈值时,将该标签确定为新视频的识别结果,因此在有新标签的时候,必然需要重新训练分类层,否则分类层无法输出新标签的概率。可见分类模型所支持的标签范围是固定的(闭集),即标签范围只支持训练集包含并且样本数目充足的内容标签。而ugc视频的标签会有很多新热词出现,当有新标签需要支持的时候,分类模型需要针对性地补充训练数据,重新训练分类模型才可以支持新标签,难以快速响应,无法满足标签识别的需求。
技术实现思路
1、本技术实施例提供了一种数据处理方法、装置、设备及可读存储介质,可以快速支持任意新增标签的识别。
2、本技术实施例一方面提供了一种数据处理方法,包括:
3、对媒体数据进行多模态特征提取,得到多模态特征向量;
4、对a个预设媒体标签分别进行文本特征提取,得到对应的a个标签特征向量;
5、对a个标签特征向量分别进行正负例构造,得到分别对应a个标签特征向量中的一个的a个正例特征向量,以及分别对应a个标签特征向量中的一个的a个负例特征向量,a为正整数,每个正例特征向量包含用于表征其对应的预设媒体标签与媒体数据相匹配的参数,每个负例特征向量包含用于表征其对应的预设媒体标签与媒体数据不匹配的参数;
6、基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列;注意力向量序列用于表征查询向量序列与多模态特征向量之间的关联关系;
7、根据注意力向量序列生成分别对应a个正例特征向量中的一个的a个正例分值,以及分别对应a个负例特征向量中的一个的a个负例分值;
8、基于a个正例分值和a个负例分值,在a个预设媒体标签中确定与媒体数据相关联的目标媒体标签;目标媒体标签对应的正例分值大于目标媒体标签对应的负例分值。
9、其中,对a个标签特征向量分别进行正负例构造,得到分别对应a个标签特征向量中的一个的a个正例特征向量,以及分别对应a个标签特征向量中的一个的a个负例特征向量,包括:
10、将a个标签特征向量输入目标标签识别模型;目标标签识别模型包括正负例编码层;
11、获取正负例编码层中的正例通用参数和负例通用参数;正例通用参数是指用于提示正相关语义的模型参数,正相关语义是指用于表征媒体标签与媒体数据相匹配的语义,负例通用参数是指用于提示负相关语义的模型参数,负相关语义是指用于表征媒体标签与媒体数据不匹配的参数;
12、通过正例通用向量和a个标签特征向量生成分别对应a个标签特征向量中的一个的a个正例特征向量,通过负例通用向量和a个标签特征向量生成分别对应a个标签特征向量中的一个的a个负例特征向量。
13、其中,基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列,包括:
14、将a个正例特征向量、a个负例特征向量以及多模态特征向量输入目标标签识别模型;目标标签识别模型包括注意力处理层;
15、基于注意力处理层,通过a个正例特征向量和a个负例特征向量构造交叉注意力函数的查询向量序列,基于多模态特征向量构造交叉注意力函数的键向量序列,且基于多模态特征向量构造交叉注意力函数的值向量序列;
16、基于查询向量序列、键向量序列、值向量序列以及多模态特征向量对应的维度数量,生成初始注意力向量序列,对初始注意力向量序列进行前向传播处理,得到多模态特征向量对应的注意力向量序列。
17、其中,基于a个正例特征向量和a个负例特征向量构造交叉注意力函数的查询向量序列,基于多模态特征向量构造交叉注意力函数的键向量序列,且基于多模态特征向量构造交叉注意力函数的值向量序列,包括:
18、对注意力处理层中的查询参数矩阵与a个正例特征向量和a个负例特征向量进行点乘运算,得到交叉注意力函数的查询向量序列;
19、对注意力处理层中的键参数矩阵与多模态特征向量进行点乘运算,得到交叉注意力函数的键向量序列;
20、对注意力处理层中的值参数矩阵与多模态特征向量进行点乘运算,得到交叉注意力函数的值向量序列;查询参数矩阵、键参数矩阵与值参数矩阵均是由注意力处理层中的可学习参数所构成的矩阵。
21、其中,基于查询向量序列、键向量序列、值向量序列以及多模态特征向量对应的维度数量,生成初始注意力向量序列,包括:
22、对值向量序列进行转置处理,得到第一融合参数,将查询向量序列与第一融合参数的点乘运算结果确定为第二融合参数,基于第二融合参数和多模态特征向量对应的维度数量生成第三融合参数,对第三融合参数进行归一化处理,得到归一化参数,将归一化参数与值向量的点乘运算结果确定为初始注意力向量序列。
23、其中,基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列,包括:
24、将a个正例特征向量、a个负例特征向量以及多模态特征向量输入目标标签识别模型;目标标签识别模型包括注意力处理层,注意力处理层包括b个单位处理空间;b为正整数;
25、通过b个单位处理空间分别将a个正例特征向量和a个负例特征向量构造为查询向量序列,对查询向量序列与多模态特征向量进行注意力计算处理,得到b个单位处理空间分别对应的单位注意力向量;
26、对b个单位注意力向量进行拼接处理,得到多头注意力序列,对多头注意力序列与多头注意力权重矩阵进行点积运算,得到初始注意力向量序列,对初始注意力向量序列进行前向传播处理,得到多模态特征向量对应的注意力向量序列;多头注意力权重矩阵是注意力处理层中的可学习参数。
27、其中,根据注意力向量序列生成分别对应a个正例特征向量中的一个的a个正例分值,以及分别对应a个负例特征向量中的一个的a个负例分值,包括:
28、将注意力向量序列中a个正例特征向量对应的注意力值确定为a个正例参数,将a个正例参数分别与分值模型参数进行点乘运算,得到a个正例特征向量分别对应的正例分值;
29、将注意力向量序列中a个负例特征向量对应的注意力值确定为a个负例参数,将a个负例参数分别与分值模型参数进行点乘运算,得到a个负例特征向量分别对应的负例分值。
30、其中,a个预设媒体标签包括待识别媒体标签,a个正例分值包括待识别媒体标签对应的待识别正例分值,a个负例分值包括待识别媒体标签对应的待识别负例分值;基于a个正例分值和a个负例分值,在a个预设媒体标签中确定与媒体数据相关联的目标媒体标签,包括:
31、若待识别正例分值大于待识别负例分值,则将待识别媒体标签确定为与媒体数据相关联的目标媒体标签;
32、若待识别正例分值小于或等于待识别负例分值,则确定待识别媒体标签与媒体数据不关联。
33、其中,对媒体数据进行多模态特征提取,得到多模态特征向量,包括:
34、获取媒体数据,将媒体数据输入目标标签识别模型;目标标签识别模型包括文本特征编码层、视频帧特征编码层和音频特征编码层;
35、通过文本特征编码层对媒体数据中的文本信息进行特征提取,得到文本特征向量;
36、通过视频帧特征编码层对媒体数据中的视频帧信息进行特征提取,得到视频帧特征向量;
37、通过音频特征编码层对媒体数据中的音频信息进行特征提取得到音频特征向量;
38、基于文本特征向量、视频帧特征向量和音频特征向量生成多模态特征向量。
39、其中,获取a个预设媒体标签,对a个预设媒体标签进行文本特征提取,得到a个预设媒体标签分别对应的标签特征向量,包括:
40、获取a个预设媒体标签,将a个预设媒体标签输入目标标签识别模型;目标标签识别模型包括标签特征编码层;
41、对a个预设媒体标签分别进行文本拆分,得到对应的词元序列;词元序列中的一个词元是指一个预设媒体标签进行拆分处理后所得到的最小基本单元;
42、基于标签特征编码层,对a个词元序列进行映射处理,得到a个词元序列分别对应的文本转换向量,对a个文本转换向量进行特征提取,得到a个预设媒体标签分别对应的标签特征向量。
43、本技术实施例一方面提供了另一种数据处理方法,包括:
44、获取媒体数据样本和媒体数据样本标签,将媒体数据样本输入初始标签识别模型,通过初始标签识别模型的多模态编码层对媒体数据样本进行多模态特征提取,得到多模态样本向量;初始标签识别模型还包括标签特征编码层、正负例编码层和注意力处理层;
45、获取媒体标签集合,基于标签特征编码层对媒体标签集合中的预设媒体标签进行特征提取,得到媒体标签向量;
46、基于正负例编码层对媒体标签向量进行正负例构造,得到媒体标签向量对应的正例标签向量、以及媒体标签向量对应的负例标签向量;正例标签向量包含用于表征其对应的媒体标签与媒体数据样本相匹配的参数,负例标签向量包含用于表征其对应的媒体标签与媒体数据样本不匹配的参数;
47、基于注意力处理层,将正例标签向量和负例标签向量构造为查询向量序列,通过查询向量序列对多模态样本向量进行注意力计算处理,得到注意力样本序列,基于注意力样本序列生成正例标签向量对应的正例标签分值以及负例标签向量对应的负例标签分值;注意力样本序列用于表征查询向量序列与多模态样本向量之间的关联关系;
48、基于正例标签分值和负例标签分值生成媒体标签概率,通过媒体数据样本标签、媒体标签概率生成模型损失值,基于模型损失值对初始标签识别模型的正负例编码层和注意力处理层的模型参数进行调整,直至在初始标签识别模型满足模型收敛条件时,将多模态编码层、标签特征编码层、调整后的正负例编码层和调整后的注意力处理层确定为目标标签识别模型;目标标签识别模型用于识别与媒体数据相关联的预设媒体标签。
49、其中,基于正例标签分值和负例标签分值生成媒体标签概率,包括:
50、获取温度系数,基于正例标签分值与温度系数生成第一概率参数,基于负例标签分值与温度系数生成第二概率参数;温度系数是控制初始标签识别模型的模型收敛速度的超参数;
51、基于第一概率参数和第二概率参数生成媒体标签概率。
52、其中,通过媒体数据样本标签、媒体标签概率生成模型损失值,包括:
53、基于正例标签分值和负例标签分值,确定媒体数据样本对应的预测媒体标签;
54、若预测媒体标签与媒体数据样本标签相同,则将媒体标签概率确定为第一损失参数,基于样本权重系数与第一损失参数生成模型损失值;样本权重系数是基于正例样本的数量所确定的,正例样本是媒体数据样本集合中具有媒体数据样本标签的媒体数据样本;
55、若预测媒体标签与媒体数据样本标签不同,则基于媒体标签概率生成第二损失参数,基于样本权重系数与第二损失参数生成模型损失值。
56、本技术实施例一方面提供了一种数据处理装置,包括:
57、多模态特征提取模块,用于对媒体数据进行多模态特征提取,得到多模态特征向量;
58、标签特征提取模块,用于对a个预设媒体标签进行文本特征提取,得到对应的标签特征向量;
59、目标正负例处理模块,用于对a个标签特征向量分别进行正负例构造,得到分别对应a个标签特征向量中的一个的a个正例特征向量,以及分别对应a个标签特征向量中的一个的a个负例特征向量,a为正整数,每个正例特征向量包含用于表征其对应的预设媒体标签与媒体数据相匹配的参数,每个负例特征向量包含用于表征其对应的预设媒体标签与媒体数据不匹配的参数;
60、目标注意力处理模块,用于基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列;注意力向量序列用于表征查询向量序列与多模态特征向量之间的关联关系;
61、目标分值计算模块,用于根据注意力向量序列生成分别对应a个正例特征向量中的一个的a个正例分值,以及分别对应a个负例特征向量中的一个的a个负例分值;
62、目标标签识别模块,用于基于a个正例分值和a个负例分值,在a个媒体标签中确定与媒体数据相关联的目标媒体标签;目标媒体标签对应的正例分值大于目标媒体标签对应的负例分值。
63、在一种可能的实现方式中,目标正负例处理模块用于对a个标签特征向量分别进行正负例构造,得到分别对应a个标签特征向量中的一个的a个正例特征向量,以及分别对应a个标签特征向量中的一个的a个负例特征向量时,具体用于执行以下操作:
64、将a个标签特征向量输入目标标签识别模型;目标标签识别模型包括正负例编码层;
65、获取正负例编码层中的正例通用参数和负例通用参数;正例通用参数是指用于提示正相关语义的模型参数,正相关语义是指用于表征预设媒体标签与媒体数据相匹配的语义,负例通用参数是指用于提示负相关语义的模型参数,负相关语义是指用于表征预设媒体标签与媒体数据不匹配的语义;
66、通过正例通用向量和a个标签特征向量生成分别对应a个标签特征向量中的一个的a个正例特征向量,通过负例通用向量和a个标签特征向量生成分别对应a个标签特征向量中的一个的a个负例特征向量。
67、在一种可能的实现方式中,目标注意力处理模块用于基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列时,具体用于执行以下操作:
68、将a个正例特征向量、a个负例特征向量以及多模态特征向量输入目标标签识别模型;目标标签识别模型包括注意力处理层;
69、基于注意力处理层,通过a个正例特征向量和a个负例特征向量构造交叉注意力函数的查询向量序列,基于多模态特征向量构造交叉注意力函数的键向量序列,且基于多模态特征向量构造交叉注意力函数的值向量序列;
70、基于查询向量序列、键向量序列、值向量序列以及多模态特征向量对应的维度数量,生成初始注意力向量序列,对初始注意力向量序列进行前向传播处理,得到多模态特征向量对应的注意力向量序列。
71、在一种可能的实现方式中,目标注意力处理模块用于基于a个正例特征向量和a个负例特征向量构造交叉注意力函数的查询向量序列,基于多模态特征向量构造交叉注意力函数的键向量序列,且基于多模态特征向量构造交叉注意力函数的值向量序列时,具体用于执行以下操作:
72、对注意力处理层中的查询参数矩阵与a个正例特征向量和a个负例特征向量进行点乘运算,得到交叉注意力函数的查询向量序列;
73、对注意力处理层中的键参数矩阵与多模态特征向量进行点乘运算,得到交叉注意力函数的键向量序列;
74、对注意力处理层中的值参数矩阵与多模态特征向量进行点乘运算,得到交叉注意力函数的值向量序列;查询参数矩阵、键参数矩阵与值参数矩阵均是由注意力处理层中的可学习参数所构成的矩阵。
75、在一种可能的实现方式中,目标注意力处理模块用于基于查询向量序列、键向量序列、值向量序列以及多模态特征向量对应的维度数量,生成初始注意力向量序列时,具体用于执行以下操作:
76、对值向量序列进行转置处理,得到第一融合参数,将查询向量序列与第一融合参数的点乘运算结果确定为第二融合参数,基于第二融合参数和多模态特征向量对应的维度数量生成第三融合参数,对第三融合参数进行归一化处理,得到归一化参数,将归一化参数与值向量的点乘运算结果确定为初始注意力向量序列。
77、在一种可能的实现方式中,目标注意力处理模块用于基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列时,具体用于执行以下操作:
78、将a个正例特征向量、a个负例特征向量以及多模态特征向量输入目标标签识别模型;目标标签识别模型包括注意力处理层,注意力处理层包括b个单位处理空间;b为正整数;
79、通过b个单位处理空间分别将a个正例特征向量和a个负例特征向量构造为查询向量序列,对查询向量序列与多模态特征向量进行注意力计算处理,得到b个单位处理空间分别对应的单位注意力向量;
80、对b个单位注意力向量进行拼接处理,得到多头注意力序列,对多头注意力序列与多头注意力权重矩阵进行点积运算,得到初始注意力向量序列,对初始注意力向量序列进行前向传播处理,得到多模态特征向量对应的注意力向量序列;多头注意力权重矩阵是注意力处理层中的可学习参数。
81、在一种可能的实现方式中,目标分值计算模块用于根据注意力向量序列生成分别对应a个正例特征向量中的一个的a个正例分值,以及分别对应a个负例特征向量中的一个的a个负例分值时,具体用于执行以下操作:
82、将注意力向量序列中a个正例特征向量对应的注意力值确定为a个正例参数,将a个正例参数分别与分值模型参数进行点乘运算,得到a个正例特征向量分别对应的正例分值;
83、将注意力向量序列中a个负例特征向量对应的注意力值确定为a个负例参数,将a个负例参数分别与分值模型参数进行点乘运算,得到a个负例特征向量分别对应的负例分值。
84、在一种可能的实现方式中,a个预设媒体标签包括待识别媒体标签,a个正例分值包括待识别媒体标签对应的待识别正例分值,a个负例分值包括待识别媒体标签对应的待识别负例分值;目标标签识别模块用于基于a个正例分值和a个负例分值,在a个预设媒体标签中确定与媒体数据相关联的目标媒体标签时,具体用于执行以下操作:
85、若待识别正例分值大于待识别负例分值,则将待识别媒体标签确定为与媒体数据相关联的目标媒体标签;
86、若待识别正例分值小于或等于待识别负例分值,则确定待识别媒体标签与媒体数据不关联。
87、在一种可能的实现方式中,多模态特征提取模块用于对媒体数据进行多模态特征提取,得到多模态特征向量时,具体用于执行以下操作:
88、获取媒体数据,将媒体数据输入目标标签识别模型;目标标签识别模型包括文本特征编码层、视频帧特征编码层和音频特征编码层;
89、通过文本特征编码层对媒体数据中的文本信息进行特征提取,得到文本特征向量;
90、通过视频帧特征编码层对媒体数据中的视频帧信息进行特征提取,得到视频帧特征向量;
91、通过音频特征编码层对媒体数据中的音频信息进行特征提取得到音频特征向量;
92、基于文本特征向量、视频帧特征向量和音频特征向量生成多模态特征向量。
93、在一种可能的实现方式中,标签特征提取模块用于获取a个预设媒体标签,对a个预设媒体标签进行文本特征提取,得到a个预设媒体标签分别对应的标签特征向量时,具体用于执行以下操作:
94、获取a个预设媒体标签,将a个预设媒体标签输入目标标签识别模型;目标标签识别模型包括标签特征编码层;
95、对a个预设媒体标签分别进行文本拆分,得到对应的词元序列;词元序列中的一个词元是指一个预设媒体标签进行拆分处理后所得到的最小基本单元;
96、基于标签特征编码层,对a个词元序列进行映射处理,得到a个词元序列分别对应的文本转换向量,对a个文本转换向量进行特征提取,得到a个预设媒体标签分别对应的标签特征向量。
97、本技术实施例一方面提供了另一种数据处理装置,包括:
98、样本特征提取模块,用于获取媒体数据样本和媒体数据样本标签,将媒体数据样本输入初始标签识别模型,通过初始标签识别模型的多模态编码层对媒体数据样本进行多模态特征提取,得到多模态样本向量;初始标签识别模型还包括标签特征编码层、正负例编码层和注意力处理层;
99、初始标签特征提取模块,用于获取媒体标签集合,基于标签特征编码层对媒体标签集合中的预设媒体标签进行特征提取,得到媒体标签向量;
100、初始正负例处理模块,用于基于正负例编码层对媒体标签向量进行正负例构造,得到媒体标签向量对应的正例标签向量、以及媒体标签向量对应的负例标签向量;正例标签向量包含用于表征其对应的媒体标签与媒体数据样本相匹配的参数,负例标签向量包含用于表征其对应的媒体标签与媒体数据样本不匹配的参数;
101、初始注意力处理模块,用于基于注意力处理层,将正例标签向量和负例标签向量构造为查询向量序列,通过查询向量序列对多模态样本向量进行注意力计算处理,得到注意力样本序列,基于注意力样本序列生成正例标签向量对应的正例标签分值以及负例标签向量对应的负例标签分值;注意力样本序列用于表征查询向量序列与多模态样本向量之间的关联关系;
102、初始标签识别模块,用于基于正例标签分值和负例标签分值生成媒体标签概率,通过媒体数据样本标签、媒体标签概率生成模型损失值,基于模型损失值对初始标签识别模型的正负例编码层和注意力处理层的模型参数进行调整,直至在初始标签识别模型满足模型收敛条件时,将多模态编码层、标签特征编码层、调整后的正负例编码层和调整后的注意力处理层确定为目标标签识别模型;目标标签识别模型用于识别与媒体数据相关联的预设媒体标签。
103、在一种可能的实现方式中,初始标签识别模块用于基于正例标签分值和负例标签分值生成媒体标签概率时,具体用于执行以下操作:
104、获取温度系数,基于正例标签分值与温度系数生成第一概率参数,基于负例标签分值与温度系数生成第二概率参数;温度系数是控制初始标签识别模型的模型收敛速度的超参数;
105、基于第一概率参数和第二概率参数生成媒体标签概率。
106、在一种可能的实现方式中,初始标签识别模块用于通过媒体数据样本标签、媒体标签概率生成模型损失值时,具体用于执行以下操作:
107、基于正例标签分值和负例标签分值,确定媒体数据样本对应的预测媒体标签;
108、若预测媒体标签与媒体数据样本标签相同,则将媒体标签概率确定为第一损失参数,基于样本权重系数与第一损失参数生成模型损失值;样本权重系数是基于正例样本的数量所确定的,正例样本是媒体数据样本集合中具有媒体数据样本标签的媒体数据样本;
109、若预测媒体标签与媒体数据样本标签不同,则基于媒体标签概率生成第二损失参数,基于样本权重系数与第二损失参数生成模型损失值。
110、本技术实施例一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;
111、处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本技术实施例提供的方法。
112、本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本技术实施例提供的方法。
113、本技术实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本技术实施例提供的方法。
114、本技术实施例通过目标标签识别模型对媒体数据进行多模态特征提取,得到多模态特征向量,通过多模态特征向量保留更多的细节特征,对a个预设媒体标签进行文本特征提取,得到a个预设媒体标签分别对应的标签特征向量。对a个标签特征向量进行正负例构造,得到每个标签特征向量分别对应的正例特征向量,以及每个标签特征向量分别对应的负例特征向量。其中,正例特征向量包含用于表征其对应的预设媒体标签与媒体数据相匹配的参数,负例特征向量包含用于表征其对应的预设媒体标签与媒体数据不匹配的参数,正例特征向量与负例特征向量可以有效的引导模型的注意力,使其更加关注预设媒体标签与媒体数据之间的关联特征,也更加关注预设媒体标签与媒体数据之间相匹配的语义特征,以及预设媒体标签与媒体数据之间不匹配的语义特征,提高模型的泛化理解能力。基于a个正例特征向量和a个负例特征向量构造查询向量序列,通过查询向量序列对多模态特征向量进行注意力计算处理,得到注意力向量序列。通过注意力向量序列可以表示a个正例特征向量、a个负例特征向量分别与多模态特征向量之间的关联关系,从而根据注意力向量序列可以生成a个正例特征向量分别对应的正例分值,以及a个负例特征向量分别对应的负例分值,基于a个正例分值和a个负例分值,在a个预设媒体标签中确定与媒体数据相关联的目标媒体标签。通过将正例分值大于负例分值的预设媒体标签确定为媒体数据相关的目标媒体标签,可以无需为每个预设媒体标签的分类结果设置激活阈值(激活阈值是指模型决定将输入数据归类为特定类别的临界值,当模型输入数据对应的输出概率达到了针对该特定类别所预设的激活阈值时,用于将输出概率转换为该特定类别的标签,而本技术实施例通过计算正例分值和负例分值,直接比较正例分值和负例分值,确定目标媒体标签,无需计算输出概率以及设置每个分类的激活阈值),可以减少技术成本,同时因为没有激活阈值的门槛,可以捕捉到未满足激活阈值,但是正负例差异较大的预设媒体标签,从而提高目标标签识别模型的分类精度、提高识别每个预设媒体标签的准确率和召回率。还可以通过所有预设媒体标签构造查询向量序列,可以输出每个预设媒体标签分别对应的正例分值和负例分值,而查询向量序列可以实时灵活构造,因此,有新增标签时,就可以重新构造出新的查询向量序列,得到新增标签对应的正例分值和负例分值,进而可以识别出新增标签与媒体数据的相关程度,因此可以快速支持任意新增标签的识别。
本文地址:https://www.jishuxx.com/zhuanli/20240830/282421.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表