一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本数据标注模型的构建方法、装置和计算机设备与流程

2023-10-26 16:01:21 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别是涉及一种文本数据标注模型的构建方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着聊天生成型预训练变换模型(chat generative pre-trained transformer,chatgpt)在全球的流行,人工智能进入了新一轮快速发展的阶段,大模型的训练方法被认为可以揭下通用人工智能(artificial general intelligence,agi)的神秘面纱。然而,在实际应用中,大模型的训练方法往往需要大量的标注数据。如今多标签学习算法已经得到了广泛的应用。多标签学习算法也需要对文本数据进行预处理操作,即对文本数据进行标注。
3.传统的文本数据标注方法主要为人工标注,需要大量的人力和时间。因此,传统的文本数据标注方法效率低下。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高效率的文本数据标注模型的构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种文本数据标注模型的构建方法。所述方法包括:
6.获取文本训练数据的数据特征矩阵、以及所述文本训练数据对应的原始标签矩阵;所述文本训练数据包含有标签的文本训练数据和无标签的文本训练数据;
7.基于所述原始标签矩阵,确定所述文本训练数据的标签的第一相关性矩阵,并基于所述第一相关性矩阵,对所述原始标签矩阵进行标签补全,得到补全标签矩阵;
8.基于所述补全标签矩阵,确定所述文本训练数据的标签的第二相关性矩阵;
9.基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,确定文本数据标注模型;所述文本数据标注模型用于对文本数据进行多标签的数据标注。
10.在其中一个实施例中,所述基于所述补全标签矩阵,确定所述文本训练数据的标签的第二相关性矩阵包括:
11.基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的正相关性矩阵;
12.基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的负相关性矩阵,所述正相关性矩阵和所述负相关性矩阵构成所述第二相关性矩阵。
13.在其中一个实施例中,所述基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,确定文本数据标注模型包括:
14.基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,构建初始模型;
15.基于预设的模型优化策略,对所述初始模型进行优化,得到文本数据标注模型。
16.在其中一个实施例中,所述弱监督学习模型包括投影矩阵,所述基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,构建初始模型包括:
17.基于所述第二相关性矩阵,计算所述第二相关性矩阵对应的拉普拉斯矩阵;
18.基于所述投影矩阵、所述拉普拉斯矩阵和所述数据特征矩阵,构建相关性正则项;
19.基于预设的弱监督学习模型、所述第二相关性矩阵、所述数据特征矩阵和所述相关性正则项,构建初始模型。
20.在其中一个实施例中,所述初始模型包括投影矩阵和标签偏差矩阵,所述基于预设的模型优化策略,对所述初始模型进行优化,得到文本数据标注模型包括:
21.采用梯度下降法,确定所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯度;
22.基于拟牛顿法、所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯度,确定所述投影矩阵和所述标签偏差矩阵,得到文本数据标注模型。
23.在其中一个实施例中,所述获取文本训练数据的数据特征矩阵、以及所述文本训练数据对应的原始标签矩阵包括:
24.将预设的第一比例的初始文本数据,作为文本训练数据,并获取所述文本训练数据的数据特征矩阵;
25.将预设的第二比例的所述文本训练数据,作为所述有标签的文本训练数据,并获取所述有标签的文本训练数据对应的标签;
26.将预设的第三比例的所述有标签的文本训练数据对应的标签,作为缺失标签,并在所述有标签的文本训练数据对应的标签中,去除所述缺失标签,得到处理后的所述有标签的文本训练数据对应的标签;
27.基于所述处理后的所述有标签的文本训练数据对应的标签,确定所述文本训练数据对应的原始标签矩阵。
28.第二方面,本技术还提供了一种文本数据标注方法。所述方法包括:
29.获取待标注文本数据;所述待标注文本数据包含有标签的待标注文本数据和无标签的待标注文本数据;
30.将所述待标注文本数据输入预先构建的文本数据标注模型,得到所述待标注文本数据对应的目标标签;
31.其中,所述文本数据标注模型通过上述第一方面所述的文本数据标注模型的构建方法构建得到。
32.第三方面,本技术还提供了一种文本数据标注模型的构建装置。所述装置包括:
33.第一获取模型,用于获取文本训练数据的数据特征矩阵、以及所述文本训练数据对应的原始标签矩阵;所述文本训练数据包含有标签的文本训练数据和无标签的文本训练数据;
34.补全模块,用于基于所述原始标签矩阵,确定所述文本训练数据的标签的第一相关性矩阵,并基于所述第一相关性矩阵,对所述原始标签矩阵进行标签补全,得到补全标签矩阵;
35.第一确定模块,用于基于所述补全标签矩阵,确定所述文本训练数据的标签的第二相关性矩阵;
36.第二确定模块,用于基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,确定文本数据标注模型;所述文本数据标注模型用于对文本数据进行多标签的数据标注。
37.在其中一个实施例中,所述第一确定模块,具体用于:
38.基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的正相关性矩阵;
39.基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的负相关性矩阵,所述正相关性矩阵和所述负相关性矩阵构成所述第二相关性矩阵。
40.在其中一个实施例中,所述第二确定模块,具体用于:
41.基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,构建初始模型;
42.基于预设的模型优化策略,对所述初始模型进行优化,得到文本数据标注模型。
43.在其中一个实施例中,所述弱监督学习模型包括投影矩阵,所述第二确定模块,具体用于:
44.基于所述第二相关性矩阵,计算所述第二相关性矩阵对应的拉普拉斯矩阵;
45.基于所述投影矩阵、所述拉普拉斯矩阵和所述数据特征矩阵,构建相关性正则项;
46.基于预设的弱监督学习模型、所述第二相关性矩阵、所述数据特征矩阵和所述相关性正则项,构建初始模型。
47.在其中一个实施例中,所述初始模型包括投影矩阵和标签偏差矩阵,所述第二确定模块,具体用于:
48.采用梯度下降法,确定所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯度;
49.基于拟牛顿法、所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯度,确定所述投影矩阵和所述标签偏差矩阵,得到文本数据标注模型。
50.在其中一个实施例中,所述第一获取模型,具体用于:
51.将预设的第一比例的初始文本数据,作为文本训练数据,并获取所述文本训练数据的数据特征矩阵;
52.将预设的第二比例的所述文本训练数据,作为所述有标签的文本训练数据,并获取所述有标签的文本训练数据对应的标签;
53.将预设的第三比例的所述有标签的文本训练数据对应的标签,作为缺失标签,并在所述有标签的文本训练数据对应的标签中,去除所述缺失标签,得到处理后的所述有标签的文本训练数据对应的标签;
54.基于所述处理后的所述有标签的文本训练数据对应的标签,确定所述文本训练数据对应的原始标签矩阵。
55.第四方面,本技术还提供了一种文本数据标注装置。所述装置包括:
56.第二获取模块,用于获取待标注文本数据;所述待标注文本数据包含有标签的待标注文本数据和无标签的待标注文本数据;
57.标注模块,用于将所述待标注文本数据输入预先构建的文本数据标注模型,得到所述待标注文本数据对应的目标标签;
58.其中,所述文本数据标注模型通过上述第一方面所述的文本数据标注模型的构建方法构建得到。
59.第五方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或上述第二方面所述的步骤。
60.第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或上述第二方面所述的步骤。
61.第七方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面或上述第二方面所述的步骤。
62.上述文本数据标注模型的构建方法、装置、计算机设备、存储介质和计算机程序产品,获取文本训练数据的数据特征矩阵、以及所述文本训练数据对应的原始标签矩阵;所述文本训练数据包含有标签的文本训练数据和无标签的文本训练数据;基于所述原始标签矩阵,确定所述文本训练数据的标签的第一相关性矩阵,并基于所述第一相关性矩阵,对所述原始标签矩阵进行标签补全,得到补全标签矩阵;基于所述补全标签矩阵,确定所述文本训练数据的标签的第二相关性矩阵;基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,确定文本数据标注模型;所述文本数据标注模型用于对文本数据进行多标签的数据标注。这样,通过包含有标签的文本训练数据和无标签的文本训练数据的文本训练数据和上述文本数据标注模型的构建策略,构建文本数据标注模型,采用该文本数据标注模型能够自动实现文本数据的标注,不再完全依赖人力,能够减少文本数据标注时间,提高文本数据标注效率。
附图说明
63.图1为一个实施例中文本数据标注模型的构建方法的流程示意图;
64.图2为一个实施例中确定文本训练数据的标签的第二相关性矩阵的流程示意图;
65.图3为一个实施例中基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,确定文本数据标注模型步骤的流程示意图;
66.图4为一个实施例中构建初始模型步骤的流程示意图;
67.图5为一个实施例中对初始模型进行优化步骤的流程示意图;
68.图6为一个实施例中获取文本训练数据的数据特征矩阵、以及文本训练数据对应的原始标签矩阵步骤的流程示意图;
69.图7为一个实施例中文本数据标注方法的流程示意图;
70.图8为一个实施例中文本数据标注模型的构建装置的结构框图;
71.图9为一个实施例中文本数据标注装置的结构框图;
72.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
73.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不
用于限定本技术。
74.在一个实施例中,如图1所示,提供了一种文本数据标注模型的构建方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
75.步骤101,获取文本训练数据的数据特征矩阵、以及文本训练数据对应的原始标签矩阵。
76.其中,文本训练数据包含有标签的文本训练数据和无标签的文本训练数据。
77.在本技术实施例中,终端获取文本训练数据。然后,终端提取文本训练数据的数据特征。然后,终端基于文本训练数据的数据特征,确定数据特征矩阵。然后,终端基于预设的原始标签标注策略,在文本训练数据中,选取一部分文本训练数据作为有标签的文本训练数据。然后,终端将其余的文本训练数据作为无标签的文本训练数据。然后,终端获取有标签的文本训练数据对应的标签。然后,终端基于有标签的文本训练数据对应的标签,确定原始标签矩阵。
78.其中,文本训练数据为用于训练或构建文本数据标注模型的文本数据。文本数据标注模型用于对文本数据进行标注或打标签,用于基于部分有标签的文本数据,对全部的文本数据进行数据标注。文本数据可以为在金融业涉及文本相关数据,例如,银行客户信息相关的文本数据。文本训练数据对应的标签可以为多个标签。原始标签矩阵中有标签的文本训练数据对应的标签可以为有标签的文本训练数据对应的全部标签,也可以为有标签的文本训练数据对应的全部标签中的部分标签,即标签不全。
79.在一个示例中,终端采用特征提取算法,提取文本训练数据的数据特征。可以理解的是,特征提取算法可以为任意能够提取文本数据的数据特征的算法,本技术不作限定。
80.在一个示例中,终端基于预设的原始标签标注策略,在文本训练数据中,随机选取一部分文本训练数据作为有标签的文本训练数据。
81.在一个示例中,终端可以基于有标签的文本训练数据的数据特征,确定有标签的文本训练数据对应的标签。
82.步骤102,基于原始标签矩阵,确定文本训练数据的标签的第一相关性矩阵,并基于第一相关性矩阵,对原始标签矩阵进行标签补全,得到补全标签矩阵。
83.在本技术实施例中,终端基于原始标签矩阵和余弦相似性,计算文本训练数据的标签的第一相关性矩阵。然后,终端基于第一相关性矩阵,对原始标签矩阵进行标签补全,得到补全标签矩阵。其中,第一相关性矩阵用于表示文本训练数据的标签之间的相关性。
84.在一个示例中,终端基于第一相关性矩阵,对原始标签矩阵中无标签的文本训练数据进行标签补全,即确定无标签的文本训练数据对应的标签,得到补全标签矩阵。
85.在一个示例中,终端基于第一相关性矩阵,对原始标签矩阵中无标签的文本训练数据进行标签补全,并对原始标签矩阵中有标签的文本训练数据进行标签补全,即确定有标签的文本训练数据对应的全部标签,得到补全标签矩阵。
86.在一个实施例中,假设数据特征矩阵x=[x1;x2;

;xn],其中x为n*d维的数据,n代表实例的个数,实例为文本训练数据或样本,d代表特征的个数;原始标签矩阵y={y1,

,yc},其中,y为n*c维的数据,c表示标签的数量。y
ij
={1,0}c,其中,i为第i个实例,j为第j个标签,如果实例中包含标签yj,则yj=1,否则yj=0。终端基于原始标签矩阵,确定文本训练数据的标签的第一相关性矩阵可以表示为:
[0087][0088]
其中,c1,c2是两个标签,是用标签c1注释的标记实例,是用标签c2注释的标记实例,是用标签c1注释的标记实例的数量,是用标签c1和标签c2同时注释的标记实例的数量,表示一个实例中同时包含标签c1和标签c2的数,s为平滑系数,主要为了解决标签不平衡问题。然后,终端基于第一相关性矩阵l来进行缺失标签的恢复,对原始标签矩阵进行标签补全,得到补全标签矩阵,可以表示为:
[0089][0090]
其中,且k∈{1,2,...,c}。我们还将表示为用一些缺失标签部分标记的前l个实例的索引集。为了确保y
ik
∈[0,1],y
ik
被归一化为其中y
ik
=0。直观地说,如果y
ik
被赋予一个大的值,那么标签k与这些已经被注释到第i个实例的标签具有很强的相关性,这意味着k很可能是一个缺失的标签。因此,我们使用作为归一化因子,并假设对应于大于1的最大y
ik
的标签一定是缺失标签。
[0091]
步骤103,基于补全标签矩阵,确定文本训练数据的标签的第二相关性矩阵。
[0092]
在本技术实施例中,终端基于补全标签矩阵和最大后验概率,计算文本训练数据的标签的第二相关性矩阵。其中,第二相关性矩阵用于表示文本训练数据的标签之间的相关性。确定第二相关性矩阵和确定第一相关性矩阵的算法不同。
[0093]
步骤104,基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,确定文本数据标注模型。
[0094]
其中,文本数据标注模型用于对文本数据进行多标签的数据标注。
[0095]
在本技术实施例中,弱监督学习模型为弱监督学习范式的模型,可以包含弱监督学习下的流形假设,可以为线性模型。
[0096]
上述文本数据标注模型的构建方法中,获取文本训练数据的数据特征矩阵、以及文本训练数据对应的原始标签矩阵;文本训练数据包含有标签的文本训练数据和无标签的文本训练数据;基于原始标签矩阵,确定文本训练数据的标签的第一相关性矩阵,并基于第一相关性矩阵,对原始标签矩阵进行标签补全,得到补全标签矩阵;基于补全标签矩阵,确定文本训练数据的标签的第二相关性矩阵;基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,确定文本数据标注模型。这样,通过包含有标签的文本训练数据和无标签的文本训练数据的文本训练数据和上述文本数据标注模型的构建策略,构建文本数据标注
模型,采用该文本数据标注模型能够自动实现文本数据的标注,不再完全依赖人力,能够减少文本数据标注时间,提高文本数据标注效率。并且,传统的多标签学习算法往往采用监督学习的范式,因此也需要对数据进行预处理操作,监督学习模型由于基于特定类型的数据集进行训练,在现实场景中,往往存在着分类不够准确的问题,同时训练前对数据进行标注仍需要消耗部分人力成本;本方法基于包含有标签的文本训练数据和无标签的文本训练数据的文本训练数据,确定文本数据标注模型,该模型能够基于部分有标签的文本数据,进行全部文本数据的多个标签的数据标注,实现弱监督多标签学习算法,可以有效的减少训练过程中消耗的人力成本,并有效的提升实际场景下的文本数据标注的准确性。
[0097]
在一个实施例中,如图2所示,基于补全标签矩阵,确定文本训练数据的标签的第二相关性矩阵的具体过程包括以下步骤:
[0098]
步骤201,基于补全标签矩阵和最大后验概率,确定文本训练数据的标签的正相关性矩阵。
[0099]
在本技术实施例中,终端基于补全标签矩阵和最大后验概率,计算补全标签矩阵包含的标签间的正相关性概率系数,得到文本训练数据的标签的正相关性矩阵。其中,正相关性矩阵用于表示文本训练数据的标签之间的正相关性。正相关性是指一个变量增长,另一个变量也跟着增长,即两个变量变动方向相同,一个变量由大到小或由小到大变化时,另一个变量亦由大到小或由小到大变化。例如,在一副图像中,海洋和轮船大概率同时出现。
[0100]
步骤202,基于补全标签矩阵和最大后验概率,确定文本训练数据的标签的负相关性矩阵。
[0101]
其中,正相关性矩阵和负相关性矩阵构成第二相关性矩阵。
[0102]
在本技术实施例中,终端基于补全标签矩阵和最大后验概率,计算补全标签矩阵包含的标签间的负相关性概率系数,得到文本训练数据的标签的负相关性矩阵。其中,负相关性矩阵用于表示文本训练数据的标签之间的负相关性。在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大),在这种情况下,因变量和自变量的相关系数为负值,即负相关,也称不相关。例如,在一副图像中,火车与海洋大概率不同时出现。
[0103]
在一个实施例中,终端基于补全标签矩阵,确定文本训练数据的标签的第二相关性矩阵,可以表示为:
[0104]zij
=arg max p(yj=1|y
l
=1,n(xi))
[0105][0106]nij
=arg max p(yj=1|y
l
=0,n(xi))
[0107][0108]
其中,z
ij
为正相关性矩阵,z
ij
中的n(xi)是在实例xi中,y
l
是1的情况下yj也是1的概率,n
ij
中的n(xi)为负相关性矩阵,表示在实例xi中,y
l
是0的情况下yj是1的概率;xi=[x
i1
,x
i2
,

,x
in
]表示第i个实例的特征向量,yi=[y
i1
,y
i2
,

,y
ic
]表示第i个实例中可能存在的标签集合,n表示实例的个数,c表示标签的数量,y
ij
={1,0}c表示如果实例中包含标签yi,则yi=1;如果实例中不包含标签yi,则yi=0。
[0109]
上述文本数据标注模型的构建方法中,基于补全标签矩阵和最大后验概率,确定文本训练数据的标签的正相关性矩阵;基于补全标签矩阵和最大后验概率,确定文本训练
数据的标签的负相关性矩阵。这样,本方法不仅确定文本训练数据的标签的正相关性矩阵,还确定文本训练数据的标签的负相关性矩阵,相较于目前大多数多标签学习算法都使用了标签相关性的概念,即考虑了关联标签来对标签进行预测,本方法还考虑了现实世界中还存在着的大量的负相关性,能够有效的利用正负相关性对标签进行分类,更加符合实际情况,能够提高多标签的文本数据标注的准确性。其中,标签相关性是指两个标签同时出现的概率,假设a与b强相关,那么一个场景下已知有a出现,那么b也大概率会出现,此时即可打上预测标签b。
[0110]
在一个实施例中,如图3所示,基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,确定文本数据标注模型的具体过程包括以下步骤:
[0111]
步骤301,基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,构建初始模型。
[0112]
在本技术实施例中,初始模型为线性模型,可以表示为:f(x)=xp b,是投影矩阵,也称预测矩阵,是标签偏差矩阵,是x关于c个不同标签的预测似然向量,即文本数据对应的多个标签的预测值。
[0113]
步骤302,基于预设的模型优化策略,对初始模型进行优化,得到文本数据标注模型。
[0114]
在本技术实施例中,终端基于预设的模型优化策略,对初始模型进行优化,求解投影矩阵和标签偏差矩阵,得到文本数据标注模型。
[0115]
上述文本数据标注模型的构建方法中,基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,构建初始模型;基于预设的模型优化策略,对初始模型进行优化,得到文本数据标注模型。这样,基于弱监督学习模型构建并优化文本数据标注模型,能够有效的提升实际场景下的文本数据标注的准确性。
[0116]
在一个实施例中,如图4所示,弱监督学习模型包括投影矩阵,基于预设的弱监督学习模型、第二相关性矩阵和数据特征矩阵,构建初始模型的具体过程包括以下步骤:
[0117]
步骤401,基于第二相关性矩阵,计算第二相关性矩阵对应的拉普拉斯矩阵。
[0118]
在本技术实施例中,终端基于第二相关性矩阵,计算第二相关性矩阵对应的邻接矩阵。然后,终端基于第二相关性矩阵和第二相关性矩阵对应的邻接矩阵,计算第二相关性矩阵对应的拉普拉斯矩阵。
[0119]
在一个示例中,终端基于正相关性矩阵,计算正相关性矩阵对应的拉普拉斯矩阵。然后,终端基于负相关性矩阵,计算负相关性矩阵对应的拉普拉斯矩阵。
[0120]
步骤402,基于投影矩阵、拉普拉斯矩阵和数据特征矩阵,构建相关性正则项。
[0121]
在本技术实施例中,终端基于投影矩阵、正相关性矩阵对应的拉普拉斯矩阵和数据特征矩阵,构建正相关性正则项。然后,终端基于投影矩阵、负相关性矩阵对应的拉普拉斯矩阵和数据特征矩阵,构建负相关性正则项。其中,正相关性正则项和负相关性正则项构成相关性正则项。
[0122]
步骤403,基于预设的弱监督学习模型、第二相关性矩阵、数据特征矩阵和相关性正则项,构建初始模型。
[0123]
在一个实施例中,终端构建的初始模型可以表示为:
[0124][0125]
其中,p为投影矩阵,b为标签偏差矩阵,x为数据特征矩阵,α、β、γ均初始模型的平衡因子,w
ij
表示实例xi和实例xj之间的权重,xi∈knn(xj)表示xi是xj的最相邻的邻居中的第k个,并且xi和xj之间的相似性通过欧几里德距离来测量,tr为矩阵的迹,lz为正相关性矩阵对应的拉普拉斯矩阵,ln为负相关性矩阵对应的拉普拉斯矩阵,为正相关性正则项,为负相关性正则项。
[0126]
上述文本数据标注模型的构建方法中,基于第二相关性矩阵,计算第二相关性矩阵对应的拉普拉斯矩阵;基于投影矩阵、拉普拉斯矩阵和数据特征矩阵,构建相关性正则项;基于预设的弱监督学习模型、第二相关性矩阵、数据特征矩阵和相关性正则项,构建初始模型。这样,本方法分两阶段利用标签相关性,第一阶段根据余弦相似性构建,第二阶段利用最大后验概率方法学习正负相关性矩阵,本算法考虑了缺失标签存在的情况下基于余弦相似性得到的相关性矩阵在补全标签阶段对模型分类影响相对较小,而模型中引导的相关性矩阵计算的准确性直接影响了分类性能,所以采用学习的方式得到一个更准确的正负相关性矩阵引导模型中的正则项,有效的解决了目前弱监督多标签学习领域中存在的部分技术问题,提升了多标签学习分类的准确性,即提高多标签的文本数据标注的准确性。
[0127]
在一个实施例中,如图5所示,初始模型包括投影矩阵和标签偏差矩阵,基于预设的模型优化策略,对初始模型进行优化,得到文本数据标注模型的具体过程包括以下步骤:
[0128]
步骤501,采用梯度下降法,确定投影矩阵的一阶梯度和标签偏差矩阵的一阶梯度。
[0129]
步骤502,基于拟牛顿法(l-bfgs)、投影矩阵的一阶梯度和标签偏差矩阵的一阶梯度,确定投影矩阵和标签偏差矩阵,得到文本数据标注模型。
[0130]
在一个实施例中,终端基于预设的模型优化策略,对初始模型进行优化,得到文本数据标注模型,可以表示为:
[0131][0132][0133]
令其中h和θ为对角矩阵,可求得:
[0134][0135]
其中,为标签偏差矩阵的一阶梯度,为投影矩阵的一阶梯度,m为w
ij
的图拉普拉斯矩阵。然后,终端通过以上等式的替换,求解投影矩阵和标签偏差矩阵,得到文本数
据标注模型。
[0136]
上述文本数据标注模型的构建方法中,采用梯度下降法,确定投影矩阵的一阶梯度和标签偏差矩阵的一阶梯度;基于拟牛顿法、投影矩阵的一阶梯度和标签偏差矩阵的一阶梯度,确定投影矩阵和标签偏差矩阵,得到文本数据标注模型。这样,先采用梯度下降法,确定投影矩阵的一阶梯度和标签偏差矩阵的一阶梯度,再采用拟牛顿法,实现对初始模型的优化,能够解决正、负相关性正则项无法直接进行梯度优化的问题,保证文本数据标注模型的准确性,提高多标签的文本数据标注的准确性。
[0137]
在一个实施例中,如图6所示,获取文本训练数据的数据特征矩阵、以及文本训练数据对应的原始标签矩阵的具体过程包括以下步骤:
[0138]
步骤601,将预设的第一比例的初始文本数据,作为文本训练数据,并获取文本训练数据的数据特征矩阵。
[0139]
在本技术实施例中,终端将预设的第一比例的初始文本数据,作为文本训练数据,并将其余的初始文本数据,作为文本验证数据。然后,终端获取文本训练数据的数据特征矩阵。其中,初始文本数据包括文本训练数据和文本验证数据。文本验证数据用于验证训练或构建文本数据标注模型的文本数据是否合格。例如,第一比例可以为70%,即文本训练数据和文本验证数据的比为7:3。
[0140]
步骤602,将预设的第二比例的文本训练数据,作为有标签的文本训练数据,并获取有标签的文本训练数据对应的标签。
[0141]
在本技术实施例中,例如,第二比例可以为30%,即有标签的文本训练数据和无标签的文本训练数据的比为3:7。
[0142]
步骤603,将预设的第三比例的有标签的文本训练数据对应的标签,作为缺失标签,并在有标签的文本训练数据对应的标签中,去除缺失标签,得到处理后的有标签的文本训练数据对应的标签。
[0143]
在本技术实施例中,例如,第三比例可以为5%。缺失标签的数量占有标签的文本训练数据对应的标签的总数的第三比例。缺失标签为去除或抹去的文本训练数据对应的标签。处理后的有标签的文本训练数据对应的标签并非处理后的有标签的文本训练数据对应的全部标签。
[0144]
步骤604,基于处理后的有标签的文本训练数据对应的标签,确定文本训练数据对应的原始标签矩阵。
[0145]
上述文本数据标注模型的构建方法中,将预设的第一比例的初始文本数据,作为文本训练数据,并获取文本训练数据的数据特征矩阵;将预设的第二比例的文本训练数据,作为有标签的文本训练数据,并获取有标签的文本训练数据对应的标签;将预设的第三比例的有标签的文本训练数据对应的标签,作为缺失标签,并在有标签的文本训练数据对应的标签中,去除缺失标签,得到处理后的有标签的文本训练数据对应的标签;基于处理后的有标签的文本训练数据对应的标签,确定文本训练数据对应的原始标签矩阵。这样,用于训练或构建文本数据标注模型的文本训练数据包含有标签的文本训练数据,且该有标签的文本训练数据已标注的标签并非该有标签的文本训练数据对应的全部标签,仅为随机去除缺失标签后的剩余标签,即存在标签漏打的情况,使得构建得到的文本数据标注模型能够在有标签的文本数据存在漏打标签的情况下,减少漏打标签对文本数据标注的准确性的影
响,即提高在实际情况下,文本数据标注的准确性。
[0146]
在一个实施例中,在文本分类的场景中进行应用本方法,可以针对一段中文文本,根据其内容打上一个或者多个标签,比如在建立的文本数据集中,有一段文本“我喜欢的歌手是a,因为他的b很好听”,可以给这段文本打上“音乐”类的标签。一般根据数据集训练的参数来调整模型的效果,针对不同的分类场景,模型的分类参数是不同的。具体而言,在电影题材数据集的分类任务中,假设数据集中有100个实例,包含“恐怖”“惊悚”“家庭”“剧情”“爱情”“战争”“动作”“科幻”“喜剧”“记录”10个标签,通常来讲一部电影存在多个标签,使用本方法可以使用较少的训练数据进行训练,得到一个相对准确的分类结果。将100个实例输入模型后,得到打上的标签,例如,将未标记的实例电影c输入模型,会输出标记数据“科幻”、“动作”、“剧情”标签。相对其他算法而言,本方法能够提供相对更准确的分类性能,在百分之五十标签率下都有了一个性能上的提升。
[0147]
在一个实施例中,如图7所示,提供了一种文本数据标注方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
[0148]
步骤701,获取待标注文本数据。
[0149]
其中,待标注文本数据包含有标签的待标注文本数据和无标签的待标注文本数据。
[0150]
在本技术实施例中,待标注文本数据为待进行文本数据标注或打标签的文本数据。待标注文本数据对应的标签为多个。有标签的待标注文本数据为有已标注标签的待标注文本数据。无标签的待标注文本数据为没有已标注标签的待标注文本数据。有标签的待标注文本数据的已标注标签的数量可以少于或等于有标签的待标注文本数据对应的标签的总数,即有标签的待标注文本数据的已标注标签可以为有标签的待标注文本数据对应的全部标签,也可以为有标签的待标注文本数据对应的全部标签中部分标签。
[0151]
步骤702,将待标注文本数据输入预先构建的文本数据标注模型,得到待标注文本数据对应的目标标签。
[0152]
其中,文本数据标注模型通过上述文本数据标注模型的构建方法中任一种的文本数据标注模型的构建方法构建得到。
[0153]
上述文本数据标注模型的构建方法中,获取待标注文本数据;待标注文本数据包含有标签的待标注文本数据和无标签的待标注文本数据;将待标注文本数据输入预先构建的文本数据标注模型,得到待标注文本数据对应的目标标签。这样,通过构建文本数据标注模型,采用该文本数据标注模型能够自动实现文本数据的标注,不再完全依赖人力,能够减少文本数据标注时间,提高文本数据标注效率。
[0154]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而
且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0155]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的文本数据标注模型的构建方法的文本数据标注模型的构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本数据标注模型的构建装置实施例中的具体限定可以参见上文中对于文本数据标注模型的构建方法的限定,在此不再赘述。
[0156]
在一个实施例中,如图8所示,提供了一种文本数据标注模型的构建装置800,包括:第一获取模型810、补全模块820、第一确定模块830和第二确定模块840,其中:
[0157]
第一获取模型810,用于获取文本训练数据的数据特征矩阵、以及所述文本训练数据对应的原始标签矩阵;所述文本训练数据包含有标签的文本训练数据和无标签的文本训练数据;
[0158]
补全模块820,用于基于所述原始标签矩阵,确定所述文本训练数据的标签的第一相关性矩阵,并基于所述第一相关性矩阵,对所述原始标签矩阵进行标签补全,得到补全标签矩阵;
[0159]
第一确定模块830,用于基于所述补全标签矩阵,确定所述文本训练数据的标签的第二相关性矩阵;
[0160]
第二确定模块840,用于基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,确定文本数据标注模型;所述文本数据标注模型用于对文本数据进行多标签的数据标注。
[0161]
可选的,所述第一确定模块830,具体用于:
[0162]
基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的正相关性矩阵;
[0163]
基于所述补全标签矩阵和最大后验概率,确定所述文本训练数据的标签的负相关性矩阵,所述正相关性矩阵和所述负相关性矩阵构成所述第二相关性矩阵。
[0164]
可选的,所述第二确定模块840,具体用于:
[0165]
基于预设的弱监督学习模型、所述第二相关性矩阵和所述数据特征矩阵,构建初始模型;
[0166]
基于预设的模型优化策略,对所述初始模型进行优化,得到文本数据标注模型。
[0167]
可选的,所述弱监督学习模型包括投影矩阵,所述第二确定模块840,具体用于:
[0168]
基于所述第二相关性矩阵,计算所述第二相关性矩阵对应的拉普拉斯矩阵;
[0169]
基于所述投影矩阵、所述拉普拉斯矩阵和所述数据特征矩阵,构建相关性正则项;
[0170]
基于预设的弱监督学习模型、所述第二相关性矩阵、所述数据特征矩阵和所述相关性正则项,构建初始模型。
[0171]
可选的,所述初始模型包括投影矩阵和标签偏差矩阵,所述第二确定模块840,具体用于:
[0172]
采用梯度下降法,确定所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯
度;
[0173]
基于拟牛顿法、所述投影矩阵的一阶梯度和所述标签偏差矩阵的一阶梯度,确定所述投影矩阵和所述标签偏差矩阵,得到文本数据标注模型。
[0174]
可选的,所述第一获取模型810,具体用于:
[0175]
将预设的第一比例的初始文本数据,作为文本训练数据,并获取所述文本训练数据的数据特征矩阵;
[0176]
将预设的第二比例的所述文本训练数据,作为所述有标签的文本训练数据,并获取所述有标签的文本训练数据对应的标签;
[0177]
将预设的第三比例的所述有标签的文本训练数据对应的标签,作为缺失标签,并在所述有标签的文本训练数据对应的标签中,去除所述缺失标签,得到处理后的所述有标签的文本训练数据对应的标签;
[0178]
基于所述处理后的所述有标签的文本训练数据对应的标签,确定所述文本训练数据对应的原始标签矩阵。
[0179]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的文本数据标注方法的文本数据标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本数据标注装置实施例中的具体限定可以参见上文中对于文本数据标注方法的限定,在此不再赘述。
[0180]
在一个实施例中,如图9所示,提供了一种文本数据标注装置900,包括:第二获取模块910和标注模块920,其中:
[0181]
第二获取模块910,用于获取待标注文本数据;所述待标注文本数据包含有标签的待标注文本数据和无标签的待标注文本数据;
[0182]
标注模块920,用于将所述待标注文本数据输入预先构建的文本数据标注模型,得到所述待标注文本数据对应的目标标签;
[0183]
其中,所述文本数据标注模型通过上述文本数据标注模型的构建方法中任一种所述的文本数据标注模型的构建方法构建得到。
[0184]
上述文本数据标注模型的构建装置和文本数据标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0185]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本数据标注模型的构建或文本数据标注方法。该计算机设备的显示
单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0186]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0187]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0188]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0189]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0190]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0191]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0192]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0193]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表