技术新讯 > 计算推算,计数设备的制造及其应用技术 > 应用于自然语言处理的跨域分类方法、系统、设备及介质 > 正文

应用于自然语言处理的跨域分类方法、系统、设备及介质

国知局
2024-08-22 14:21:49

本发明涉及计算机，具体是涉及应用于自然语言处理的跨域分类方法、系统、设备及介质。

背景技术：

1、文本分类是自然语言处理中的一个重要任务，采用跨域适应可以帮助文本分类模型更好地处理不同领域的文本数据，但是在机器学习算法中通常出现训练数据(即源域数据)和测试数据(即目标域数据)具有不同分布的情况，此时将文本分类模型在源域上进行训练之后直接应用到目标域，容易导致文本分类模型在目标域上的泛化能力较差。

技术实现思路

1、本发明提供应用于自然语言处理的跨域分类方法、系统、设备及介质，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

2、第一方面，提供一种应用于自然语言处理的跨域分类方法，所述方法包括：

3、获取源域数据集和目标域数据集，所述源域数据集包括携带分类标签的多个源文本序列，所述目标域数据集包括未携带分类标签的多个目标文本序列；

4、获取文本分类模型，其包括特征提取器和分类器；

5、基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移，确定最终损失函数；

6、基于所述源域数据集、所述目标域数据集、所述最终损失函数和所述协作学习策略，通过随机梯度下降法对所述文本分类模型进行训练，且在训练完毕时输出每个目标文本序列对应的预测分类标签。

7、进一步地，所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签，再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。

8、进一步地，所述分布偏移包括边缘分布偏移和条件分布偏移；所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移，确定最终损失函数包括：

9、基于所述边缘分布偏移和海灵格度量，确定特征对齐损失函数；

10、基于所述条件分布偏移，确定分类损失函数；

11、基于所述协作学习策略，确定协作学习损失函数；

12、基于所述特征对齐损失函数、所述分类损失函数和所述协作学习损失函数，确定最终损失函数。

13、进一步地，所述特征对齐损失函数的表达式为：

14、

15、其中，为特征对齐损失函数，h(·)为海灵格距离函数，为源域数据集对应的特征向量集的概率分布，为目标域数据集对应的特征向量集的概率分布。

16、进一步地，所述分类损失函数的表达式为：

17、

18、其中，为分类损失函数，ws为调节模型对不同类别关注程度的权重，e为数据集中样本在给定分布下的期望，为源域数据集及其对应的分类标签集的联合概率分布，l(·)为交叉熵损失函数，为利用当次训练后的文本分类模型对源域数据集包含的单个源文本序列进行处理得到的预测分类标签，为单个源文本序列对应的分类标签。

19、进一步地，所述协作学习损失函数的表达式为：

20、

21、其中，为协作学习损失函数，为目标域数据集的概率分布，

22、为利用当次训练后的文本分类模型对目标域数据集包含的单个目标文本序列进行处理得到的预测分类标签，为利用上一次训练后的文本分类模型对单个目标文本序列进行处理得到的预测分类标签。

23、进一步地，所述最终损失函数的表达式为：

24、

25、其中，为最终损失函数，λ1和λ2为权重值。

26、第二方面，提供一种应用于自然语言处理的跨域分类系统，所述系统包括：

27、第一模块，用于获取源域数据集和目标域数据集，所述源域数据集包括携带分类标签的多个源文本序列，所述目标域数据集包括未携带分类标签的多个目标文本序列；

28、第二模块，用于获取文本分类模型，其包括特征提取器和分类器；

29、第三模块，用于基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移，确定最终损失函数；

30、第四模块，用于基于所述源域数据集、所述目标域数据集、所述最终损失函数和所述协作学习策略，通过随机梯度下降法对所述文本分类模型进行训练，且在训练完毕时输出每个目标文本序列对应的预测分类标签。

31、第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器上存储计算机程序，所述处理器执行所述计算机程序以实现如第一方面所述的应用于自然语言处理的跨域分类方法。

32、第四方面，提供一种计算机可读存储介质，其上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的应用于自然语言处理的跨域分类方法。

33、本发明至少具有以下有益效果：通过在模型训练过程中引入海灵格距离来度量不同域特征向量的概率分布之间的相似度，可以减少源域数据集与目标域数据集之间存在的特征分布差异性，从而提高模型的跨域适应能力；通过在模型训练过程中引入协作学习策略对未携带分类标签的目标域数据集进行充分学习，可以提高模型的泛化性能，从而提高模型对目标域数据集的分类精度。

技术特征：

1.一种应用于自然语言处理的跨域分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的应用于自然语言处理的跨域分类方法，其特征在于，所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签，再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。

3.根据权利要求1所述的应用于自然语言处理的跨域分类方法，其特征在于，所述分布偏移包括边缘分布偏移和条件分布偏移；所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移，确定最终损失函数包括：

4.根据权利要求3所述的应用于自然语言处理的跨域分类方法，其特征在于，所述特征对齐损失函数的表达式为：

5.根据权利要求4所述的应用于自然语言处理的跨域分类方法，其特征在于，所述分类损失函数的表达式为：

6.根据权利要求5所述的应用于自然语言处理的跨域分类方法，其特征在于，所述协作学习损失函数的表达式为：

7.根据权利要求6所述的应用于自然语言处理的跨域分类方法，其特征在于，所述最终损失函数的表达式为：

8.一种应用于自然语言处理的跨域分类系统，其特征在于，所述系统包括：

9.一种计算机设备，包括存储器和处理器，所述存储器上存储计算机程序，其特征在于，所述处理器执行所述计算机程序以实现如权利要求1至7任一项所述的应用于自然语言处理的跨域分类方法。

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的应用于自然语言处理的跨域分类方法。

技术总结本发明公开应用于自然语言处理的跨域分类方法、系统、设备及介质，其中所述方法包括：获取源域数据集和目标域数据集，所述源域数据集包括携带分类标签的多个源文本序列，所述目标域数据集包括未携带分类标签的多个目标文本序列；获取文本分类模型，其包括特征提取器和分类器；基于协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移，确定最终损失函数；基于所述源域数据集、所述目标域数据集、所述最终损失函数和所述协作学习策略，通过随机梯度下降法对所述文本分类模型进行训练，且在训练完毕时输出每个目标文本序列对应的预测分类标签。本发明可减少不同数据域之间存在的特征分布差异性，提高模型的跨域适应能力和泛化性能。技术研发人员：佟禹,陈颖,麦旭鹏受保护的技术使用者：汕头大学技术研发日：技术公布日：2024/8/20