技术新讯 > 计算推算,计数设备的制造及其应用技术 > 训练样本处理方法、装置、设备、存储介质和程序产品与流程 > 正文

训练样本处理方法、装置、设备、存储介质和程序产品与流程

国知局
2024-10-15 09:22:04

本技术涉及计算机，特别是涉及一种训练样本处理方法、装置、计算机设备、存储介质和程序产品，还涉及一种语言模型的训练方法、装置、计算机设备、存储介质和程序产品。

背景技术：

1、随着计算机技术与人工智能技术的发展，情感分析已经成为自然语言处理领域中最活跃的研究方向之一，在信息检索、数据挖掘、文本挖掘等方面得到了广泛研究。方面词抽取任务(aspect term extraction，ate)是方面级情感分析中的一个基础性子任务，给定一个文本，方面词抽取任务可以从该文本中抽取出被用户表达了情感的方面词。

2、然而，目前训练好的方面词抽取模型，无法提取文本中所包含的各个方面词尤其是未在训练集中出现过的新的方面词，导致方面词抽取模型对文本抽取方面词的精确性较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种训练样本处理方法、装置、设备、存储介质和程序产品，能够生成高质量的增强样本，通过增强样本训练得到的方面词抽取模型，可有效提升方面词抽取模型抽取方面词的精确性。

2、第一方面，本技术提供了一种训练样本处理方法，所述方法包括：

3、获取原始样本，每个原始样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

4、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

5、通过预训练语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

6、将所述原始样本的所述文本中的方面词替换为所述预测方面词，得到增强样本；所述增强样本用于训练方面词抽取模型。

7、第二方面，本技术还提供了一种训练样本处理装置。所述装置包括：

8、原始样本获取模块，用于获取原始样本，每个原始样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

9、原始样本掩码模块，用于对所述文本中的方面词进行掩码处理，得到掩码后的文本；

10、原始样本预测模块，用于通过预训练语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

11、增强样本生成模块，用于将所述原始样本的所述文本中的方面词替换为所述预测方面词，得到增强样本；所述增强样本用于训练方面词抽取模型。

12、在其中一个实施例中，位置信息包括文本中每个词是否属于方面词的标记，以及方面词在文本中的起始位置与结束位置分别对应的标记，训练样本处理装置还包括原始样本位置标记模块，用于在掩码后的文本中插入用于定位方面词的位置标签，得到标签化文本；在位置信息中插入位置标签对应的标签标记，得到标签标记化位置信息。

13、原始样本预测模块还用于：通过预训练语言模型，根据标签化文本与标签标记化位置信息对位置信息所指示方面词位置进行方面词预测，得到预测方面词。

14、在其中一个实施例中，原始样本掩码模块还用于：获取预设掩码率，根据文本中方面词的总数量与预设掩码率，确定对文本中的方面词进行掩码处理的方面词的数量；根据确定的数量，从文本中随机采样方面词后进行掩码处理，得到掩码后的文本。

15、在其中一个实施例中，原始样本预测模块还用于：通过预训练语言模型的编码器，根据掩码后的文本、位置信息进行语义编码，得到文本对应的语义表示；

16、通过预训练语言模型的解码器，根据所指示方面词位置的上文以及文本对应的语义表示进行语义解码，得到预测方面词。

17、在其中一个实施例中，原始样本预测模块还用于：通过预训练语言模型，根据掩码后的文本与位置信息预测出位置信息所指示每个方面词位置对应的概率分布，概率分布表征词汇表中每个词是方面词位置的预测方面词的概率；

18、对于每个方面词位置，按概率从词汇表中筛选出k个候选词，从k个候选词中随机抽样一个词，作为方面词位置对应的预测方面词；

19、其中，k为大于1的自然数。

20、在其中一个实施例中，训练样本处理装置还包括去噪模块，去噪模块用于：通过预训练方面词抽取模型对增强样本进行方面词抽取，得到方面词抽取结果，根据方面词抽取结果确定增强样本对应的位置信息；

21、从增强样本中，筛选出确定的位置信息与相应原始样本的文本中方面词对应的位置信息一致的增强样本，根据筛选出的增强样本对方面词抽取模型进行模型训练。

22、在其中一个实施例中，训练样本处理装置还包括方面词抽取模型训练模块，方面词抽取模型训练模块用于：依次通过增强样本与原始样本，对方面词抽取模型进行模型训练，得到训练好的方面词抽取模型。

23、在其中一个实施例中，训练样本处理装置还包括预训练语言模型训练模块，预训练语言模型训练模块用于：获取训练样本，每个训练样本包括文本、文本中的方面词以及方面词在文本中的位置信息；

24、对文本中的方面词进行掩码处理，得到掩码后的文本；

25、通过初始化语言模型，根据掩码后的文本与位置信息对位置信息所指示方面词位置进行方面词预测，得到预测方面词；

26、根据预测方面词与文本中方面词之间的差异，构建样本损失，根据样本损失更新初始化语言模型，得到预训练语言模型。

27、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

28、获取原始样本，每个原始样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

29、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

30、通过预训练语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

31、将所述原始样本的所述文本中的方面词替换为所述预测方面词，得到增强样本；所述增强样本用于训练方面词抽取模型。

32、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

33、获取原始样本，每个原始样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

34、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

35、通过预训练语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

36、将所述原始样本的所述文本中的方面词替换为所述预测方面词，得到增强样本；所述增强样本用于训练方面词抽取模型。

37、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

38、获取原始样本，每个原始样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

39、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

40、通过预训练语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

41、将所述原始样本的所述文本中的方面词替换为所述预测方面词，得到增强样本；所述增强样本用于训练方面词抽取模型。

42、上述训练样本处理方法、装置、计算机设备、存储介质和计算机程序产品，对于每个原始样本，对原始样本的文本中的方面词进行掩码处理，得到掩码后的文本，通过预训练语言模型预测掩码后的文本中被掩码的方面词位置对应的预测方面词，采用预测方面词替换原始样本的文本中的方面词，产生包含新的方面词的增强样本，使用增强样本训练方面词抽取模型，使得方面词抽取模型可以提取新的方面词；并且对方面词进行掩码时，被掩码的数量相较于对方面词的上下文进行掩码时对应的被掩码数量更少，对文本的破坏程度更小，提高预训练语言模型的预测精度，以及提高预训练语言模型产生的增强样本质量，进而提高方面词抽取模型对文本抽取方面词的精确性。

43、第六方面，本技术还提供了一种语言模型的训练方法，所述方法包括：

44、获取训练样本，每个训练样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

45、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

46、通过初始化语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

47、根据所述预测方面词与所述训练样本的文本中方面词之间的差异，构建样本损失，根据所述样本损失更新所述初始化语言模型，得到预训练语言模型；所述预训练语言模型用于对掩码后的文本进行方面词预测。

48、第七方面，本技术还提供了一种语言模型的训练装置。所述装置包括：

49、训练样本获取模块，用于获取训练样本，每个训练样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

50、训练样本掩码模块，用于对所述文本中的方面词进行掩码处理，得到掩码后的文本；

51、训练样本预测模块，用于通过初始化语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

52、模型更新模块，用于根据所述预测方面词与所述训练样本的文本中方面词之间的差异，构建样本损失，根据所述样本损失更新所述初始化语言模型，得到预训练语言模型；所述预训练语言模型用于对掩码后的文本进行方面词预测。

53、在其中一个实施例中，位置信息包括文本中每个词是否属于方面词的标记，以及方面词在文本中的起始位置与结束位置分别对应的标记；训练装置还包括：训练样本位置标记模块，训练样本位置标记模块用于在掩码后的文本中插入用于定位方面词的位置标签，得到标签化文本；在位置信息中插入位置标签对应的标签标记，得到标签标记化位置信息。

54、训练样本预测模块还用于：通过初始化语言模型，根据标签化文本与标签标记化位置信息对位置信息所指示方面词位置进行方面词预测，得到预测方面词。

55、在其中一个实施例中，训练样本掩码模块还用于：获取预设掩码率，根据文本中方面词的总数量与预设掩码率，确定对文本中方面词进行掩码处理的方面词的数量；根据确定的数量，从文本中随机采样方面词后进行掩码处理，得到掩码后的文本。

56、在其中一个实施例中，训练样本预测模块还用于：通过预训练语言模型的编码器，根据掩码后的文本、位置信息进行语义编码，得到文本对应的语义表示；

57、通过预训练语言模型的解码器，根据所指示方面词位置的上文以及文本对应的语义表示进行语义解码，得到预测方面词。

58、在其中一个实施例中，训练样本预测模块还用于：通过初始化语言模型，根据掩码后的文本与位置信息预测出位置信息所指示每个方面词位置对应的概率分布，概率分布表征词汇表中每个词是方面词位置的预测方面词的概率；

59、对于每个方面词位置，按概率从词汇表中确定方面词位置对应的预测方面词。

60、第八方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

61、获取训练样本，每个训练样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

62、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

63、通过初始化语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

64、根据所述预测方面词与所述训练样本的文本中方面词之间的差异，构建样本损失，根据所述样本损失更新所述初始化语言模型，得到预训练语言模型；所述预训练语言模型用于对掩码后的文本进行方面词预测。

65、第九方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

66、获取训练样本，每个训练样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

67、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

68、通过初始化语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

69、根据所述预测方面词与所述训练样本的文本中方面词之间的差异，构建样本损失，根据所述样本损失更新所述初始化语言模型，得到预训练语言模型；所述预训练语言模型用于对掩码后的文本进行方面词预测。

70、第十方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

71、获取训练样本，每个训练样本包括文本、所述文本中的方面词以及所述方面词在所述文本中的位置信息；

72、对所述文本中的方面词进行掩码处理，得到掩码后的文本；

73、通过初始化语言模型，根据所述掩码后的文本与所述位置信息对所述位置信息所指示方面词位置进行方面词预测，得到预测方面词；

74、根据所述预测方面词与所述训练样本的文本中方面词之间的差异，构建样本损失，根据所述样本损失更新所述初始化语言模型，得到预训练语言模型；所述预训练语言模型用于对掩码后的文本进行方面词预测。

75、上述语言模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，对方面词进行掩码时，被掩码的数量相较于对方面词的上下文进行掩码时对应的被掩码数量更少，对文本的破坏程度更小，提高初始化语言模型的预测精度；根据预测方面词与训练样本的文本中方面词之间的差异，构建样本损失，根据样本损失更新初始化语言模型，得到预训练语言模型，从而能够充分挖掘预训练语言模型的潜力来预测新的方面词，而不仅限于训练样本中出现过的方面词，能够提高对掩码后的文本进行方面词预测的准确性。