技术新讯 > 计算推算,计数设备的制造及其应用技术 > 文本增强、模型训练方法、装置、电子设备及存储介质与流程 > 正文

文本增强、模型训练方法、装置、电子设备及存储介质与流程

国知局
2024-07-31 22:56:55

本发明涉及自然语言处理，尤其涉及一种文本增强、模型训练方法、装置、电子设备及存储介质。

背景技术：

1、自然语言处理模型已经广泛应用于情感分析、问答系统、自动摘要、机器翻译、语音识别、聊天机器人、市场预测、文本分类、拼写检查等领域。训练数据集的质量对自然语言处理模型的准确率、召回率、和鲁棒性具有一定的影响。

2、相关技术中，由于模型应用领域的差异性，很难将开源的数据集直接应用于特定业务领域，比如在车辆方面相关的业务领域。因此，需要提供一种文本增强的方法，以满足特定业务领域的训练文本数据需求。

技术实现思路

1、本说明书实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本说明书实施方式提出一种文本增强、模型训练方法、装置、电子设备及存储介质。

2、本说明书实施方式提供一种文本增强方法，所述方法包括：

3、获取原始文本，以及与所述原始文本相似的多个初始增强文本；

4、基于所述初始增强文本与所述原始文本进行泛化处理，得到多个中间增强文本；

5、根据所述中间增强文本与所述原始文本之间的第一相似度对所述多个中间增强文本进行过滤，得到与所述原始文本相似的多个第一过滤后文本；

6、基于所述多个第一过滤后文本确定所述原始文本的目标增强文本。

7、在其中一个实施方式，所述基于所述初始增强文本与所述原始文本进行泛化处理，得到多个中间增强文本，包括：

8、根据所述初始增强文本与所述原始文本之间的第二相似度对所述多个初始增强文本进行过滤，得到与所述原始文本相似的多个第二过滤后文本；

9、对所述第二过滤后文本进行泛化处理，得到与所述第二过滤后文本相似的所述多个中间增强文本。

10、在其中一个实施方式，所述根据所述初始增强文本与所述原始文本之间的第二相似度对所述多个初始增强文本进行过滤，得到与所述原始文本相似的多个第二过滤后文本，包括：

11、将所述第二相似度与第一相似度阈值进行比较；

12、保留与大于所述第一相似度阈值的第二相似度对应的初始增强文本，作为所述第二过滤后文本。

13、在其中一个实施方式，所述原始文本和所述初始增强文本分别采用第一语言；所述初始增强文本的生成方式，包括：

14、以第二语言为目标语言，对所述原始文本进行语言转换得到采用所述第二语言的第一中间文本；其中，所述第一语言与所述第二语言不同；

15、基于所述第一中间文本进行语言转换得到所述初始增强文本。

16、在其中一个实施方式，所述基于所述第一中间文本进行语言转换得到所述初始增强文本，包括：

17、以第三语言为目标语言，对所述第一中间文本进行语言转换得到采用所述第三语言的第二中间文本；其中，所述第二语言与所述第三语言不同；

18、以所述第一语言为目标语言，对所述第二中间文本进行语言转换得到所述初始增强文本。

19、在其中一个实施方式，所述初始增强文本的生成方式，包括：

20、对所述原始文本进行分词处理，得到所述原始文本中包括的多个关键词语；

21、对所述多个关键词语进行顺序调换，得到调换后文本；

22、从预测词典中获取前缀词语和/或后缀词语；

23、利用所述前缀词语和/或所述后缀词语与所述调换后文本重新组句，得到所述初始增强文本。

24、在其中一个实施方式，所述多个关键词语包括名词词语和动词词语；所述对所述多个关键词语进行顺序调换，得到调换后文本，包括：

25、对所述名词词语和所述动词词语进行顺序调换，得到所述调换后文本。

26、在其中一个实施方式，所述根据所述中间增强文本与所述原始文本之间的第一相似度对所述多个中间增强文本进行过滤，得到与所述原始文本相似的多个第一过滤后文本，包括：

27、将所述第一相似度与第二相似度阈值进行比较；

28、保留与大于所述第二相似度阈值的第一相似度对应的中间增强文本，作为所述第一过滤后文本。

29、在其中一个实施方式，所述基于所述多个第一过滤后文本确定所述原始文本的目标增强文本，包括：

30、在所述多个第一过滤后文本中，保留与所述原始文本的目标句式结构匹配的多个目标过滤后文本；

31、基于所述多个目标过滤后文本生成所述目标增强文本。

32、在其中一个实施方式，所述基于所述多个目标过滤后文本生成所述目标增强文本，包括以下方式中的至少一种：

33、对所述目标过滤后文本中的关键词语进行同义词随机替换，得到所述目标过滤后文本对应的目标增强文本；

34、利用从预测词典中获取的前缀词语为所述目标过滤后文本加入前缀，得到所述目标过滤后文本对应的目标增强文本；

35、利用从预测词典中获取的后缀词语为所述目标过滤后文本加入后缀，得到所述目标过滤后文本对应的目标增强文本。

36、在其中一个实施方式，所述对所述目标过滤后文本中的关键词语进行同义词随机替换，得到所述目标过滤后文本对应的目标增强文本，包括：

37、确定所述目标过滤后文本中的关键词语；

38、响应于同义词配置操作，得到所述目标过滤后文本中的关键词语的同义词；

39、利用所述同义词替换所述目标过滤后文本中的关键词语，得到所述目标过滤后文本对应的目标增强文本。

40、本说明书实施方式提供一种语言处理模型训练方法，所述方法包括：

41、获取原始文本和所述原始文本的目标增强文本；其中，所述目标增强文本是通过上述任一项实施方式所述的文本增强方法得到的；

42、利用所述原始文本以及所述目标增强文本训练所述语言处理模型。

43、本说明书实施方式提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项实施方式所述的方法的步骤。

44、本说明书实施方式提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被计算机设备的处理器执行时，使得所述计算机设备能够执行上述任一项实施方式所述的方法的步骤。

45、本说明书实施方式提供一种电子设备，所述电子设备包括：存储器，以及与所述存储器通信连接的一个或多个处理器；所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行，以使所述一个或多个处理器实现上述任一项实施方式所述的方法的步骤。

46、本说明书实施方式提供一种文本增强装置，所述装置包括：

47、文本获取模块，用于获取原始文本，以及与所述原始文本相似的多个初始增强文本；

48、文本泛化处理模块，用于基于所述初始增强文本与所述原始文本进行泛化处理，得到多个中间增强文本；

49、第一文本过滤模块，用于根据所述中间增强文本与所述原始文本之间的第一相似度对所述多个中间增强文本进行过滤，得到与所述原始文本相似的多个第一过滤后文本；

50、增强文本确定模块，用于基于所述多个第一过滤后文本确定所述原始文本的目标增强文本。

51、本说明书实施方式提供一种语言处理模型训练装置，所述装置包括：

52、文本获取模块，用于获取原始文本和所述原始文本的目标增强文本；其中，所述目标增强文本是通过上述任一项实施方式所述的文本增强方法得到的；

53、模型训练模块，用于利用所述原始文本以及所述目标增强文本训练所述语言处理模型。

54、上述说明书实施方式中，首先，获取原始文本，以及与原始文本相似的多个初始增强文本；然后，基于初始增强文本与原始文本进行泛化处理，得到多个中间增强文本；接着，根据中间增强文本与原始文本之间的第一相似度对多个中间增强文本进行过滤，得到与原始文本相似的多个第一过滤后文本；最后，基于多个第一过滤后文本确定原始文本的目标增强文本。通过上述方法对原始文本进行增强处理，得到与原始文本语义相似或相同的目标增强文本。若原始文本对应特定业务领域，原始文本与目标增强文本可以构成针对该特定业务领域的训练文本数据，以满足特定业务领域的训练文本数据需求。