技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种自动生成语法错误句子的数据增强方法及装置 > 正文

一种自动生成语法错误句子的数据增强方法及装置

国知局
2024-08-05 11:56:54

本发明属于自然语言处理，尤其涉及一种自动生成语法错误句子的数据增强方法及装置。

背景技术：

1、目前的文本纠错领域的数据增强技术主要依赖于人工编辑错误句子，这一过程不仅效率低下，而且容易受到人为偏差的影响。人工编辑过程中难以覆盖错误类型的全面性，导致生成的数据在多样性和真实性方面存在局限。

2、其次，简单规则的应用虽然提高了错误句子生成的速度，但这些规则往往过于简化，无法模拟真实场景中的复杂语法错误。此外，规则生成的错误可能会过于集中于特定类型，缺乏在真实文本中常见的错误多样性。

技术实现思路

1、本发明的目的在于针对现有技术的不足，提供了一种自动生成语法错误句子的数据增强方法及装置。

2、为实现上述目的，本发明提供了一种自动生成语法错误句子的数据增强方法，该方法包括以下步骤：

3、(1)利用句法分析工具对目标句子进行分词和依存句法分析，以识别并提取词语之间的依赖关系；

4、(2)根据预定义规则对依存句法分析结果进行相应操作，所述操作包括删除或交换词语，以生成语法错误的句子；

5、(3)利用生成的语法错误句子作为数据增强材料，把错误-正确句子文本对作为文本纠错模型的输入及标签，用于文本纠错模型的训练，以提高模型性能。

6、进一步地，所述步骤(2)具体为：每当从步骤(1)中得到一个已分析句法结果的句子时，利用该句遍历预定义规则中的每一条规则；当该句执行预定义规则所描述的操作时，根据预定义规则对句子进行相应的操作；若句子中存在多个满足预定义规则操作所需的结构，则分别对每个结构进行操作，从而生成多个病句，保持每个病句只存在一处被修改。

7、进一步地，所述步骤(2)中，预定义规则包括：

8、a)删除动宾结构中的宾语及其并列结构、补语和左附加语；若并列结构、补语或左附加语不存在，则仅删除存在的部分，若不存在动宾结构则不执行此条；

9、b)删除主谓结构中的主语，并递归删除主语的依附结构，如定中结构、补语和左附加语；若不存在主语，则仅删除存在的部分，若不存在主谓结构则不执行此条；

10、c)交换定中结构被修饰的词及其补语；若不满足定中结构则不执行此条；

11、d)递归删除动宾结构中的动词及其依附的左附加语、补语、定中结构；若左附加语、补语、定中结构不存在，则仅删除动宾结构中的动词及存在的部分，若都不存在则不执行此条；

12、e)交换连续嵌套的两个状语；若不满足则不执行此条；

13、f)交换状语与其修饰的整个结构；若不满足则不执行此条；

14、g)交换主谓结构的主语与状语的顺序，或将状语提前至主语之前；若不满足则不执行此条；

15、h)交换动词并列结构中的两个动词；若不满足则不执行此条；

16、i)删除整个主谓结构及主语的并列结构、补语、左附加语；若不存在主语的并列结构、补语或左附加语，则仅删除存在的部分，若不存在主谓结构则不执行此条；

17、j)交换定中结构；若不存在定中结构则不执行此条。

18、进一步地，所述句法分析工具用于执行自然语言文本的深入语言学分析，包括但不限于词汇的分词、词性标注、句子的依存句法分析，以获取句子的结构信息和词语之间的关系。

19、为实现上述目的，本发明还提供了一种自动生成语法错误句子的数据增强装置，包括一个或多个处理器，用于实现上述的自动生成语法错误句子的数据增强方法。

20、为实现上述目的，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的自动生成语法错误句子的数据增强方法。

21、为实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的自动生成语法错误句子的数据增强方法。

22、与现有技术相比，本发明的有益效果是：本发明能够自动化地生成大量的语法错误句子，现有方法多采用随机对语句进行删改，降低了语句通顺程度；或采用模型进行反翻译。与现有方法相比，本发明生成的病句在语句通顺程度上更好，生成的病句更多样，显著降低数据准备的成本和时间，提升文本纠错模型的训练效率和性能。

技术特征：

1.一种自动生成语法错误句子的数据增强方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的自动生成语法错误句子的数据增强方法，其特征在于，所述步骤(2)具体为：每当从步骤(1)中得到一个已分析句法结果的句子时，利用该句遍历预定义规则中的每一条规则；当该句执行预定义规则所描述的操作时，根据预定义规则对句子进行相应的操作；若句子中存在多个满足预定义规则操作所需的结构，则分别对每个结构进行操作，从而生成多个病句，保持每个病句只存在一处被修改。

3.根据权利要求1所述的自动生成语法错误句子的数据增强方法，其特征在于，所述步骤(2)中，预定义规则包括：

4.根据权利要求1所述的自动生成语法错误句子的数据增强方法，其特征在于，所述句法分析工具用于执行自然语言文本的深入语言学分析，包括但不限于词汇的分词、词性标注、句子的依存句法分析，以获取句子的结构信息和词语之间的关系。

5.一种自动生成语法错误句子的数据增强装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-4中任一项所述的自动生成语法错误句子的数据增强方法。

6.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-4任一项所述的自动生成语法错误句子的数据增强方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4任一项所述的自动生成语法错误句子的数据增强方法。

技术总结本发明公开了一种自动生成语法错误句子的数据增强方法及装置；该方法首先利用句法分析工具对句子进行分词和依存句法分析，以得到词语之间的依赖关系；随后，根据本方法提出的规则，包括删除动宾结构中的宾语及其左附加、右附加关系结构；交换定中关系中的修饰词及其右附加关系结构；递归删除动宾结构中的动词及其左附加、右附加、定中关系结构等多种操作对词语进行删除或交换操作，从而生成语法错误的句子，用于增强文本纠错模型的训练数据。本发明通过这种方式可以有效提升文本纠错模型的性能，具有良好的应用前景。技术研发人员：王天祥,蔡铭受保护的技术使用者：浙江大学技术研发日：技术公布日：2024/8/1