技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于半监督方式的中文语音识别文本纠错方法及装置与流程 > 正文

一种基于半监督方式的中文语音识别文本纠错方法及装置与流程

国知局
2024-06-21 11:41:16

本发明属于语音识别，具体涉及一种基于半监督方式的中文语音识别文本纠错方法及装置。

背景技术：

1、在日常的文字书写过程中、ocr文本识别、语音转文字后输出的文本会存在拼写错误、缺字、多字、语法错误等情况，而为了减少上述情况的出现，通常需要对文本进行纠错，以提高文本的准确率。现有的中文文本纠错模型，主要使用深度学习的方法，基于开源的文本纠错数据集进行训练后得到。但是现有的技术解决方案主要有以下问题：

2、1.文字书写、ocr文本识别、语音转文字等不同场景中文本存在的错误是不一样的。文字书写过程中会存在音近错误、形近错误、语法错误等情况；ocr文本识别过程中，主要存在的是形近错误；语音转文字领域中，受地区不同、方言不同、语音对话中断、语音口语化等的影响，主要存在的是音近错误。因此对于不同的领域我们应该要使用不同的解决方案。

3、2.开源的文本纠错数据集主要是母语非中文的人员在使用中文的过程中产生的错误在标注后形成的数据集、中文论文等预料形成的数据集，主要是文字书写领域所产生的错误，所以开源的数据不一定适用于不同的场景。

4、3.基于词库的方式对文字进行纠错，构建大量的同音字、形近字词库。在纠错的时候，在词库中进行匹配，如果匹配到相应的字和词则进行替换。该种方法只能简单的进行替换，不能结合语句的上下文的语义进行纠错，在语音转文字场景，由于不同说话人的场景不一样，同音字、形近字较多，词库的方式有可能把对的纠成错的，所以词库的方法不能够很好解决语音转文字领域文字纠错的问题。

技术实现思路

1、本发明旨在至少解决上述背景技术中提出的技术问题之一，提供一种基于半监督方式的中文语音识别文本纠错方法及装置，能够在中文语音转文字后对所得到的文本进行纠错，从而提高语音转文字后文本纠错的准确率，进而提高语音转文字的准确率。

2、本发明第一方面提供了一种基于半监督方式的中文语音识别文本纠错方法，该方法包括如下步骤：

3、步骤1、构建用于中文语音识别的正确文本集；

4、步骤2、构建语音数据的易错字集；

5、步骤3、从步骤1中的正确文本集中随机选取文本，若文本中的字有在易错字集中，则进行替换生成错误样本，并与正确文本组成语音文本纠错的训练集；

6、步骤4、获取通用纠错模型并微调得到微调纠错模型，基于语音文本纠错的训练集，对微调纠错模型进行半监督训练，得到训练后的语音文本纠错模型；

7、步骤5、将中文语音转文字的识别结果发送至语音文本纠错模型进行文本纠错，输出纠错后的文字。

8、作为本发明的进一步优化方案，所述步骤步骤1中，构建用于中文语音识别的正确文本集的方法为：

9、步骤1.1：获取开源语音识别的数据集d0，数据集d0包括语音文件和对应的标注文本；

10、步骤1.2：获取语音转文字模型a和语音转文字模型b；可以将输入的语音数据转换成文字；

11、步骤1.3：获取自有语音数据，对自有语音数据进行预处理，获得仅包含语音文件且未标注的数据集d1；

12、步骤1.4：分别利用语音转文字a模型和语音转文字b模型对未标注的数据集d1进行转换，得到两组对应的文本ta、tb；

13、步骤1.5：建立文本相似度评价指标，将步骤4中输出的两组文本ta、tb进行相似度评价，筛选出相似度超过阈值的文本，根据文本选择出相应的语音文件，整合出数据集d2；

14、步骤1.6：将数据集d2与数据集d0进行整合，并对数据集的顺序进行随机打乱，得到数据集d。

15、步骤1.7：基于wenet框架和数据集d进行训练，获得语音转文字模型m，使用语音转文字模型m对数据集d2进行语音转文字，得到转录文件tm，对转录文件tm和数据集d2文本进行相似度评价，得到筛选后的数据集d2。

16、步骤1.8：重复步骤1.3至步骤1.7至少三次，得到语音转文字的数据集d2。

17、步骤1.9：把数据集d0与数据集d2进行整合得到最终的数据集d，即正确文本集。

18、作为本发明的进一步优化方案，所述步骤2中，构建语音数据的易错字集的具体方法为：

19、步骤2.1：根据同音字易错字组词库建立易错词表c1；

20、步骤2.2：根据多音字易错字组词库建立易错词表c2；

21、步骤2.3：根据地方口音常见字建立易错词表c3；

22、步骤2.4：通过整合c1、c2和c3得到易错字集c。

23、作为本发明的进一步优化方案，所述步骤4中，对初始纠错模型进行半监督训练的具体方法为：

24、步骤4.1：从数据集d中随机选取50％数据，如果数据中的转录文件tm中有字符出现在易错字集c中，则进行字符替换，把进行字符替换之前的数据集作为正确样本tr，进行字符替换后的数据集作为错误样本tw，进而得到正确样本tr和错误样本tw；

25、步骤4.2：基于通用纠错模型进行微调，得到微调纠错模型mc；

26、步骤4.3：重复步骤4.1与步骤4.2三次得到三个微调纠错模型mc；

27、步骤4.4：对三个微调纠错模型mc的参数进行模型融合操作，得到最终的语音文本纠错模型。

28、本发明第二方面提供了一种基于半监督方式的中文语音识别文本纠错装置，包括：

29、正确文本集构建模块，用于构建中文语音识别的正确文本集；

30、易错字集构建模块，用于构建语音数据的易错字集；

31、训练集生成模块，用于从正确文本集中随机选取文本，若文本中的字有在易错字集中，则进行替换生成错误样本，并与正确文本组成语音文本纠错的训练集；

32、模型训练模块，用于获取通用纠错模型并微调得到微调纠错模型，基于语音文本纠错的训练集，对微调纠错模型进行半监督训练，得到训练后的语音文本纠错模型；

33、文本纠错模块，用于将中文语音转文字的识别结果发送至语音文本纠错模型进行文本纠错，输出纠错后的文字。

34、本发明第三方面提供了一种计算机设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，从而执行所述的基于半监督方式的中文语音识别文本纠错方法。

35、本发明第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行所述的基于半监督方式的中文语音识别文本纠错方法。

36、与现有技术相比，本发明具有以下有益效果：

37、1.本发明基于半监督的方式构建一个文本纠错的数据集，然后基于该数据集使用深度学习的方法训练一个语音转文字领域的语音文本纠错模型，最后使用该语音文本纠错模型对语音转文字输出的文本进行纠错，提高了纠错准确率，能够很好地解决常见文本错误类型的文本错误。本发明使用的数据集基于语音领域，训练出来的模型更加适用于语音识别后的文本纠错。

38、2.本发明使用无监督的方法来进行自有数据标注，使得模型更加适用于语音识别行业。

39、3.本发明训练集的搭建基于常见同音字、多音字和口音，没有对语序进行调整，防止模型对语音识别后口语化文本进行纠错，不会把口语化中的不当语序当成错误。

40、4.本发明模型是基于大量的语音转文字后的文本数据构建的数据集，同时模型是基于深度学习的方式训练得到，能够结合文字上下文的语义进行纠错，相比于构建词库的纠错方式会有很大的有益提升。

41、5.本发明语音文本纠错服务使用队列的方式，防止因为请求用户过多，造成显卡内存溢出，造成服务处理失败。