技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本生成方法、机器学习模型的训练方法及装置与流程 > 正文

文本生成方法、机器学习模型的训练方法及装置与流程

国知局
2024-06-21 11:56:19

本发明涉及数据处理，具体地，涉及一种文本生成方法、文本生成装置、机器学习模型的训练方法、机器学习模型的训练装置、电子设备、存储介质以及计算机程序产品。

背景技术：

1、当前，机器学习模型越来越多地用于文本信息预测，用于训练机器学习模型的数据文本的规模与质量也愈发重要。而高质量的训练文本通常由人工进行标注生成，标注过程繁琐，且为了得到大规模的高质量的训练文本需要耗费大量人力和物力。

2、除了仅利用人工标注来生成训练文本，也可以先获取小规模标注后的数据样本，利用该数据样本训练机器学习模型，再通过经训练的模型对未标注的数据文本进行预测，以根据预测结果扩充用于训练的数据文本。但是此种方式中根据预测结果扩充的数据文本的质量容易受到模型的性能影响，很难保证数据标注质量，从而导致数据文本的质量较低，无法有效得到需要的高质量文本。

技术实现思路

1、考虑到上述问题而提出了本发明。

2、根据本发明第一方面，提供了一种文本生成方法。所述方法包括：获取语音数据；对所述语音数据进行语音识别，以获得语音识别结果，其中，所述语音识别结果包括所识别的文本；基于所述语音识别结果，利用文本信息预测模型进行文本信息预测，以得到预测结果；根据所述预测结果和所述语音识别结果确定文本信息。

3、示例性地，所述文本信息预测模型是多音字消歧模型，所述对所述语音数据进行语音识别，以获得语音识别结果，包括：利用自动语音识别模型，获得所述语音数据对应的音素和所述所识别的文本；将所述语音数据对应的音素进行拼接，以得到所述语音数据对应的第一拼音；

4、所述基于所述语音识别结果，利用文本信息预测模型进行文本信息预测，以得到预测结果，包括：将所述第一拼音和所述所识别的文本对齐，以得到对齐后的所识别的文本；将所述对齐后的所识别的文本输入所述多音字消歧模型进行文本发音预测，以得到第二拼音和第二拼音的置信度；

5、所述根据所述预测结果和所述语音识别结果确定文本信息，包括：当所述第一拼音和所述第二拼音一致、第二拼音的置信度大于第二阈值时，将所述对齐后的所识别的文本作为所述文本信息。

6、示例性地，所述利用自动语音识别模型，获得所述语音数据对应的音素，包括：将所述语音数据分别输入多个自动语音识别模型，以得到多组初步识别音素；将所述多组初步识别音素进行合并和/或筛选，以得到所述语音数据对应的音素。

7、示例性地，将所述第一拼音和所述所识别的文本对齐，以得到对齐后的所识别的文本，包括：将所述所识别的文本进行断句，并在断句后去除不存在多音字的句子，以得到断句后的所识别的文本；将所述断句后的所识别的文本中的文字分别与所述第一拼音中的拼音对齐；其中，所述对齐后的所识别的文本中的多音字存在与该多音字对齐的拼音。

8、示例性地，在所述将所述断句后的所识别的文本中的文字分别与所述第一拼音中的拼音对齐之前，所述方法还包括：去除包含异常文本的断句后的所识别的文本。

9、示例性地，所述文本信息预测模型是文本反正则化模型，所述基于所述语音识别结果，利用文本信息预测模型进行文本信息预测，以得到预测结果，包括：将所述所识别的文本输入所述文本反正则化模型进行反正则化，以得到第一非规范化文本和第一非规范化文本的置信度；

10、所述根据所述预测结果和所述语音识别结果确定文本信息，包括：将所述所识别的文本输入第一模型进行反正则化，以得到第二非规范化文本；其中，所述文本反正则化模型和所述第一模型不同；当所述第一非规范化文本的至少一部分和所述第二非规范化文本的至少一部分一致，且一致部分的第一非规范化文本的置信度高于第一阈值时，将所述一致部分的第一非规范化文本作为所述文本信息。

11、根据本发明第二方面，提供了一种机器学习模型的训练方法。所述方法包括：利用本发明第一方面所述的文本生成方法所生成的文本信息，训练所述机器学习模型。

12、示例性地，所述机器学习模型是多音字消歧模型或文本反正则化模型。

13、根据本发明第三方面，还提供了一种文本生成装置，包括：

14、语音获取模块，获取语音数据；

15、语音识别模块，对所述语音数据进行语音识别，以获得语音识别结果，其中，所述语音识别结果包括所识别的文本；

16、文本预测模块，基于所述语音识别结果，利用文本信息预测模型进行文本信息预测，以得到预测结果；

17、文本确定模块，根据所述预测结果和所述语音识别结果确定文本信息。

18、根据本发明第四方面，还提供了一种机器学习模型的训练装置，包括：

19、训练模块，用于利用本发明第一方面所述的文本生成方法所生成的文本信息，训练所述机器学习模型。

20、根据本发明第五方面，还提供了一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的文本生成方法和/或机器学习模型的训练方法。

21、根据本发明第六方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的文本生成方法和/或机器学习模型的训练方法。

22、根据本发明第七方面，还提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在运行时用于执行上述的文本生成方法和/或机器学习模型的训练方法。

23、上述技术方案中，获取语音数据，对所述语音数据进行语音识别，以获得语音识别结果，基于所述语音识别结果进行文本信息预测，以得到预测结果，根据所述预测结果和所述语音识别结果确定文本信息。本方案利用语音作为文本信息的来源，结合语音识别结果和文本信息的预测结果确定文本信息，可以得到高质量的文本信息，有助于利用该文本信息进行用于文本信息预测的机器学习模型的训练并且保证机器学习模型的训练效果。

24、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

技术特征：

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本生成方法，其特征在于，所述文本信息预测模型是多音字消歧模型，所述语音识别结果还包括第一拼音，

3.根据权利要求2所述的文本生成方法，其特征在于，所述利用自动语音识别模型，获得所述语音数据对应的音素和所述所识别的文本，包括：

4.根据权利要求2或3所述的文本生成方法，其特征在于，将所述第一拼音和所述所识别的文本对齐，以得到对齐后的所识别的文本，包括：

5.根据权利要求1所述的文本生成方法，其特征在于，所述文本信息预测模型是文本反正则化模型，

6.一种机器学习模型的训练方法，其特征在于，包括：

7.根据权利要求6所述的训练方法，其特征在于，所述机器学习模型是多音字消歧模型或文本反正则化模型。

8.一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至5任一项所述的文本生成方法和/或如权利要求6或7所述的机器学习模型的训练方法。

9.一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至5任一项所述的文本生成方法和/或如权利要求6或7所述的机器学习模型的训练方法。

10.一种计算机程序产品，包括计算机程序指令，其特征在于，所述计算机程序指令在运行时用于执行如权利要求1至5任一项所述的文本生成方法和/或如权利要求6或7所述的机器学习模型的训练方法。

技术总结本发明提供一种文本生成方法、机器学习模型的训练方法及装置。该文本生成方法包括：获取语音数据；对所述语音数据进行语音识别，以获得语音识别结果，其中，所述语音识别结果包括所识别的文本；基于所述语音识别结果，利用文本信息预测模型进行文本信息预测，以得到预测结果；根据所述预测结果和所述语音识别结果确定文本信息。该方案可以得到高质量的文本信息，有助于保证用于文本信息预测的机器学习模型的训练效果。技术研发人员：潘华山,李秀林受保护的技术使用者：标贝（青岛）科技有限公司技术研发日：技术公布日：2024/6/5