技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本生成方法、装置、设备及存储介质与流程 > 正文

文本生成方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:44:05

本申请涉及语音识别和自然语言处理，尤其涉及一种文本生成方法、装置、设备及存储介质。

背景技术：

1、随着科学技术的发展，通过计算机进行辅助语言学习成为人类学习语言的重要途径，例如，小语种学习和幼儿语言学习等语言学习领域。

2、目前辅助语言学习的方式主要分为两种：一种是通过人工的详细讲解辅助学习者掌握语言，这样的方式会耗时耗力，同时并不一定能获得良好的效果；另一种是通过相关的语音评测系统，判断发音是否标准，这样的方式未考虑到学习者是否理解当前发音的过程，而是直接评测发音的好坏，这对学习者并不是非常友好。

技术实现思路

1、本申请提供一种文本生成方法、装置、设备及存储介质，用以解决现有技术中在进行辅助语言学习时产生的效率低、效果差的缺陷，实现了快速、准确的完成语言学习。

2、根据本申请实施例的第一方面，提供了一种文本生成方法，包括：

3、获取包含特定语种语音内容的音频数据，并提取所述音频数据的音频特征；

4、基于所述音频特征，识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标；

5、基于所述语音文本和所述音标，生成语言学习讲解文本，所述语言学习讲解文本包括所述语音文本、所述音标，以及学习所述语音文本和所述音标的提示信息。

6、根据本申请实施例第一方面提供的文本生成方法，所述基于所述音频特征，识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标，包括：

7、将所述音频特征输入语音识别模型，得到所述语音识别模型输出的所述特定语种语音内容对应的语音文本以及与所述语音文本对齐的音标；

8、其中，所述语音识别模型通过语音文本与音标对齐训练以及语音文本和音标识别训练得到。

9、根据本申请实施例第一方面提供的文本生成方法，所述语音识别模型的训练过程包括：

10、获取音频特征样本、文本样本和音标样本；

11、将所述音频特征样本和所述音标样本输入所述语音识别模型，以使所述语音识别模型对所述音频特征样本和所述音标样本进行处理获得对齐的音频特征样本和音标特征样本，并基于所述音频特征样本、对齐后的所述音频特征样本和所述音标特征样本，生成预测文本和预测音标；

12、比对所述文本样本和所述预测文本，以及对比所述音标样本和所述预测音标，得到比对结果；

13、基于所述比对结果，调整所述语音识别模型的运算参数。

14、根据本申请实施例第一方面提供的文本生成方法，所述对所述音频特征样本和所述音标样本进行处理获得对齐的音频特征样本和音标特征样本，包括：

15、对所述音标样本进行编码，得到音标特征样本；

16、计算所述音频特征样本与所述音标特征样本的转置的乘积，得到第一融合结果；

17、计算所述第一融合结果和所述音标特征样本的乘积，得到与所述音频特征样本对齐的音标特征样本。

18、根据本申请实施例第一方面提供的文本生成方法，所述基于所述音频特征样本、对齐后的所述音频特征样本和所述音标特征样本，生成预测文本和预测音标，包括：

19、基于所述音频特征样本，生成与所述音频特征样本对应的预测文本和第一预测音标；

20、基于对齐后的所述音频特征样本和所述音标特征样本，生成第二预测音标；

21、所述比对所述文本样本和所述预测文本，以及比对所述音标样本和所述预测音标，得到比对结果，包括：

22、比对所述文本样本和所述预测文本，得到第一比对结果；

23、比对所述音标样本和所述第一预测音标，得到第二比对结果；

24、比对所述音标样本和所述第二预测音标，得到第三比对结果；

25、所述基于所述比对结果，调整所述语音识别模型的运算参数，包括：

26、基于所述第一比对结果、所述第二比对结果和所述第三比对结果，调整所述运算参数。

27、根据本申请实施例第一方面提供的文本生成方法，所述基于所述语音文本和所述音标，生成语言学习讲解文本，包括：

28、创建关键信息，其中，所述关键信息用于指示生成语言学习讲解文本的结构要求和/或内容要求；

29、基于所述关键信息、所述语音文本和所述音标，构建任务提示指令；所述任务提示指令用于提示大语言模型按照所述关键信息，生成包含所述语音文本和所述音标的语言学习讲解文本；

30、将所述任务提示指令输入预训练的大语言模型，以使所述大语言模型生成语言学习讲解文本。

31、根据本申请实施例第一方面提供的文本生成方法，所述语言学习讲解文本中包括所述语音文本的各个分词，以及与各个分词分别对应的音标；

32、学习所述语音文本和所述音标的提示信息，包括通过练习所述语音文本的各个分词的发音，学习所述语音文本的整句发音的提示信息。

33、根据本申请实施例的第二方面，提供了一种文本生成装置，包括：

34、特征提取模块，用于获取包含特定语种语音内容的音频数据，并提取所述音频数据的音频特征；

35、语音识别模块，用于基于所述音频特征，识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标；

36、文本生成模块，用于基于所述语音文本和所述音标，生成语言学习讲解文本，所述语言学习讲解文本包括所述语音文本、所述音标，以及学习所述语音文本和所述音标的提示信息。

37、根据本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的文本生成方法。

38、根据本申请实施例的第四方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的文本生成方法。

39、本申请实施例提供了一种文本生成方法、装置、设备及存储介质，通过获取包含特定语种语音内容的音频数据，并提取音频数据的音频特征；基于音频特征，识别特定语种语音内容对应的语音文本以及与语音文本对应的音标，可见，本申请通过提取音频数据的语音文本和语音文本对应的音标，以辅助用户如何正确的发音；进而，基于语音文本和音标，生成语言学习讲解文本，语言学习讲解文本包括语音文本、音标，以及学习语音文本和音标的提示信息，可见，本申请通过生成包括有语音文本、音标，以及学习语音文本和音标的提示信息的语言学习讲解文本，使用户充分的理解音频数据，并同时快速、准确的完成语言学习，提高了学习效率，达到了良好的学习效果。

技术特征：

1.一种文本生成方法，其特征在于，包括：

2.根据权利要求1所述的文本生成方法，其特征在于，所述基于所述音频特征，识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标，包括：

3.根据权利要求2所述的文本生成方法，其特征在于，所述语音识别模型的训练过程包括：

4.根据权利要求3所述的文本生成方法，其特征在于，所述对所述音频特征样本和所述音标样本进行处理获得对齐的音频特征样本和音标特征样本，包括：

5.根据权利要求3所述的文本生成方法，其特征在于，所述基于所述音频特征样本、对齐后的所述音频特征样本和所述音标特征样本，生成预测文本和预测音标，包括：

6.根据权利要求1-5任一项所述的文本生成方法，其特征在于，所述基于所述语音文本和所述音标，生成语言学习讲解文本，包括：

7.根据权利要求1-5中任意一项所述的文本生成方法，其特征在于，所述语言学习讲解文本中包括所述语音文本的各个分词，以及与各个分词分别对应的音标；

8.一种文本生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的文本生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本生成方法。

技术总结本申请提供一种文本生成方法、装置、设备及存储介质，方法包括：获取包含特定语种语音内容的音频数据，并提取所述音频数据的音频特征；基于所述音频特征，识别所述特定语种语音内容对应的语音文本以及与所述语音文本对应的音标；基于所述语音文本和所述音标，生成语言学习讲解文本，所述语言学习讲解文本包括所述语音文本、所述音标，以及学习所述语音文本和所述音标的提示信息。本申请用以解决现有技术中在进行辅助语言学习时产生的效率低、效果差的缺陷，实现了快速、准确的完成语言学习。技术研发人员：蔡迪,万根顺,张文辉,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/17