技术新讯 > 乐器声学设备的制造及制作,分析技术 > 口语文本生成方法、语音合成方法及相关装置与流程 > 正文

口语文本生成方法、语音合成方法及相关装置与流程

国知局
2024-06-21 11:50:11

本申请涉及自然语言处理，特别是涉及一种口语文本生成方法、语音合成方法及相关装置。

背景技术：

1、随着交互场景应用越来越广泛，研发人员开始探索如何使交互过程更加拟人化，如人机语音交互过程，使机器能够发出更加拟人化的语音。机器语音合成过程分为语音合成前端和语音合成后端，合成前端主要是将各语种的文本序列转换为和发音更相关的音素序列，合成后端是利用音素序列生成声学参数并通过声码器恢复成语音波形。因此，语音合成中依赖的文本序列是至关重要的，如何使语音合成使用的文本更加口语化成为研发人员关注的问题之一。

技术实现思路

1、本申请主要解决的技术问题是提供一种口语文本生成方法、语音合成方法及相关装置，能够得到更加口语化的口语文本。

2、为解决上述技术问题，本申请第一方面提供了一种口语文本生成方法，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。

3、为解决上述技术问题，本申请第二方面提供了一种语音合成方法，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本；基于目标口语文本，合成口语语音。

4、为解决上述技术问题，本申请第三方面提供了一种口语文本生成装置，该装置包括第一获取模块和第一生成模块，第一获取模块用于获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；第一生成模块用于利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。

5、为解决上述技术问题，本申请第四方面提供了一种语音合成装置，该装置包括：第二获取模块、第二生成模块和语音合成模块，第二获取模块用于获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；第二生成模块用于利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本；语音合成模块用于基于目标口语文本，合成口语语音。

6、为解决上述技术问题，本申请第五方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面或第二方面提供的方法。

7、为解决上述技术问题，本申请第六方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有程序文件，程序文件能够被执行以实现上述第一方面或第二方面提供的方法。

8、本申请的有益效果是：区别于现有技术的情况，本申请获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。通过设置个性化的提示语，即可使得口语文本生成模型按照提示语的第一指示内容，利用目标书面文本生成更加口语化的目标口语文本。

技术特征：

1.一种口语文本生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用口语文本生成模型按照所述提示语的第一指示内容，对所述目标书面文本执行所述口语文本生成任务，得到目标口语文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述获得各所述候选口语文本对应的第一概率，包括：

4.根据权利要求3所述的方法，其特征在于，所述提示语的第一提示内容包括至少一个口语标签，在所述对于所述候选口语文本中各词语，基于所述词语属于目标口语标签的第二概率和所述目标口语标签的先验概率，确定所述词语对应的第三概率之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述提示语的第一提示内容包括所述目标口语文本的应用场景，所述应用场景用于指示所述口语文本生成模型生成的目标口语文本与所述应用场景匹配。

6.根据权利要求1所述的方法，其特征在于，所述提示语还包括第二提示内容，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述提示语的第二指示内容包括至少一个情感标签；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述样本提示语有多个，所述训练任务还包括文本分析任务，所述文本分析任务包括文本的词性标注任务、文本分词任务、文本情感分类任务、依存句法分析任务、文本翻译任务、文本语法检查任务中的至少一者；

10.根据权利要求8所述的方法，其特征在于，在所述利用至少一个样本提示语，分别控制所述口语文本生成模型对样本书面文本执行与各所述样本提示语对应的训练任务，得到各所述训练任务对应的模型输出结果之前，还包括：

11.一种语音合成方法，其特征在于，包括：

12.一种口语文本生成装置，其特征在于，包括：

13.一种语音合成装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序指令，所述处理器用于执行所述存储器中存储的程序指令，以执行如权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序文件，所述程序文件能够被执行以实现如权利要求1-11任一项所述的方法。

技术总结本申请公开了一种口语文本生成方法、语音合成方法及相关装置，该方法包括：获取目标书面文本和提示语，其中，提示语用于指示口语文本生成模型执行口语文本生成任务；利用口语文本生成模型按照提示语的第一指示内容，对目标书面文本执行口语文本生成任务，得到目标口语文本。通过上述方式，本申请能够得到更加口语化的口语文本。技术研发人员：蔡明琦,方昕,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/5/8