技术新讯 > 乐器声学设备的制造及制作,分析技术 > 参考语音的生成方法、发音错误检测方法及终端设备 > 正文

参考语音的生成方法、发音错误检测方法及终端设备

国知局
2024-06-21 10:38:22

本申请涉及人工智能，尤其涉及一种参考语音的生成方法、发音错误检测方法及终端设备。

背景技术：

1、随着全球化的快速发展，学习外语的需求日益增加。在过去，人们需要去学校上课学习新的语言。得益于科技的进步，如今人们可以在家里通过计算机辅助语言学习(computer-assisted language learning，call)系统学习外语。

2、与在课堂上学习相比，call系统可以让学生按照自己的节奏学习。为了学以致用，口语练习对于语言学习是不可缺少的环节，计算机辅助发音训练(computer-assistedpronunciation training，capt)是call的重要功能，capt通过对学生的口语练习提供反馈与学生互动，学生可以将口语练习的语音在系统上提交给老师，但是老师的反馈通常不及时，学生的练习提交后，通常需要较长时间才能得到反馈。

3、在这样的背景下，发音错误自动检测(automatic pronunciation errordetection，aped)变得越来越重要。aped是通过机器检测用户发音并为其评分的方法，一种方法利用语音识别模型检测语音数据中的音素，语音数据需要专业人员进行音素标注，另一种方法利用储存母语人士的音频样本，利用这些音频样本与学生练习的音频进行比较。需要说明的是，采用前一种方法时，用户练习的每句话都需要标注标签；采用后一种方法时，需要对母语人士录制音频，这两种处理方式开发效率比较低。而且预先存储的参考数据通常是有限的，用户进行口语练习时只能在数据库中练习已保存语音的单词或者句子，如果数据库中没有保存相关口语的语音信息，则无法给出反馈。

4、因此，如何快速地生成参考语音，以及基于参考语音对待检测语音进行发音错误检测是亟待解决的问题。

技术实现思路

1、本申请实施例提供了一种参考语音的生成方法、发音错误检测方法及终端设备，能够快速地生成参考数据。

2、第一方面，本申请实施例提供了一种参考语音的生成方法，所述方法包括：

3、确定目标用户的声音特征；

4、根据所述目标用户的声音特征和目标文本生成参考语音，所述参考语音是模仿所述目标用户的声音朗读所述目标文本得到的语音。

5、该实施例提供的技术方案，根据目标用户的声音特征和目标文本生成参考语音，生成的参考语音与目标用户的声音更接近，采用本申请实施例生成的参考语音有利于提高根据参考语音进行语言学习的学习效果、以及有利于提高发音错误检测的准确性。

6、结合第一方面，在一种实施方式中，所述确定目标用户的声音特征，包括：根据目标用户的语音示例确定所述目标用户的声音特征。

7、结合第一方面，在一种实施方式中，所述确定目标用户的声音特征，包括：确定参考用户，所述参考用户是数据库中预存的用户中声音特征与所述目标用户的声音特征最接近的用户；根据所述参考用户的语音示例确定所述参考用户的声音特征，将所述参考用户的声音特征确定为所述目标用户的声音特征。

8、结合第一方面，在一种实施方式中，所述根据目标用户的语音示例确定所述目标用户的声音特征，包括：通过文本到语音合成模型(text to speech，tts)中的声音特征编码器获取所述目标用户的语音示例；响应于获取到的所述目标用户的语音示例，所述声音特征编码器确定所述目标用户的声音特征。

9、结合第一方面，在一种实施方式中，所述根据所述参考用户的语音示例确定所述参考用户的声音特征，包括：通过文本到语音合成模型中的声音特征编码器获取所述参考用户的语音示例；响应于获取到的所述参考用户的语音示例，所述声音特征编码器确定所述参考用户的声音特征。

10、结合第一方面，在一种实施方式中，所述根据所述目标用户的声音特征和目标文本生成参考语音，包括：基于所述目标用户的声音特征和所述目标文本，文本到语音合成模型中的合成器确定目标声学特征，所述目标声学特征是与所述目标文本和所述目标用户的声音特征对应的数字信号；基于所述目标声学特征，所述文本到语音合成模型中的语音编码器确定参考语音。

11、第二方面，本申请实施例提供了一种发音错误检测方法，所述方法包括：

12、利用第一方面或者第一方面的任一可能的实施方式提供的方法生成参考语音；确定所述参考语音与目标用户的待检测语音之间的相似性，所述目标用户的待检测语音是记录所述目标用户朗读目标文本时得到的语音；根据所述相似性确定所述待检测语音中存在的发音错误。

13、该实施例提供的技术方案，根据目标用户的语音特征和目标文本生成参考语音，生成的参考语音与目标用户的声音更接近，有利于提高发音错误检测的准确性。

14、结合第二方面，在一种实施方式中，所述确定所述参考语音与目标用户的待检测语音之间的相似性，包括：基于动态时间规整(dynamic time warping，dtw)算法确定所述参考语音与目标用户的待检测语音之间的相似性。

15、结合第二方面，在一种实施方式中，在所述确定所述参考语音与目标用户的待检测语音之间的相似性之后，所述方法还包括：根据所述相似性确定所述待测语音的发音分值，发音分值用于表示待测语音与参考语音的相似程度。

16、第三方面，本申请实施例提供了一种参考语音的生成装置，所述生成装置包括：

17、第一确定单元，用于确定目标用户的声音特征；

18、生成单元，用于根据所述目标用户的声音特征和目标文本生成参考语音，所述参考语音是模仿所述目标用户的声音朗读所述目标文本得到的语音。

19、第四方面，本申请实施例提供了一种发音错误检测装置，包括：如第三方面提供的参考语音的生成装置，用于生成参考语音；第二确定单元，用于确定所述参考语音与记录的所述目标用户的待检测语音之间的相似性，所述目标用户的待检测语音是记录所述目标用户朗读目标文本时得到的语音；第三确定单元，用于根据所述第二确定单元确定的所述相似性确定所述待检测语音中存在的发音错误。

20、第五方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面、第一方面的任一可能的实施方式、第二方面或者第二方面的任一可能的实施方式提供的方法。

21、第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面、第一方面的任一可能的实施方式、第二方面或者第二方面的任一可能的实施方式提供的方法。

22、可以理解的是，上述第三方面至第六方面的有益效果可以参见上述第一方面或者第二方面中的相关描述，在此不再赘述。

技术特征：

1.一种参考语音的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定目标用户的声音特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定目标用户的声音特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据目标用户的语音示例确定所述目标用户的声音特征，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述参考用户的语音示例确定所述参考用户的声音特征，包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述目标用户的声音特征和目标文本生成参考语音，包括：

7.一种发音错误检测方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述确定所述参考语音与目标用户的待检测语音之间的相似性，包括：

9.根据权利要求7或者8所述的方法，其特征在于，在所述确定所述参考语音与目标用户的待检测语音之间的相似性之后，所述方法还包括：

10.一种终端设备，其特征在于，所述终端设备包括：

技术总结本申请公开了一种参考语音的生成方法、发音错误检测方法及终端设备，所述方法包括：确定目标用户的声音特征；根据所述目标用户的声音特征和目标文本生成参考语音，参考语音是模仿所述目标用户的声音朗读所述目标文本得到的语音。本申请提供的参考语音的生成方法，根据目标用户的语音特征和目标文本生成参考语音，生成的参考语音与目标用户的声音更接近。另外，采用本申请实施例生成的参考语音有利于提高根据参考语音进行语言学习的学习效果、以及有利于提高发音错误检测的准确性。技术研发人员：陈健乐,姚嘉晖受保护的技术使用者：香港理工大学技术研发日：技术公布日：2024/1/15