技术新讯 > 乐器声学设备的制造及制作,分析技术 > 朗读评测方法、装置、设备、存储介质及计算机程序产品与流程 > 正文

朗读评测方法、装置、设备、存储介质及计算机程序产品与流程

国知局
2024-06-21 11:54:56

本申请涉及语音处理，尤其涉及一种朗读评测方法、装置、设备、存储介质及计算机程序产品。

背景技术：

1、随着越来越多中英文口语学习和考试的推广，越来越多的人/机构开始使用各种终端设备进行口语/朗读评测。为降低多发音词语所造成的影响，目前大多口语朗读评测方案中，通常需要对朗读文本的音素序列和朗读语音进行强制切分/强制对齐(forcealignment)。然后使用强制切分后的结果数据，完成后续评测处理流程。

2、然而，目前强制切分技术的切分效果无法保障，在不良切分效果下势必影响评测结果的准确性。因此，在朗读评测方案中使用强制切分技术将导致评测结果不够稳定的问题。

技术实现思路

1、基于上述技术现状，本申请提出一种朗读评测方法、装置、设备、存储介质及计算机程序产品，能够提升朗读评测结果的稳定性。

2、根据本申请实施例的第一方面，提供了一种朗读评测方法，所述方法包括：获取朗读文本对应的目标音素序列；其中，所述目标音素序列中对应多发音单词的目标音素位置具有多个音素；基于每个音素位置上所有音素的嵌入向量表示，生成所述目标音素序列的嵌入向量表示；对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定标准朗读音素序列；基于所述标准朗读音素序列进行朗读评测。

3、在一些实施例中，获取朗读文本对应的目标音素序列包括：基于所述朗读文本的多发音单词的多种发音，生成所述朗读文本的多个音素序列；确定各个所述音素序列之间音素位置的对应关系；基于所述对应关系，对相同音素位置的音素进行合并及去重处理，得到所述目标音素序列。

4、在一些实施例中，确定各个所述音素序列之间音素位置的对应关系，包括：基于动态规划算法对所述多个音素序列进行处理，确定各个所述音素序列之间音素位置的对应关系；或者，将所述多个音素序列输入神经网络模型，通过所述神经网络模型确定各个所述音素序列之间音素位置的对应关系。

5、在一些实施例中，对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定标准朗读音素序列，包括：对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定每个音素位置对应的音素全集后验概率；基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列。

6、在一些实施例中，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列，包括：分别按照所述朗读文本的每个音素序列，依次将每一所述音素位置上相应音素的后验概率相乘，得到每个所述音素序列的路径分数；其中，每个所述音素序列中对应多发音单词的目标音素位置包括一个发音下的音素；将路径分数最大的音素序列，确定为所述标准朗读音素序列。

7、在一些实施例中，基于所述标准朗读音素序列进行朗读评测，包括：基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列中每个音素的音素分数、每个音节的音节分数、每个单词的单词分数、每个语句的句子分数中的至少一项。

8、在一些实施例中，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列之后，所述方法还包括：在所述标准朗读音素序列中任一音素位置上的音素，与相应音素位置上后验概率最大的音素不同时，生成纠错提示信息。

9、在一些实施例中，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列之后，所述方法还包括：在所述标准朗读音素序列中对应所述朗读文本中任一单词的各音素的后验概率均小于目标阈值的情况下，生成漏读提示信息。

10、根据本申请实施例的第二方面，提供了一种朗读评测装置，所述装置包括获取模块，用于获取朗读文本对应的目标音素序列；其中，所述目标音素序列中对应多发音单词的目标音素位置具有多个音素；向量模块，用于基于每个音素位置上所有音素的嵌入向量表示，生成所述目标音素序列的嵌入向量表示；音素处理模块，用于对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定标准朗读音素序列；评测模块，用于基于所述朗读音素序列进行朗读评测。

11、根据本申请实施例的第三方面，提供了一种电子设备，包括存储器和处理器；所述存储器与所述处理器连接，用于存储程序；所述处理器用于通过运行所述存储器中的程序，实现如第一方面所述的朗读评测方法。

12、根据本申请实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如第一方面所述的朗读评测方法。

13、根据本申请实施例的第五方面，提供了一种计算机程序产品，包括：计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的朗读评测方法。

14、本申请实施例中，进行朗读评测所使用的目标音素序列中，对应多发音单词的目标音素位置具有多个音素。利用目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，可以确定标准朗读音素序列。不仅考虑到了朗读文本中多发音的情况，并且无需强制切分。最后，基于标准朗读音素序列进行朗读评测。上述方案提供了区别于基于强制切分的口语评测方案的另一种口语评测实现方式，整个过程不再依赖于强制切分，避免了不良切分效果所造成的影响，提升了评测结果的稳定性。

技术特征：

1.一种朗读评测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取朗读文本对应的目标音素序列包括：

3.根据权利要求2所述的方法，其特征在于，确定各个所述音素序列之间音素位置的对应关系，包括：

4.根据权利要求1所述的方法，其特征在于，对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定标准朗读音素序列，包括：

5.根据权利要求4所述的方法，其特征在于，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述标准朗读音素序列进行朗读评测，包括：

7.根据权利要求4所述的方法，其特征在于，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列之后，所述方法还包括：

8.根据权利要求4所述的方法，其特征在于，基于各个音素位置对应的音素全集后验概率，确定所述标准朗读音素序列之后，所述方法还包括：

9.一种朗读评测装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括存储器和处理器；

11.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至8中任意一项所述的朗读评测方法。

12.一种计算机程序产品，其特征在于，包括：计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任意一项所述的朗读评测方法。

技术总结本申请提出一种朗读评测方法、装置、设备、存储介质及计算机程序产品，该方法包括：获取朗读文本对应的目标音素序列；所述目标音素序列中对应多发音单词的目标音素位置具有多个音素；基于每个音素位置上所有音素的嵌入向量表示，生成所述目标音素序列的嵌入向量表示；对所述目标音素序列的嵌入向量表示和朗读语音的声学特征进行联合解码，确定标准朗读音素序列；基于所述标准朗读音素序列进行朗读评测。整个过程不再依赖于强制切分，避免了不良切分效果所造成的影响，提升了评测结果的稳定性。技术研发人员：杨康,吴奎,张凯波,盛志超,竺博受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/5/29