技术新讯 > 乐器声学设备的制造及制作,分析技术 > 朗读进度跟踪方法、装置、设备及存储介质与流程 > 正文

朗读进度跟踪方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:38:23

本申请涉及人工智能，更具体地说，涉及一种朗读进度跟踪方法、装置、设备及存储介质。

背景技术：

1、在学习者进行口语练习的过程中，为了提升学习者在口语练习中的体验，激发学习者的兴趣，机器能够根据学习者的朗读内容，对正在朗读的内容进行标记，使得学习者能够专注于后续的朗读部分，避免其它部分的干扰。

2、目前的方法只对慢速朗读的情况适用，当练习者朗读速度稍快时，会出现标记滞后的情况，即标记的位置滞后于练习者正在朗读的内容，而滞后的位置标记反而会带来使用困扰。

技术实现思路

1、有鉴于此，本申请提供了一种朗读进度跟踪方法、装置、设备及存储介质，以实现实时的朗读进度跟踪。

2、为了实现上述目的，现提出的方案如下：

3、一种朗读进度跟踪方法，包括：

4、对朗读者朗读目标文本时的语音数据进行语音识别，得到语音识别结果及其对应的发音时长序列；所述发音时长序列用于确定所述语音识别结果中各个字的发音时长；

5、基于所述发音时长序列在所述目标文本中对所述语音识别结果进行标记；

6、至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列；

7、基于所述预测发音时长序列在所述目标文本中对所述后续朗读内容进行标记。

8、上述方法，可选的，对所述语音数据进行语音识别的过程，包括：

9、将所述目标文本作为热词，对所述语音数据进行基于热词的语音识别，得到语音识别结果及其对应的发音时长序列。

10、上述方法，可选的，所述至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列，包括：

11、将所述目标文本中，与所述语音识别结果相邻的预设长度的未朗读内容确定为所述后续朗读内容；

12、将所述预设长度的未朗读内容中的各个字对应的统计发音时长确定为所述预测发音时长序列。

13、上述方法，可选的，所述至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列，包括：

14、根据所述目标文本及其对应的统计发音时长序列、所述语音识别结果及其对应的发音时长序列，预测所述朗读者的后续朗读内容及其对应的预测发音时长序列。

15、上述方法，可选的，预测所述朗读者的后续朗读内容及其对应的预测发音时长序列的过程，包括：

16、根据所述目标文本以及所述语音识别结果预测所述朗读者的后续朗读内容；

17、根据所述目标文本对应的统计发音时长序列、所述语音识别结果对应的发音时长序列、所述后续朗读内容对应的统计发音时长序列，确定所述后续朗读内容对应的预测发音时长序列。

18、上述方法，可选的，确定所述后续朗读内容对应的预测发音时长序列的过程，包括：

19、对所述目标文本、所述语音识别结果和所述后续朗读内容分别进行分词处理，得到所述目标文本对应的第一分词结果，所述语音识别结果对应的第二分词结果和所述后续朗读内容对应的第三分词结果；

20、基于所述目标文本对应的统计发音时长序列获得所述第一分词结果对应的至少一个发音时长序列，基于所述语音识别结果对应的发音时长序列获得所述第二分词结果对应的至少一个发音时长序列，以及基于所述后续朗读内容对应的统计发音时长序列获得所述第三分词结果对应的至少一个发音时长序列；

21、基于各个分词结果对应的所有发音时长序列，确定所述后续朗读内容对应的预测发音时长序列。

22、上述方法，可选的，在每个分词结果对应至少两个发音时长的情况下，所述基于各个分词结果对应的所有发音时长序列，确定所述后续朗读内容对应的预测发音时长序列，包括：

23、根据不同分词结果对应的基于同一分组步长得到的发音时长序列预测所述后续朗读内容对应所述同一分组步长的发音时长序列；对于所述第一分词结果、所述第二分词结果和所述第三分词结果中的任一分词结果，任一分组步长用于确定对所述任一分词结果进行分组的结果；

24、将所述后续朗读内容对应不同分组步长的发音时长序列加权平均，得到所述后续朗读内容对应的预测发音时长序列。

25、上述方法，可选的，获得所述第一分词结果对应的至少两个发音时长序列，所述第二分词结果对应的至少两个发音时长序列，以及所述第三分词结果对应的至少两个发音时长序列的过程，包括：

26、对于所述第一分词结果、所述第二分词结果和所述第三分词结果中的任一分词结果，基于对所述任一分词结果进行不同步长的分组，得到不同分组步长对应的分组结果；

27、如果所述任一分词结果为所述第二分词结果，查找静音符对应的统计发音时长，在所述第二分词结果对应预设分组步长的发音时长序列中，在对应相邻两个分词的发音时长中间插入所述静音符对应的统计发音时长，得到所述任一分词结果对应所述预设分组步长的发音时长序列；

28、如果所述任一分词结果不是所述第二分词结果，对应任一分组步长，查找基于所述任一分组步长对所述任一分词结果分组得到的各个分组对应的统计发音时长，得到所述任一分词结果对应所述任一分组步长的发音时长序列。

29、一种朗读进度跟踪装置，包括：

30、识别模块，用于对朗读者朗读目标文本时的语音数据进行语音识别，得到语音识别结果及其对应的发音时长序列；所述发音时长序列用于确定所述语音识别结果中各个字的发音时长；

31、第一标记模块，用于基于所述发音时长序列在所述目标文本中对所述语音识别结果进行标记；

32、预测模块，用于至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列；

33、第二标记模块，用于基于所述预测发音时长序列在所述目标文本中对所述后续朗读内容进行标记。

34、一种朗读进度跟踪设备，包括存储器和处理器；

35、所述存储器，用于存储程序；

36、所述处理器，用于执行所述程序，实现如上任一项所述的朗读进度跟踪方法的各个步骤。

37、一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上任一项所述的朗读进度跟踪方法的各个步骤。

38、从上述的技术方案可以看出，本申请实施例提供的朗读进度跟踪方法、装置、设备及存储介质，对朗读者朗读目标文本时的语音数据进行语音识别，得到语音识别结果及其对应的发音时长序列后，除了基于发音时长序列在目标文本中对语音识别结果进行标记外，还至少根据语音识别结果在目标文本中确定朗读者的后续朗读内容及其对应的预测发音时长序列，基于预测发音时长序列在目标文本中对后续朗读内容进行标记，从而避免仅根据语音识别结果及其对应的发音时长序列进行朗读跟踪时的标记滞后问题，实现实时的朗读进度跟踪。

技术特征：

1.一种朗读进度跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述语音数据进行语音识别的过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述至少根据所述语音识别结果在所述目标文本中确定所述朗读者的后续朗读内容及其对应的预测发音时长序列，包括：

5.根据权利要求4所述的方法，其特征在于，预测所述朗读者的后续朗读内容及其对应的预测发音时长序列的过程，包括：

6.根据权利要求5所述的方法，其特征在于，确定所述后续朗读内容对应的预测发音时长序列的过程，包括：

7.根据权利要求6所述的方法，其特征在于，在每个分词结果对应至少两个发音时长的情况下，所述基于各个分词结果对应的所有发音时长序列，确定所述后续朗读内容对应的预测发音时长序列，包括：

8.根据权利要求6所述的方法，其特征在于，获得所述第一分词结果对应的至少两个发音时长序列，所述第二分词结果对应的至少两个发音时长序列，以及所述第三分词结果对应的至少两个发音时长序列的过程，包括：

9.一种朗读进度跟踪装置，其特征在于，包括：

10.一种朗读进度跟踪设备，其特征在于，包括存储器和处理器；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8中任一项所述的朗读进度跟踪方法的各个步骤。

技术总结本申请实施例公开了一种朗读进度跟踪方法、装置、设备及存储介质，对朗读者朗读目标文本时的语音数据进行语音识别，得到语音识别结果及其对应的发音时长序列后，除了基于发音时长序列在目标文本中对语音识别结果进行标记外，还至少根据语音识别结果在目标文本中确定朗读者的后续朗读内容及其对应的预测发音时长序列，基于预测发音时长序列在目标文本中对后续朗读内容进行标记，从而避免仅根据语音识别结果及其对应的发音时长序列进行朗读跟踪时的标记滞后问题，实现实时的朗读进度跟踪。技术研发人员：栗博,胡阳,张武旭,汪张龙受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/3/24