技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的性能确定方法、装置、电子设备及可读存储介质与流程 > 正文

语音识别模型的性能确定方法、装置、电子设备及可读存储介质与流程

国知局
2024-06-21 11:48:25

本发明属于语音识别，特别是涉及一种语音识别模型的性能确定方法、装置、电子设备及可读存储介质。

背景技术：

1、在确定需要使用语音识别模型时，会基于语音识别模型的性能，选择目标语音识别模型。

2、现有确定语音识别模型的性能时，需要基于mos值进行语音识别效果的评估。

3、而基于mos值进行语音识别效果的评估是通过人工对识别结果打分的方式，因此，极度依赖人工经验，导致主观性较强。且一旦新增一组识别结果，就需要将希望对比的n组之前已经评测过的结果和新结果放到一起重新打分，基于mos值进行语音识别效果的评估方式十分不便。

技术实现思路

1、本发明提供一种语音识别模型的性能确定方法、装置、电子设备及可读存储介质，以便解决确定语音识别模型性能，不客观、不方便。

2、为了解决上述技术问题，本发明是这样实现的：

3、第一方面，本发明提供一种语音识别模型的性能确定方法，所述方法包括：

4、获取待识别语音对应的标准标注文本，以及获取语音识别模型对所述待识别语音进行识别时，各时刻生成的概率分布；

5、确定所述概率分布中与第一字符对应的第一概率；所述第一概率用于表征所述时刻的识别结果为所述第一字符的概率；所述第一字符为所述标准标注文本中的字符；

6、对各所述第一概率进行评价，得到第一评价值；

7、通过所述第一评价值，确定所述语音识别模型的性能参数。

8、第二方面，本发明提供一种语音识别模型的性能确定装置，所述装置包括：

9、获取模块，用于获取待识别语音对应的标准标注文本，以及获取语音识别模型对所述待识别语音进行识别时，各时刻生成的概率分布；

10、概率确定模块，用于确定所述概率分布中与第一字符对应的第一概率；所述第一概率用于表征所述时刻的识别结果为所述第一字符的概率；所述第一字符为所述标准标注文本中的字符；

11、第一评价模块，用于对各所述第一概率进行评价，得到第一评价值；

12、确定模块，用于通过所述第一评价值，确定所述语音识别模型的性能参数。

13、第三方面，本发明提供一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述语音识别模型的性能确定方法。

14、第四方面，本发明提供一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语音识别模型的性能确定方法。

15、在本发明实施例中，确定各时刻生成的概率分布中与第一字符对应的第一概率；所述第一概率用于表征在所述时刻的识别结果为所述第一字符的概率；基于对客观的第一概率进行评价，得到第一评价值；通过所述第一评价值，确定所述语音识别模型的性能参数，从而基于客观的第一概率所得到的第一评价值，来确定所述语音识别模型的性能参数，避免了确定语音识别模型不够客观的情况。且由于是基于语音识别模型的概率分布，因此，当确定当前语音识别模型的性能参数后，若还需要确定其他语音识别模型的性能参数时，只需要根据其他语音识别模型的概率分布，确定其他语音识别模型的性能参数，而不需要重新确定当前语音识别模型的性能参数，提高了确定语音识别模型性能参数的便利性。

技术特征：

1.一种语音识别模型的性能确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在确定所述概率分布中与第一字符对应的第一概率之前，所述方法，还包括：

3.根据权利要求1所述的方法，其特征在于，所述对各所述第一概率进行评价，得到第一评价值，包括：

4.根据权利要求2所述的方法，其特征在于，所述对各所述第一概率进行打分，得到第二评价值，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述通过语音检测模型，确定所述识别结果文本与所述标准标注文本之间的语义相似度，包括：

7.根据权利要求5或6所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述通过所述第一评价值、所述第三评价值、所述第四评价值，确定所述语音识别模型的性能参数，包括：

9.一种语音识别模型的性能确定装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

11.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-8中任一项所述的语音识别模型的性能确定方法。

技术总结本发明实施例提供了一种语音识别模型性能确定方法、装置、电子设备及可读存储介质，该方法获取待识别语音对应的标准标注文本，以及获取语音识别模型对待识别语音进行识别时，各时刻生成的概率分布，在概率分布中确定与第一字符对应的第一概率，通过客观的第一概率确定语音识别模型的性能参数，避免了确定语音识别模型性能参数不够客观的情况。且由于是基于语音识别模型的概率分布，因此，当确定当前语音识别模型的性能参数后，若还需要确定其他语音识别模型的性能参数时，只需要根据其他语音识别模型的概率分布，确定其他语音识别模型的性能参数，而不需要重新确定当前语音识别模型的性能参数，提高了确定语音识别模型性能参数的便利性。技术研发人员：邢启洲,李健,陈明,武卫东受保护的技术使用者：北京捷通华声科技股份有限公司技术研发日：技术公布日：2024/5/6