技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别效果测试方法、装置、设备及产品与流程 > 正文

一种语音识别效果测试方法、装置、设备及产品与流程

国知局
2024-06-21 11:48:45

本发明涉及语音识别，具体涉及一种语音识别效果测试方法、装置、设备及产品。

背景技术：

1、目前各类的智能语音设备被应用在各种场景中，例如智能音箱、智能家电、对话机器人等，而在语音识别技术领域，语音识别效果测试是一种重要的技术手段，用于测试智能语音设备的语音识别效果。

2、现有技术所常用的一种测试方法为：在待测试的智能语音设备上对音频测试集进行处理和识别，对比待测试的智能语音设备的识别结果和标注真实结果的方法来统计出识别率，但是这种测试方法是独立于待测试的智能语音设备，由于实际使用中不同设备的硬件和性能都不一样，所需的语音识别算法移植到待测试的智能语音设备上会出现各种可能，例如移植失败，而且移植过程往往繁琐复杂，耗时耗力，且上述过程中人工参与较多，极大浪费了人力成本，测试效率低下。

技术实现思路

1、有鉴于此，本发明实施例提供了一种语音识别效果测试方法、装置、设备及产品，以解决智能语音设备语音识别效果测试阶段繁琐复杂、耗时耗力的问题。

2、根据第一方面，本发明实施例提供了一种语音识别效果测试方法，所述方法包括：

3、确定第一测试音频以及第一测试音频对应的标签文本，组合至少两个第一测试音频，得到组合音频；相邻的两个第一测试音频之间插入了切分信号，切分信号包括间隔信号以及位于间隔信号前后前端的零值信号；

4、向预设的与待测试终端设备相同配置的目标设备播放组合音频，并进行录音，得到回放录音音频；

5、对回放录音音频进行切分，得到与第一测试音频数量相匹配的第二测试音频，并基于第一测试音频的组合顺序以及第二测试音频的切分顺序，将第一测试音频对应的标签文本赋予相应的第二测试音频；

6、基于第二测试音频，确定待测试终端设备的语音识别效果。

7、结合第一方面，在第一方面第一实施方式中，所述确定第一测试音频以及第一测试音频对应的标签文本，组合至少两个第一测试音频，得到组合音频，具体包括：

8、基于间隔信号以及零值信号，制作切分信号；

9、确定第一测试音频以及第一测试音频对应的标签文本；

10、确定组合顺序，按照组合顺序组合第一音频信号并且在相邻的音频信号之间插入切分信号，得到组合音频。

11、结合第一方面第一实施方式，在第一方面第二实施方式中，所述基于间隔信号以及零值信号，制作切分信号，具体包括：

12、基于第一测试音频的采样频率以及预设间隔时长，制作间隔信号并确定间隔信号的采样点；

13、确定目标设备的环境参数，并基于环境参数以及预设零值时长制作零值信号；

14、在间隔信号的前后两端分别插入一个零值信号，得到切分信号。

15、结合第一方面，在第一方面第三实施方式中，所述对回放录音音频进行切分，得到与第一测试音频数量相匹配的第二测试音频，并基于第一测试音频的组合顺序以及第二测试音频的切分顺序，将第一测试音频对应的标签文本赋予相应的第二测试音频；

16、对回放录音音频进行分帧处理，得到第一分帧信号，并确定第一分帧信号对应的第一特征向量；

17、对组合音频进行分帧处理，得到第二分帧信号；

18、基于第一特征向量、第一分帧信号以及第二分帧信号，确定切分起点；

19、从切分起点开始，基于第一测试音频、间隔信号、零值信号的时长以及相互之间在组合音频中的组合顺序，切分回放录音音频，得到与第一测试音频数量相匹配的第二测试音频；

20、基于第一测试音频的组合顺序以及第二测试音频的切分顺序，将第一测试音频对应的标签文本赋予相应的第二测试音频。

21、结合第一方面第三实施方式，在第一方面第四实施方式中，所述对回放录音音频进行分帧处理，得到第一分帧信号，并确定第一分帧信号对应的第一特征向量，具体包括：

22、基于预设帧移以及预设窗长，对回放录音音频进行分帧处理，得到第一分帧信号；

23、对第一分帧信号进行汉明窗处理、傅里叶变换以及频率分量取模处理，得到第一分帧信号对应的第一特征向量。

24、结合第一方面第三实施方式，在第一方面第五实施方式中，所述基于第一特征向量、第一分帧信号以及第二分帧信号，确定切分起点，具体包括：

25、基于第一分帧信号以及第二分帧信号的数量关系以及第二分帧信号中包含的信号类型，确定切分模板；

26、基于第一特征向量、切分模板、采样频率fs以及预设间隔时长ts，确定切分起点。

27、根据第二方面，本发明实施例还提供了一种语音识别效果测试装置，所述装置包括：

28、音频组合模块，用于确定第一测试音频以及第一测试音频对应的标签文本，组合至少两个第一测试音频，得到组合音频；相邻的两个第一测试音频之间插入了切分信号，切分信号包括间隔信号以及位于间隔信号前后前端的零值信号；

29、回放录音模块，用于向预设的与待测试终端设备相同配置的目标设备播放组合音频，并进行录音，得到回放录音音频；

30、音频切分模块，用于对回放录音音频进行切分，得到与第一测试音频数量相匹配的第二测试音频，并基于第一测试音频的组合顺序以及第二测试音频的切分顺序，将第一测试音频对应的标签文本赋予相应的第二测试音频，具体包括：

31、语音测试模块，用于基于第二测试音频，确定待测试终端设备的语音识别效果。

32、根据第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一项所述语音识别效果测试方法的步骤。

33、根据第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述语音识别效果测试方法的步骤。

34、根据第五方面，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上述任一所述的语音识别效果测试方法。

35、本发明提供的语音识别效果测试方法、装置、设备及产品，通过先将原始的第一测试音频组合在一起，并且在组合过程中加入了后续切分时所需的切分信号，得到组合音频，之后在模拟了待测试终端设备的真实使用环境的目标设备中播放并录音组合音频，得到回放录音音频，回放录音阶段有利于提高测试通过率，缩短整体研发时间，最后对回放录音音频进行切分，得到与第一测试音频数量相匹配的第二测试音频。所有第二测试音频在一起构成了最终的测试集，该测试集可以在语音识别算法的研发阶段进行多次测试使用，并且这些测试可以使用性能较高的服务器来完成，无需在待测试终端设备的有限资源中测试，也无需对研发中的算法进行移植，测试效率较高，人工干预较少。由于该测试集的生成环境模拟了待测试终端设备的真实使用环境，提高了语音识别算法的测试通过率，减少人工测试次数、降低成本、同时能更高效地帮助产出待测试终端设备上精度较高的语音识别算法。