技术新讯 > 乐器声学设备的制造及制作,分析技术 > 确定语音识别窗口左右边界的方法、装置、设备及介质与流程 > 正文

确定语音识别窗口左右边界的方法、装置、设备及介质与流程

国知局
2024-06-21 11:54:06

本申请涉及语音识别领域，特别是涉及到一种确定语音识别窗口左右边界的方法、装置、设备及介质。

背景技术：

1、在智能家居领域，语音唤醒和命令词识别属于常见的智能，需要用户喊出唤醒词或命令词后，设备能实时做出应答。除了网络模型速度要快，对结果的解码速度也要快，才能保证实时处理。通常在命令词识别时需要定位出命令词的左右时间边界（实际音频位置在解码结果中对应时间步位置），进而准确对其进行识别，因此窗口过小或过大，均会影响命令词最终的得分，而以缓存长度大小50为例，在窗口计算的过程中，左边界大概需要遍历50次，每次均进行解码计算，耗时较多。

2、因此，针对低资源平台在语音识别过程中，现有的窗口定位导致耗时多，重复遍历导致计算效率低是一个亟需解决的技术问题。

技术实现思路

1、本申请的主要目的为提供一种确定语音识别窗口左右边界的方法、装置、设备及介质，旨在解决低资源平台在语音识别过程中，现有的窗口定位导致耗时多，重复遍历导致计算效率低的技术问题。

2、为了实现上述发明目的，本申请提出一种确定语音识别窗口左右边界的方法，所述方法包括：

3、基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界；

4、基于所述输出结果，每间隔预设步长计算对应时间步位置的路径得分值；

5、基于最大的路径得分值所在的对应时间步位置，确定左边界搜寻范围；

6、基于所述左边界搜寻范围，计算得到窗口左边界的位置。

7、进一步地，所述基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界的步骤之前，包括：

8、获取当前音频，并对所述音频进行预处理和特征提取；

9、将提取到的语音特征输入神经网络模型；

10、基于所述神经网络模型将所述语音特征映射到输出层，得到每个时刻的输出结果。

11、进一步地，所述基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界的步骤，包括：

12、将神经网络模型输出的每个时刻的结果放入结果缓存中；

13、基于语音信号的起始位置，根据结果缓存依次增加右边界的位置；

14、当更新后的窗口右边界满足更新的结束条件，停止更新右边界位置，确认并获取窗口右边界。

15、进一步地，所述基于所述输出结果，每间隔预设步长计算对应时间步位置的路径得分值的步骤，包括：

16、获取预设步长的步长参数；

17、根据步长参数，确定在输出结果中需要进行计算的时间步位置；

18、遍历对应时间步位置上所有经过的路径；

19、将路径上的对应概率值扩大指定倍数，并转换为64位整数，得到第二概率值；

20、计算每个路径上对应的第二概率值的乘积，作为单个路径得分；

21、将所有单个路径得分进行累加，得到对应时间步位置的路径得分值。

22、进一步地，所述基于最大的路径得分值所在的对应时间步位置，确定左边界搜寻范围的步骤，包括：

23、对所有时间步位置的路径得分进行比较，确定最大的得分值所在的对应时间步位置；

24、计算最大得分值所对应的时间步位置前一时间步对应的路径得分值和后一步时间步对应的路径得分值；

25、若前一时间步对应的路径得分值大于后一步时间步对应的路径得分值，则左边界搜寻范围在最大得分值所对应的时间步位置与前一位所述时间步位置之间；

26、若前一时间步对应的路径得分值小于后一步时间步对应的路径得分值，则左边界搜寻范围在最大得分值所对应的时间步位置与后一位所述时间步位置之间。

27、进一步地，所述基于所述左边界搜寻范围，计算得到窗口左边界的位置的步骤，包括：

28、获取与所述左边界搜寻范围相邻的两个所述时间步位置之间所有的时间步的位置；

29、计算所述位置上的路径得分值；

30、所述位置上的路径得分值大小，确定窗口左边界的位置。

31、本申请的第二方面还包括一种快速确定语音识别窗口左右边界装置，包括：

32、右边界确定模块，用于基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界；

33、分值计算模块，用于基于所述输出结果，每间隔预设步长计算对应时间步位置的路径得分值；

34、范围确定模块，用于基于最大的路径得分值所在的对应时间步位置，确定左边界搜寻范围；

35、左边界确定模块，用于基于所述左边界搜寻范围，计算得到窗口左边界的位置。

36、进一步地，所述右边界确定模块，包括：

37、特征提取单元，用于获取当前音频，并对所述音频进行预处理和特征提取；

38、输入单元，用于将提取到的语音特征输入神经网络模型；

39、结果获取单元，用于基于所述神经网络模型将所述语音特征映射到输出层，得到每个时刻的输出结果。

40、本申请的第三方面还包括一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

41、本申请的第四方面还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

42、有益效果

43、首先，本方案通过依次缓存神经网络模型每个时刻的输出结果，得到了窗口的右边界位置，通过预设步长，优化计算方法和搜索策略，选择最大路径得分值的时间步位置确定窗口左边界搜寻范围，有效缩小了搜索范围，提高了搜索的精确性和效率。能够有效处理语音信号的同时，提高语音识别的准确性和效率。减少了重复遍历和耗时操作，有效降低了语音识别过程中的计算资源消耗。这有助于在低资源平台上实现更高效的语音识别功能，节约能耗并提升设备性能。

技术特征：

1.一种确定语音识别窗口左右边界的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的确定语音识别窗口左右边界的方法，其特征在于，所述基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界的步骤之前，包括：

3.根据权利要求1所述的确定语音识别窗口左右边界的方法，其特征在于，所述基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界的步骤，包括：

4.根据权利要求1所述的确定语音识别窗口左右边界的方法，其特征在于，所述基于所述输出结果，每间隔预设步长计算对应时间步位置的路径得分值的步骤，包括：

5.根据权利要求1所述的确定语音识别窗口左右边界的方法，其特征在于，所述基于最大的路径得分值所在的对应时间步位置，确定左边界搜寻范围的步骤，包括：

6.根据权利要求1所述的确定语音识别窗口左右边界的方法，其特征在于，所述基于所述左边界搜寻范围，计算得到窗口左边界的位置的步骤，包括：

7.一种快速确定语音识别窗口左右边界装置，其特征在于，包括：

8.根据权利要求7所述的快速确定语音识别窗口左右边界装置，其特征在于，所述右边界确定模块，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6 中任一项所述方法的步骤。

技术总结本申请涉及语音识别技术领域，特别是涉及到一种确定语音识别窗口左右边界的方法、装置、设备及介质，其中方法包括：基于依次缓存的神经网络模型每个时刻的输出结果，得到窗口右边界；基于所述输出结果，每间隔预设步长计算对应时间步位置的路径得分值；基于最大的路径得分值所在的对应时间步位置，确定左边界搜寻范围；基于所述左边界搜寻范围，计算得到窗口左边界的位置。本申请能够提升窗口边界搜寻效率，有效缩小了搜索范围，减少了重复遍历和耗时操作，有效降低了语音识别过程中的计算资源消耗，有助于在低资源平台上实现更高效的语音识别功能，节约能耗并提升设备性能。技术研发人员：李杰受保护的技术使用者：深圳市友杰智新科技有限公司技术研发日：技术公布日：2024/5/29