技术新讯 > 乐器声学设备的制造及制作,分析技术 > 多命令词的语音解码识别方法、装置、设备及存储介质与流程  >  正文

多命令词的语音解码识别方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:35:34

本申请涉及语音解码领域,特别是涉及到一种多命令词的语音解码识别方法、装置、设备及存储介质。

背景技术:

1、命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。嵌入式设备由于成本考虑,相比手机等智能设备,其算力低、内存和闪存空间小。一般的命令词识别方法,是对特定的命令词路径进行打分,选取出命令词列表中得分最高的,且满足设定阈值的,为识别结果。此方式随着命令词个数的增多,解码时间也会线性增加。这对低资源设备而言,增加了语音识别的处理时间,使得识别可能无法做到实时处理。

2、因此,现有的识别方法在针对多命令词识别时会增加低资源设备的语音识别处理时间的问题。

技术实现思路

1、本申请的主要目的为提供一种多命令词的语音解码识别方法、装置、设备及存储介质,旨在解决现有的识别方法在针对多命令词识别时会增加低资源设备的语音识别处理时间的技术问题。

2、为了实现上述发明目的,本申请提出一种多命令词的语音解码识别方法,所述方法包括:

3、将命令词列表中的命令词转换为token序列;

4、基于转换为token序列的所述命令词列表,生成前缀树;

5、基于用户指令的语音识别模型输出,结合所述前缀树在模型输出中计算当前时间步对应的指定数量的候选序列;

6、识别所述候选序列的前缀序列在所述前缀树中确认当前时间步对应的节点,并基于所述节点的子节点,确定下一个时间步的token搜索范围;

7、对所述token搜索范围进行目标搜索,并根据搜索结果更新扩展所述前缀序列;

8、直到最后一个时间步搜索完毕后,对获得的预选数量的所述候选序列进行二次打分,得到识别结果。

9、进一步地,所述将命令词列表中的命令词转换为token序列的步骤,包括:

10、识别所述命令词列表中的命令词;

11、基于预设的建模单元,将所述命令词转换为预设字符;

12、将所述预设字符转换为对应的token序列并存储。

13、进一步地,所述基于转换为token序列的所述命令词列表,生成前缀树的步骤,包括:

14、基于前缀树数据结构,创建一个空的前缀树;

15、针对每个所述token序列,从根节点开始遍历,依次将每个token添加到所述前缀树中;

16、为每个添加的token创建对应节点,并将对应节点连接到前一个token所在的节点上,直到遍历完所有所述token序列。

17、进一步地,所述基于用户指令的语音识别模型输出,结合所述前缀树在模型输出中计算当前时间步对应的指定数量的候选序列的步骤,包括:

18、设定一个初始的beam,所述beam为预设数量大小;

19、从前缀树的根节点开始,对所述根节点的子节点进行搜索,获取对应的token序列;

20、将获取的token序列输入到语音识别模型中,计算对应的得分值;

21、将前beam个得分最高的所述候选序列以及对应的所述得分值,加入对应的beam中。

22、进一步地,所述识别所述候选序列的前缀序列在所述前缀树中确认当前时间步对应的节点,并基于所述节点的子节点,确定下一个时间步的token搜索范围的步骤,包括:

23、根据当前时间步对应的所述前缀序列,识别所述前缀序列中最后一个token在所述前缀树中对应的节点;

24、基于所述节点中确定所述节点下对应的所有子节点;

25、获取所有所述子节点对应的token,并将所有所述子节点对应的token判定为下一个时间步的token搜索范围。

26、进一步地,所述对所述token搜索范围进行目标搜索,并根据搜索结果更新扩展所述前缀序列的步骤,包括:

27、将所述token搜索范围包含的所有token作为搜索目标输入到语音识别模型中,计算对应的得分值;

28、根据所述得分值的排序筛选出指定数量的token,作为所述搜索结果;

29、将所述搜索结果加入到对应的所述候选序列中,完成对所述前缀序列的更新扩展。

30、进一步地,所述直到最后一个时间步搜索完毕后,对获得的预选数量的所述候选序列进行二次打分,得到识别结果的步骤,包括:

31、当识别到时间步为最大时间步时搜索完毕,判定当前获得的预选数量的所述候选序列为最终候选序列;

32、将所述最终候选序列使用前向算法进行二次打分,并获取打分结果;

33、根据所述打分结果,筛选出所述识别结果。

34、本申请的第二方面还提出一种多命令词的语音解码识别装置,包括:

35、转换模块,用于将命令词列表中的命令词转换为token序列;

36、前缀树生成模块,用于基于转换为token序列的所述命令词列表,生成前缀树;

37、序列获取模块,用于基于用户指令的语音识别模型输出,结合所述前缀树在模型输出中计算当前时间步对应的指定数量的候选序列;

38、节点确认模块,用于识别所述候选序列的前缀序列在所述前缀树中确认当前时间步对应的节点,并基于所述节点的子节点,确定下一个时间步的token搜索范围;

39、搜索模块,用于对所述token搜索范围进行目标搜索,并根据搜索结果更新扩展所述前缀序列;

40、二次打分模块,用于直到最后一个时间步搜索完毕后,对获得的预选数量的所述候选序列进行二次打分,得到识别结果。

41、本申请的第三方面还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

42、本申请的第四方面还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任一项所述方法的步骤。

43、有益效果:

44、本申请在prefix beam search算法基础上,结合了命令词列表,在命令词列表对应的前缀树的节点中进行候选序列中的token的预测和评估,实现了不同场景的定制化,优化了搜索算法,大幅降低了前缀搜索的耗时,大大减少了搜索次数,将通用的识别搜索限定于命令词列表,大大提高了解码的识别准确率,使解码时长基本不随命令词数量变化,确保了系统在处理大量命令词时仍能保持高效性。

技术特征:

1.一种多命令词的语音解码识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述将命令词列表中的命令词转换为token序列的步骤,包括:

3.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述基于转换为token序列的所述命令词列表,生成前缀树的步骤,包括:

4.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述基于用户指令的语音识别模型输出,结合所述前缀树在模型输出中计算当前时间步对应的指定数量的候选序列的步骤,包括:

5.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述识别所述候选序列的前缀序列在所述前缀树中确认当前时间步对应的节点,并基于所述节点的子节点,确定下一个时间步的token搜索范围的步骤,包括:

6.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述对所述token搜索范围进行目标搜索,并根据搜索结果更新扩展所述前缀序列的步骤,包括:

7.根据权利要求1所述的多命令词的语音解码识别方法,其特征在于,所述直到最后一个时间步搜索完毕后,对获得的预选数量的所述候选序列进行二次打分,得到识别结果的步骤,包括:

8.一种多命令词的语音解码识别装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7 中任一项所述方法的步骤。

技术总结本申请涉及语音解码技术领域,特别是涉及到一种多命令词的语音解码识别方法、装置、设备及存储介质,其中方法包括:基于转换为token序列的所述命令词列表生成前缀树;基于用户指令的语音识别模型输出,结合前缀树在模型输出中计算当前时间步对应的指定数量的候选序列;识别所述候选序列的前缀序列在所述前缀树中确认当前时间步对应的节点,并基于所述节点的子节点,确定下一个时间步的token搜索范围;对所述token搜索范围进行目标搜索,并根据搜索结果更新扩展所述前缀序列;直到最后一个时间步搜索完毕后,对获得的预选数量的所述候选序列进行二次打分,得到识别结果。本申请解码时长受命令词数量变化影响小,确保了系统处理大量命令词时保持高效性。技术研发人员:李杰受保护的技术使用者:深圳市友杰智新科技有限公司技术研发日:技术公布日:2024/3/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/22293.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。