技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音识别的方法、装置、设备和可读介质与流程  >  正文

用于语音识别的方法、装置、设备和可读介质与流程

  • 国知局
  • 2024-06-21 10:38:48

本公开的示例实施例总体涉及计算机,并且更具体地,涉及用于语音识别的方法、装置、设备和计算机可读存储介质。

背景技术:

1、随着互联网技术的发展,越来越多的应用或平台等均提供自然语言处理功能,给广大用户带来了诸多便利。具有自然语言处理功能的应用或平台可以基于经训练的机器学习模型向用户提供自然语言处理服务。语音识别任务是自然语言处理任务中的重要任务。期望能够在保证语音识别结果的准确性的同时,提高语音识别的效率。

技术实现思路

1、在本公开的第一方面,提供一种用于语音识别的方法。该方法包括:基于从第一语音中识别到的至少一个第一候选文本序列,向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点;基于从第二语音中识别到的至少一个第二候选文本序列,向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点,至少一个第二节点被连接到每个第一节点之后,第二语音紧随着第一语音之后被采集;如果前缀树包括多个第一节点,至少基于从前缀树获取的多条第一路径对应的多个文本序列各自的语义,确定多个文本序列各自对应的得分,每条第一路径对应的文本序列至少包括第一节点和与之相连的第二节点所表示的候选文本序列的组合;如果存在得分小于得分阈值的至少一条第一路径,从前缀树删除至少一条第一路径以删除至少一个第一节点,得到更新后的前缀树;以及至少基于更新后的前缀树,从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。

2、在本公开的第二方面,提供一种用于语音识别的装置。该装置包括:第一节点添加模块,被配置为基于从第一语音中识别到的至少一个第一候选文本序列,向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点;第二节点添加模块,被配置为基于从第二语音中识别到的至少一个第二候选文本序列,向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点,至少一个第二节点被连接到每个第一节点之后,第二语音紧随着第一语音之后被采集;得分确定模块,被配置为如果前缀树包括多个第一节点,至少基于从前缀树获取的多条第一路径对应的多个文本序列各自的语义,确定多个文本序列各自对应的得分,每条第一路径对应的文本序列至少包括第一节点和与之相连的第二节点所表示的候选文本序列的组合;前缀树更新模块,被配置为如果存在得分小于得分阈值的至少一条第一路径,从前缀树删除至少一条第一路径以删除至少一个第一节点,得到更新后的前缀树;以及文本序列确定模块,被配置为至少基于更新后的前缀树,从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。

3、在本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令在由至少一个处理单元执行时使电子设备执行本公开第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,其可由处理器执行以执行根据本公开的第一方面的方法。

5、应当理解,技术实现要素:部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征:

1.一种用于语音识别的方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中确定所述多个文本序列各自对应的得分包括:

4.根据权利要求1所述的方法,其中从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与所述第一语音相匹配的第一目标文本序列包括:

5.根据权利要求1所述的方法,其中从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与所述第一语音相匹配的第一目标文本序列包括:

6.根据权利要求1所述的方法,其中所述第一语音和所述第二语音均是满足预定时长的语音。

7.根据权利要求6所述的方法,其中所述第一语音和所述第二语音均为实时采集到的语音,所述第一语音为第一时刻前的所述预定时长内采集到的语音,所述第二语音为所述第一时刻后的所述预定时长内采集到的语音。

8.根据权利要求1所述的方法,其中向前缀树添加分别表示所述至少一个第一候选文本序列的至少一个第一节点包括:

9.根据权利要求1所述的方法,还包括:

10.根据权利要求9所述的方法,还包括:

11.根据权利要求10所述的方法,还包括:

12.根据权利要求9所述的方法,还包括:

13.根据权利要求9所述的方法,其中所述用户界面包括会议应用的用户界面。

14.一种用于语音识别的装置,包括:

15.一种电子设备,包括:

16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至13任一项所述的方法。

技术总结本公开的实施例涉及用于语音识别的方法、装置、设备和可读介质。方法包括:基于从第一语音中识别到的至少一个第一候选文本序列,向前缀树添加分别表示至少一个第一候选文本序列的至少一个第一节点;基于从第二语音中识别到的至少一个第二候选文本序列,向前缀树添加分别表示至少一个第二候选文本序列的至少一个第二节点;确定多个文本序列各自对应的得分;从前缀树删除所述至少一条第一路径以删除至少一个第一节点,得到更新后的前缀树;以及至少基于更新后的前缀树,从未被删除的至少一个第一节点所表示的至少一个第一候选文本序列中确定与第一语音相匹配的第一目标文本序列。可以提高语音识别的效率。技术研发人员:彭毅,付立,范璐受保护的技术使用者:京东城市(北京)数字科技有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20904.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。