语音识别方法、装置、设备及可读存储介质与流程
- 国知局
- 2024-06-21 10:39:01
本技术涉及语音识别,更具体的说,是涉及一种语音识别方法、装置、设备及可读存储介质。
背景技术:
1、自动语音识别(automatic speech recognition, asr)技术是一种将语音信号转换为文字序列的技术,它已经被广泛应用于各种领域,例如语音助手、语音搜索、语音输入等应用。实体词是指一段语音中所包含的专有名词,它具有特定含义,如地名、公司名、歌曲名、歌手名、演员名等。例如,“播放张三唱的歌曲a”这句话中“张三”和“歌曲a”是该句中的实体,分别为歌手名和歌曲名。在语音识别应用中,实体词识别在很多场景是必须具备的能力之一,比如在语音助手场景,需要识别通讯录人名、歌手名、歌曲名、视频名、演员、地点名等实体词,因此,在语音识别应用中,准确识别出实体词对于提高语音识别准确率非常重要。
2、为了提升端到端语音识别模型对于实体词的识别效果,可以采用语言模型浅融合的方法,即将实体词与相应说法进行泛化扩展,利用泛化的说法训练得到语言模型(基于n-gram的统计语言模型或基于神经网络的语言模型),然后在端到端语音识别模型外接语言模型,在解码过程中,利用语言模型对端到端语音识别模型每一次解码的所有候选解码路径都进行同样程度的激励,这样可能会导致误激励,使得实体词的识别效果得到一定的提升,但是对通用词的识别效果有较大的损失。
3、因此,如何提供一种语音识别方法,以在不影响通用词的识别效果的前提下,提升实体词的识别效果,成为本领域技术人员亟待解决的技术问题。
技术实现思路
1、鉴于上述问题,本技术提出了一种语音识别方法、装置、设备及可读存储介质。具体方案如下:
2、一种语音识别方法,所述方法包括:
3、获取待识别语音数据;
4、确定所述待识别语音数据的声学特征序列;
5、基于所述声学特征序列进行解码处理,其中,在每个解码时刻,只对所述解码时刻的候选解码路径中的目标候选解码路径进行激励,确定所述解码时刻的各候选解码路径的最终解码得分,所述目标候选解码路径为所述候选解码路径中最后一个词被判定为实体词的候选解码路径;
6、最后一个解码时刻解码完毕后,基于最后一个解码时刻的各候选解码路径的最终解码得分,确定所述语音数据的识别结果。
7、可选地,所述解码时刻的候选解码路径的确定方式,包括:
8、获取历史候选解码路径,所述历史候选解码路径为所述解码时刻的前一解码时刻的候选解码路径;
9、确定所述解码时刻对应的全部解码路径,所述解码时刻对应的全部解码路径为每个所述历史候选解码路径与预设词表中每个词组合得到的;
10、确定所述解码时刻对应的每个解码路径的初始解码得分;
11、选取初始解码得分排名靠前的预设数量个解码路径,作为所述解码时刻的候选解码路径。
12、可选地,所述每个解码路径的初始解码得分的确定方式如下:
13、获取所述解码路径中包括的历史候选解码路径的最终解码得分;
14、确定所述解码路径中包括的最后一个词的预测得分,所述解码路径中包括的最后一个词的预测得分用于指示该词与该解码路径中包括的历史候选解码路径的组合概率;
15、基于所述解码路径中包括的历史候选解码路径的最终解码得分,以及所述解码路径中包括的最后一个词的预测得分,确定所述解码路径的初始解码得分。
16、可选地,所述目标候选解码路径的确定方式如下:
17、针对每个候选解码路径,将所述候选解码路径中最后一个词之前的n个词输入训练好的通用语言模型,所述通用语言模型输出所述候选解码路径中最后一个词的第一预测得分;所述通用语言模型是基于通用语料训练得到的;
18、将所述候选解码路径中最后一个词之前的n个词输入训练好的实体语言模型,所述实体语言模型输出所述候选解码路径中最后一个词的第二预测得分;所述实体语言模型是基于包含实体词的语料训练得到的;所述n为大于等于1的整数;
19、计算所述第二预测得分与所述第一预测得分的差值;
20、基于所述差值,确定所述候选解码路径是否为目标候选解码路径。
21、可选地,所述基于所述差值,确定所述候选解码路径是否为目标候选解码路径,包括:
22、确定所述差值是否大于第一预设阈值;
23、如果所述差值大于所述第一预设阈值,则确定所述候选解码路径为目标候选解码路径。
24、可选地,所述基于所述差值,确定所述候选解码路径是否为目标候选解码路径,包括:
25、确定所述差值是否大于第一预设阈值;
26、如果所述差值大于所述第一预设阈值,则确定所述第二预测得分是否大于第二预设阈值;
27、如果所述第二预测得分大于所述第二预设阈值,则确定所述候选解码路径为目标候选解码路径。
28、可选地,所述对所述解码时刻的候选解码路径中的目标候选解码路径进行激励,确定所述解码时刻的各候选解码路径的最终解码得分,包括:
29、获取每个所述候选解码路径的初始解码得分;
30、对所述候选解码路径中的目标候选解码路径的初始解码得分进行激励,得到所述目标候选解码路径的最终解码得分;
31、将所述候选解码路径中的非目标候选解码路径的初始解码得分作为最终解码得分。
32、可选地,所述对所述候选解码路径中的目标候选解码路径的初始解码得分进行激励,得到所述目标候选解码路径的最终解码得分,包括:
33、获取预设激励系数、所述目标候选解码路径中最后一个词的第一预测得分以及所述目标候选解码路径中最后一个词的第二预测得分;
34、基于所述预设激励系数、所述目标候选解码路径中最后一个词的第一预测得分以及所述目标候选解码路径中最后一个词的第二预测得分,计算激励得分;
35、将所述激励得分与所述目标候选解码路径的初始解码得分进行融合,得到所述目标候选解码路径的最终解码得分。
36、一种语音识别装置,所述装置包括:
37、获取单元,用于获取待识别语音数据;
38、确定单元,用于确定所述待识别语音数据的声学特征序列;
39、解码单元,用于基于所述声学特征序列进行解码处理,其中,在每个解码时刻,只对所述解码时刻的候选解码路径中的目标候选解码路径进行激励,确定所述解码时刻的各候选解码路径的最终解码得分,所述目标候选解码路径为所述候选解码路径中最后一个词被判定为实体词的候选解码路径;
40、识别结果确定单元,用于最后一个解码时刻解码完毕后,基于最后一个解码时刻的各候选解码路径的最终解码得分,确定所述语音数据的识别结果。
41、可选地,所述解码单元包括候选解码路径确定单元,所述候选解码路径确定单元,包括:
42、历史候选解码路径获取单元,用于获取历史候选解码路径,所述历史候选解码路径为所述解码时刻的前一解码时刻的候选解码路径;
43、全部解码路径确定单元,用于确定所述解码时刻对应的全部解码路径,所述解码时刻对应的全部解码路径为每个所述历史候选解码路径与预设词表中每个词组合得到的;
44、初始解码得分确定单元,用于确定所述解码时刻对应的每个解码路径的初始解码得分;
45、选取单元,用于选取初始解码得分排名靠前的预设数量个解码路径,作为所述解码时刻的候选解码路径。
46、可选地,所述初始解码得分确定单元,具体用于:
47、获取所述解码路径中包括的历史候选解码路径的最终解码得分;
48、确定所述解码路径中包括的最后一个词的预测得分,所述解码路径中包括的最后一个词的预测得分用于指示该词与该解码路径中包括的历史候选解码路径的组合概率;
49、基于所述解码路径中包括的历史候选解码路径的最终解码得分,以及所述解码路径中包括的最后一个词的预测得分,确定所述解码路径的初始解码得分。
50、可选地,所述解码单元包括目标候选解码路径确定单元,所述目标候选解码路径确定单元,包括:
51、第一预测单元,用于针对每个候选解码路径,将所述候选解码路径中最后一个词之前的n个词输入训练好的通用语言模型,所述通用语言模型输出所述候选解码路径中最后一个词的第一预测得分;所述通用语言模型是基于通用语料训练得到的;
52、第二预测单元,用于将所述候选解码路径中最后一个词之前的n个词输入训练好的实体语言模型,所述实体语言模型输出所述候选解码路径中最后一个词的第二预测得分;所述实体语言模型是基于包含实体词的语料训练得到的;
53、差值计算单元,用于计算所述第二预测得分与所述第一预测得分的差值;
54、目标候选解码路径确定子单元,用于基于所述差值,确定所述候选解码路径是否为目标候选解码路径。
55、可选地,所述目标候选解码路径确定子单元,具体用于:
56、确定所述差值是否大于第一预设阈值;
57、如果所述差值大于所述第一预设阈值,则确定所述候选解码路径为目标候选解码路径。
58、可选地,所述目标候选解码路径确定子单元,具体用于:
59、确定所述差值是否大于第一预设阈值;
60、如果所述差值大于所述第一预设阈值,则确定所述第二预测得分是否大于第二预设阈值;
61、如果所述第二预测得分大于所述第二预设阈值,则确定所述候选解码路径为目标候选解码路径。
62、可选地,所述解码单元包括最终解码得分确定单元,所述最终解码得分确定单元,包括:
63、初始解码得分获取单元,用于获取每个所述候选解码路径的初始解码得分;
64、目标候选解码路径处理单元,用于对所述候选解码路径中的目标候选解码路径的初始解码得分进行激励,得到所述目标候选解码路径的最终解码得分;
65、非目标候选解码路径处理单元,用于将所述候选解码路径中的非目标候选解码路径的初始解码得分作为最终解码得分。
66、可选地,所述目标候选解码路径处理单元,具体用于:
67、获取预设激励系数、所述目标候选解码路径中最后一个词的第一预测得分以及所述目标候选解码路径中最后一个词的第二预测得分;
68、基于所述预设激励系数、所述目标候选解码路径中最后一个词的第一预测得分以及所述目标候选解码路径中最后一个词的第二预测得分,计算激励得分;
69、将所述激励得分与所述目标候选解码路径的初始解码得分进行融合,得到所述目标候选解码路径的最终解码得分。
70、一种语音识别设备,包括存储器和处理器;
71、所述存储器,用于存储程序;
72、所述处理器,用于执行所述程序,实现如上所述的语音识别方法的各个步骤。
73、一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音识别方法的各个步骤。
74、借由上述技术方案,本技术公开了一种语音识别方法、装置、设备及可读存储介质。在获取待识别语音数据、确定待识别语音数据的声学特征序列之后,基于声学特征序列进行解码处理,其中,在每个解码时刻,只对该解码时刻的候选解码路径中最后一个词被判定为实体词的候选解码路径进行激励,确定所述解码时刻的各候选解码路径的最终解码得分,最后一个解码时刻解码完毕后,基于最后一个解码时刻的各候选解码路径的最终解码得分,确定语音数据的识别结果。本方案中,在解码过程中,只对可能包含实体词的候选解码路径进行激励,这样可以提升实体词的识别效果,且不影响通用词的识别效果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/20927.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。