语音识别方法、介质、装置和计算设备与流程
- 国知局
- 2024-06-21 11:43:56
本公开的实施方式涉及应用程序领域,更具体地,本公开的实施方式涉及一种语音识别方法、介质、装置和计算设备。
背景技术:
1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、语音是人机交互的重要媒介之一,语音识别作为人机交互中的重要环节,将语音转换为文字的速度越快,人机交互的流程也就越流畅。
3、示例性技术中,语音转换为文字是通过模型实现的,为提高语音转换文字的速度,通过提高模型的计算速度加快语音转换文字的速度。
4、但上述方式中的模型的计算速度的加快,是牺牲掉了模型识别语音的准确率换取的,也即语音识别存在无法兼顾准确性以及识别效率的问题。
技术实现思路
1、本公开提供一种语音识别方法、介质、装置和计算设备,以解决语音识别存在无法兼顾准确性以及识别效率的问题。
2、在本公开实施方式的第一方面,提供了一种语音识别方法,包括:将目标语音的第一语音片段输入至第一编码网络,得到所述第一语音片段的第一隐层表达参数;根据所述第一隐层表达参数确定所述第一语音片段的第一空白帧概率;响应于所述第一空白帧概率大于预设阈值,确定所述第一语音片段是空白内容的语音片段,并根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率,所述第一输出概率用于将所述第一语音片段识别为对应的文字;响应于所述第一空白帧概率小于或等于预设阈值,将所述第一隐层表达参数输入至第二编码网络获得第二隐层表达参数,并根据所述第二隐层表达参数确定所述第一语音片段的第二输出概率,所述第二输出概率用于将所述第一语音片段识别为对应的文字。
3、在本公开一实施例中,所述根据所述第一隐层表达参数确定所述第一语音片段的第一空白帧概率,包括:将所述第一隐层表达参数输入至空白帧检测模型,获得所述空白帧检测模型输出的所述第一语音片段的第一空白帧概率。
4、在本公开另一实施例中,所述空白帧检测模型的训练过程具体如下:获取各个训练语音片段;获取所述训练语音片段的第三输出概率以及第四输出概率,所述第三输出概率是所述训练语音片段基于第一编码网络处理后得到的输出概率,所述第四输出概率是所述训练语音片段基于所述第一编码网络以及所述第二编码网络处理后得到的输出概率;
5、根据所述第三输出概率以及所述第四输出概率之间的散度,设置预设模型的损失函数,得到待训练模型;
6、根据各个所述训练语音片段对所述待训练模型进行训练,得到空白帧检测模型。
7、在本公开另一实施例中,所述根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率,包括:获取所述目标语音中目标数量的第二语音片段的第二空白帧概率,所述第二语音片段输入所述第一编码网络的时间点早于所述第一语音片段输入所述第一编码网络的时间点,各个所述第二语音片段与所述第一语音片段是顺序相邻的语音片段;响应于各个所述第二空白帧概率均大于预设阈值,根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率。
8、在本公开另一实施例中,所述获取所述目标语音中目标数量的第二语音片段的第二空白帧概率之后,还包括:响应于至少一个所述第二空白帧概率小于或等于预设阈值,将所述第一隐层表达参数输入至所述第二编码网络,得到第三隐层表达参数;根据所述第三隐层表达参数确定所述第一语音片段的第五输出概率,所述第五输出概率用于将所述第一语音片段识别为对应的文字。
9、在本公开另一实施例中,所述根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率包括:根据所述第一隐层表达参数确定所述第一语音片段的非空白帧概率;根据所述非空白帧概率以及所述第一空白帧概率,确定所述第一语音片段的第一输出概率。
10、在本公开另一实施例中,所述根据所述第二隐层表达参数确定所述第一语音片段的第二输出概率,包括:根据预设的变换矩阵以及所述第二隐层表达参数,确定所述第二输出概率。
11、在本公开实施方式的第二方面,提供一种语音识别装置,包括:第一输入模块,用于将目标语音的第一语音片段输入至第一编码网络,得到所述第一语音片段的第一隐层表达参数;第一确定模块,用于根据所述第一隐层表达参数确定所述第一语音片段的第一空白帧概率;第二确定模块,用于响应于所述第一空白帧概率大于预设阈值,确定所述第一语音片段是空白内容的语音片段,并根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率,所述第一输出概率用于将所述第一语音片段识别为对应的文字;第二输入模块,用于响应于所述第一空白帧概率小于或等于预设阈值,将所述第一隐层表达参数输入至第二编码网络获得第二隐层表达参数,并根据所述第二隐层表达参数确定所述第一语音片段的第二输出概率,所述第二输出概率用于将所述第一语音片段识别为对应的文字。
12、在本公开一实施例中,所述第一确定模块,包括:第一输入单元,用于将所述第一隐层表达参数输入至空白帧检测模型,获得所述空白帧检测模型输出的所述第一语音片段的第一空白帧概率。
13、在本公开另一实施例中,所述第一确定模块,还包括:第一获取单元,用于获取各个训练语音片段;第二获取单元,用于获取所述训练语音片段的第三输出概率以及第四输出概率,所述第三输出概率是所述训练语音片段基于第一编码网络处理后得到的输出概率,所述第四输出概率是所述训练语音片段基于所述第一编码网络以及所述第二编码网络处理后得到的输出概率;设置单元,用于根据所述第三输出概率以及所述第四输出概率之间的散度,设置预设模型的损失函数,得到待训练模型;
14、训练单元,用于根据各个所述训练语音片段对所述待训练模型进行训练,得到空白帧检测模型。
15、在本公开另一实施例中,所述第二确定模块,包括:第三获取单元,用于获取所述目标语音中目标数量的第二语音片段的第二空白帧概率,所述第二语音片段输入所述第一编码网络的时间点早于所述第一语音片段输入所述第一编码网络的时间点,各个所述第二语音片段与所述第一语音片段是顺序相邻的语音片段;第一确定单元,用于响应于各个所述第二空白帧概率均大于预设阈值,根据所述第一隐层表达参数确定所述第一语音片段的第一输出概率。
16、在本公开另一实施例中,所述第二确定模块,还包括:第二输入单元,用于响应于至少一个所述第二空白帧概率小于或等于预设阈值,将所述第一隐层表达参数输入至所述第二编码网络,得到第三隐层表达参数;第二确定单元,用于根据所述第三隐层表达参数确定所述第一语音片段的第五输出概率,所述第五输出概率用于将所述第一语音片段识别为对应的文字。
17、在本公开另一实施例中,所述第二确定模块,包括:第三确定单元,用于根据所述第一隐层表达参数确定所述第一语音片段的非空白帧概率;第四确定单元,用于根据所述非空白帧概率以及所述第一空白帧概率,确定所述第一语音片段的第一输出概率。
18、在本公开另一实施例中,所述第二输入模块,包括:第五确定单元,用于根据预设的变换矩阵以及所述第二隐层表达参数,确定所述第二输出概率。
19、在本公开实施方式的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的方法。
20、在本公开实施方式的第四方面,提供一种计算设备,包括:
21、至少一个处理器;
22、以及与所述至少一个处理器通信连接的存储器;
23、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述计算设备执行如上所述的方法。
24、根据本公开实施方式的语音识别方法、介质、装置和计算设备,通过将语音片段输入至第一编码网络得到第一隐层表达参数,基于第一隐层表达参数获取语音片段的空白帧概率,若基于空白帧概率确定语音片段是空白内容的语音片段,则通过第一隐层表达参数获取语音片段的输出概率进行语音片段的识别;若基于空白帧概率确定语音片段不是空白内容的语音片段,则将第一隐层表达参数输入第二编码网络以获得语音片段的输出概率;也即空白内容的语音片段只需经过一个编码网络的处理,减少了语音识别的计算量,在保证语音识别的准确率的前提下,提高了语音转换文字的效率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23190.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。