语音识别方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:57:48
本申请属于语音识别领域,具体涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术:
1、近年来,语音识别这种新兴的生物识别手段因其安全便利性受到了很大关注。但相关的语音识别方法,对语音识别的准确性还有待提高。
技术实现思路
1、鉴于上述问题,本申请提出了一种语音识别方法、装置、电子设备以及存储介质,以实现改善上述问题。
2、第一方面,本申请实施例提供了一种语音识别方法,所述方法包括:获取待处理语音数据对应的第一语音识别结果和第二语音识别结果,其中,所述第一语音识别结果包括所述待处理语音数据对应的文字识别结果,所述第二语音识别结果包括所述待处理语音数据对应的说话人识别结果;将所述第一语音识别结果和所述第二语音识别结果输入到预先训练好的分割点确定模型中,获取所述分割点确定模型输出的所述待处理语音数据的分割点确定结果;基于所述分割点确定结果,确定所述待处理语音数据对应的目标识别结果,所述目标识别结果为对所述待处理语音数据对应的文字按照说话人进行切分。
3、第二方面,本申请实施例提供了一种语音识别装置,所述装置包括:第一结果获取单元,用于获取待处理语音数据对应的第一语音识别结果和第二语音识别结果,其中,所述第一语音识别结果包括所述待处理语音数据对应的文字识别结果,所述第二语音识别结果包括所述待处理语音数据对应的说话人识别结果;第二结果获取单元,用于将所述第一语音识别结果和所述第二语音识别结果输入到预先训练好的分割点确定模型中,获取所述分割点确定模型输出的所述待处理语音数据的分割点确定结果;第三结果获取单元,用于基于所述分割点确定结果,确定所述待处理语音数据对应的目标识别结果,所述目标识别结果为对所述待处理语音数据对应的文字按照说话人进行切分。
4、第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
5、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
6、本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质。首先获取待处理语音数据对应的第一语音识别结果和第二语音识别结果,其中,第一语音识别结果包括待处理语音数据对应的文字识别结果,第二语音识别结果包括待处理语音数据对应的说话人识别结果,然后将第一语音识别结果和第二语音识别结果输入到预先训练好的分割点确定模型中,获取分割点确定模型输出的待处理语音数据的分割点确定结果,再基于分割点确定结果,确定待处理语音数据对应的目标识别结果,目标识别结果为对待处理语音数据对应的文字按照说话人进行切分。通过上述方法,通过分割点确定模型对第一语音识别结果和第二语音识别结果进行融合,以形成准确的多人对话纪要,使得对话的文字可以按照说话人精确的进行切分,提高了语音识别的准确性。
技术特征:1.一种语音识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待处理语音数据对应的第一语音识别结果和第二语音识别结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述第一语音识别结果和所述第二语音识别结果输入到预先训练好的分割点确定模型中,获取所述分割点确定模型输出的所述待处理语音数据的分割点确定结果,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述分割点确定结果,确定所述待处理语音数据对应的目标识别结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述第一语音识别结果和所述第二语音识别结果输入到预先训练好的分割点确定模型中,获取所述分割点确定模型输出的所述待处理语音数据的分割点确定结果之前还包括:
7.根据权利要求6所述的方法,其特征在于,所述将所述训练数据集输入到待训练模型中,对所述待训练模型进行迭代训练,直至满足训练结束条件,得到所述分割点确定模型,包括:
8.一种语音识别装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。
技术总结本申请实施例公开了一种语音识别方法、装置、电子设备及存储介质。所述方法包括:获取待处理语音数据对应的第一语音识别结果和第二语音识别结果,其中,第一语音识别结果包括待处理语音数据对应的文字识别结果,第二语音识别结果包括待处理语音数据对应的说话人识别结果;将第一语音识别结果和第二语音识别结果输入到预先训练好的分割点确定模型中,获取分割点确定模型输出的待处理语音数据的分割点确定结果;基于分割点确定结果,确定待处理语音数据对应的目标识别结果,目标识别结果为对待处理语音数据对应的文字按照说话人进行切分。通过对第一语音识别结果和第二语音识别结果进行融合,使得对话的文字可以按照说话人精确的进行切分。技术研发人员:郑颖龙,吴广财,唐乐,陈非,马春受保护的技术使用者:南方电网数字电网集团有限公司广东分公司技术研发日:技术公布日:2024/6/11本文地址:https://www.jishuxx.com/zhuanli/20240618/24751.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表