一种语音识别方法及装置与流程
- 国知局
- 2024-06-21 10:40:18
本申请涉及语音识别,尤其涉及一种语音识别方法及装置。
背景技术:
1、在线下多人对话的场景中,一般通过硬件的方式识别角色区分。方案为架设多个麦克风,获取不同麦克风的音频数据对转写后的结果绑定麦克风对应的说话人身份,以实现角色区分。这种方式一般造价高昂,并限制在线下的场景中,缺乏灵活性。
2、现有的语音识别技术,在多人对话的场景下转写生成的文档并不能做到标识角色和智能分段,这样保存的文档不利于整理和回顾,没有很大的价值。
3、基于此,本说明书提供一种新的语音识别方法。
技术实现思路
1、本申请实施例提供一种语音识别方法,用以解决如下问题:在多人对话的场景下,语音识别转写生成的文档并不能做到标识角色和智能分段,因此保存的文档不利于整理和回顾。
2、具体的,一种语音识别方法,包括以下步骤:
3、获取待识别的语音信息;
4、对所述待识别的语音信息进行分段处理,获得分段处理结果,其中,所述分段处理结果至少包括:人物序号及起止时间戳;
5、基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,所述语音组合结果包括多个人物序号分别对应的语音组合信息;
6、对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份;
7、将所述语音组合结果的文字提取结果与所述语音组合结果对应的人物身份进行绑定,获得语音识别结果。
8、本申请实施例还提供一种语音识别装置。
9、具体的,一种语音识别装置,包括:
10、获取模块,获取待识别的语音信息;
11、语音分离模块,对所述待识别的语音信息进行分段处理,获得分段处理结果,其中,所述分段处理结果至少包括:人物序号及起止时间戳;
12、组合模块,基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,所述语音组合结果包括多个人物序号分别对应的语音组合信息;
13、声纹匹配模块,对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份;
14、识别模块,将所述语音组合结果的文字提取结果与所述语音组合结果对应的人物身份进行绑定,获得语音识别结果。
15、本申请实施例提供的技术方案,至少具有如下有益效果:通过获取待识别的语音信息;对所述待识别的语音信息进行分段处理,获得分段处理结果,其中,所述分段处理结果至少包括:人物序号及起止时间戳;基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,所述语音组合结果包括多个人物序号分别对应的语音组合信息;对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份;将所述语音组合结果的文字提取结果与所述语音组合结果对应的人物身份进行绑定,获得语音识别结果,能够实现对音频进行智能分段、说话人确认的功能,提高识别的准确性,最终实现角色区分。
技术特征:1.一种语音识别方法,其特征在于,所述语音识别方法包括:
2.如权利要求1所述的语音识别方法,其特征在于,所述基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,进一步包括:
3.如权利要求1所述的语音识别方法,其特征在于,所述基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,具体包括:
4.如权利要求1所述的语音识别方法,其特征在于,所述对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份,具体包括:
5.如权利要求4所述的语音识别方法,其特征在于,所述将所述声纹识别结果与预设的声纹库进行匹配,获得所述语音组合结果对应的人物身份,具体包括:
6.如权利要求5所述的语音识别方法,其特征在于,所述声纹识别结果与所述预设的声纹库不匹配,则对不匹配的声纹识别结果进行人物身份命名,并存储于所述预设的声纹库中,以更新所述预设的声纹库,具体包括:
7.如权利要求6所述的语音识别方法,其特征在于,所述下阈值及所述上阈值是基于所述待识别的语音信息的场景及所述待识别的语音信息对应的语音输入装置而定的。
8.如权利要求1所述的语音识别方法,其特征在于,所述语音组合结果的文字提取结果是基于所述分段处理结果进行转写,获得词结果;
9.如权利要求8所述的语音识别方法,其特征在于,所述将所述词结果对应的起止时间戳与所述分段处理结果进行绑定,获得所述语音组合结果的文字提取结果,具体包括:
10.一种语音识别装置,其特征在于,所述语音识别装置包括:
技术总结本申请公开了一种语音识别方法及装置,该语音识别方法包括:获取待识别的语音信息;对所述待识别的语音信息进行分段处理,获得分段处理结果,其中,所述分段处理结果至少包括:人物序号及起止时间戳;基于所述分段处理结果,对所述待识别的语音信息进行拼接,获得语音组合结果,所述语音组合结果包括多个人物序号分别对应的语音组合信息;对所述语音组合结果进行声纹识别,确定所述语音组合结果对应的人物身份;将所述语音组合结果的文字提取结果与所述语音组合结果对应的人物身份进行绑定,获得语音识别结果。技术研发人员:苏传志,刘明,李雪受保护的技术使用者:北京华宇信息技术有限公司技术研发日:技术公布日:2024/1/22本文地址:https://www.jishuxx.com/zhuanli/20240618/21081.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表