说话人的语音识别方法、系统、电子设备及存储介质与流程
- 国知局
- 2024-06-21 11:40:03
本发明属于语音识别领域,尤其涉及一种说话人的语音识别方法、系统、电子设备及存储介质。
背景技术:
1、智能语音客服对客人或酒店识别出主说话人信息,屏蔽旁边人说话和搁置语音的技术需要满足几个特点:一、支持词级别时间戳和置信度输出的语音识别系统;二、支持词级别输入的自然语言断句模块;三、支持子句级别的声纹识别系统;四、上下文缓存技术。四是在一、二和三的基础上,需要应对多个用户的同时智能语音对话,构建一个子句级别的存储多用户的临时主说话人编码结果。目前在以上技术上,均有较为成熟的技术,但存在ota(online travel agency,在线旅游)行业场景词的识别问题,在主说话人信息提取、部分旁边人说话语音屏蔽、搁置语音信息屏蔽上并未涉及。
2、常见的旁边人说话检测和识别技术目前主流均是采用dns(deep noisesuppression,深度噪声抑制)的语音降噪方法,该方法是训练一个dns网络,采用传统的语音降噪技术对生产的真实语音进行语音降噪处理作为dns网络的输出,生产的真实语音作为dns网络的输入。最后在dns网络部署到生产过程中,直接将生产的真实原始语音作为dns网络的输入,dns网络的输出语音作为语音电话机器人的语音识别模型输入,而不是将当前语音对话机器人的原始语音作为语音识别模型输入。经过dns网络模型的处理的语音已经丢失了较为明显的主说话人信息,且该dns网络由于没有实际和真实的降噪前后的数据,只是采用模拟数据,对真实的生产数据缺乏一定的自适应性,且对场景多样性上效果较差,每个语音对话场景的语音环境的嘈杂程度不一,较难和真正的语音识别系统进行匹配。
3、综上,对于现有的在ota行业中面对低采样率8khz下的主说话人信息提取、旁边人说话语音屏蔽、搁置语音信息屏蔽的场景化问题,主要存在的技术难点在于:
4、1、支持词级别时间戳和置信度输出的语音识别系统、文本断句模块、声纹系统需要在指定电话机器人场景数据做一定的数据预标注样本支撑,且文本断句模块所需的数据多为短句式输入,原因是语音对话中客人或酒店多为说话较为简单型,直接使用原始的通用系统精度不高。
5、2、ota环境下的智能语音客服需克服嘈杂不一的低采样率8khz语音环境。
6、3、dns网络训练的数据仅仅是模拟数据,缺乏真实的生产数据的支持,且随着语音对话机器人的语音环境嘈杂程度不一,很难和现在抗噪性和鲁棒性更好的语音识别系统进行匹配,每个语音环境都需要一个类似的dns网络,迁移性较差。
7、4、ota智能语音客服面对的是千万级别量的语音客服请求和应答。
技术实现思路
1、本发明要解决的技术问题是为了克服现有技术中在旁边人说话的情况下不能有效识别主说话人的语音信息的缺陷,提供一种说话人的语音识别方法、系统、电子设备及存储介质。
2、本发明是通过下述技术方案来解决上述技术问题:
3、第一方面,提供一种说话人的语音识别方法,所述语音识别方法包括以下步骤:
4、获取目标音频,并对所述目标音频进行语音识别处理,得到目标文本;
5、根据语义对所述目标文本进行断句处理,得到至少两个子句文本;
6、对所述子句文本对应的子句音频进行声纹识别,得到所述子句音频的声纹信息;
7、根据所述子句音频的声纹信息以及所述子句文本与当前场景的关联度确定所述子句音频对应的说话人是否为主说话人。
8、可选地,所述根据语义对所述目标文本进行断句处理,得到至少两个子句文本的步骤具体包括:
9、将所述目标文本输入文本断句模型,得到至少两个子句文本;其中,所述文本断句模型用于提取所述目标文本的语义特征,并根据所述语义特征对所述目标文本进行断句处理。
10、可选地,根据以下步骤获取所述子句文本对应的子句音频:
11、获取所述目标文本中各个词语的时间戳;
12、根据所述词语的时间戳确定所述子句文本的时间戳;
13、根据所述子句文本的时间戳对所述目标音频进行拆分,得到所述子句文本对应的子句音频。
14、可选地,所述根据所述子句音频的声纹信息以及所述子句文本与当前场景的关联度确定所述子句音频对应的说话人是否为主说话人的步骤具体包括:
15、判断所述子句音频的声纹信息与预存的声纹信息是否一致;
16、若一致,则获取所述子句文本与当前场景的关联度;
17、若所述关联度表征所述子句文本与当前场景相关联,则确定所述子句音频对应的说话人为主说话人。
18、第二方面,提供一种识别说话人的语音识别系统,所述语音识别系统包括:文本识别模块、文本断句模块、声纹识别模块以及说话人判断模块;
19、所述文本识别模块用于获取目标音频,并对所述目标音频进行语音识别处理,得到目标文本;
20、所述文本断句模块用于根据语义对所述目标文本进行断句处理,得到至少两个子句文本;
21、所述声纹识别模块用于对所述子句文本对应的子句音频进行声纹识别,得到所述子句音频的声纹信息;
22、所述说话人判断模块用于根据所述子句音频的声纹信息以及所述子句文本与当前场景的关联度确定所述子句音频对应的说话人是否为主说话人。
23、可选地,所述文本断句模块还用于将所述目标文本输入文本断句模型,得到至少两个子句文本;其中,所述文本断句模型用于提取所述目标文本的语义特征,并根据所述语义特征对所述目标文本进行断句处理。
24、可选地,所述语音识别系统还包括音频拆分模块;用于获取所述目标文本中各个词语的时间戳,并根据所述词语的时间戳确定所述子句文本的时间戳,以及根据所述子句文本的时间戳对所述目标音频进行拆分,得到所述子句文本对应的子句音频。
25、可选地,所述说话人判断模块具体用于判断所述子句音频的声纹信息与预存的声纹信息是否一致,并在一致的情况下获取所述子句文本与当前场景的关联度,以及在所述关联度表征所述子句文本与当前场景相关联的情况下,确定所述子句音频对应的说话人为主说话人。
26、第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的说话人的语音识别方法。
27、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的说话人的语音识别方法。
28、在符合本领域常识的基础上,上述各可选条件可任意组合,即得本发明各较佳实施例。
29、本发明的积极进步效果在于:本发明通过提供一种说话人的语音识别方法、系统、电子设备及存储介质,对音频进行声纹信息识别和场景主题相关度的识别,解决了ota行业中的智能语音客服在语音对话过程中的旁边人说话下的干扰对话问题,提高了语音对话中的交互舒适度。
技术特征:1.一种说话人的语音识别方法,其特征在于,所述语音识别方法包括以下步骤:
2.如权利要求1所述的语音识别方法,其特征在于,所述根据语义对所述目标文本进行断句处理,得到至少两个子句文本的步骤具体包括:
3.如权利要求2所述的语音识别方法,其特征在于,根据以下步骤获取所述子句文本对应的子句音频:
4.如权利要求1-3中任一项所述的语音识别方法,其特征在于,所述根据所述子句音频的声纹信息以及所述子句文本与当前场景的关联度确定所述子句音频对应的说话人是否为主说话人的步骤具体包括:
5.一种识别说话人的语音识别系统,其特征在于,所述语音识别系统包括:文本识别模块、文本断句模块、声纹识别模块以及说话人判断模块;
6.如权利要求5所述的语音识别系统,其特征在于,所述文本断句模块具体用于将所述目标文本输入文本断句模型,得到至少两个子句文本;其中,所述文本断句模型用于提取所述目标文本的语义特征,并根据所述语义特征对所述目标文本进行断句处理。
7.如权利要求6所述的语音识别系统,其特征在于,所述语音识别系统还包括音频拆分模块,用于获取所述目标文本中各个词语的时间戳,并根据所述词语的时间戳确定所述子句文本的时间戳,以及根据所述子句文本的时间戳对所述目标音频进行拆分,得到所述子句文本对应的子句音频。
8.如权利要求5-7中任一项所述的语音识别系统,其特征在于,所述说话人判断模块具体用于判断所述子句音频的声纹信息与预存的声纹信息是否一致,并在一致的情况下获取所述子句文本与当前场景的关联度,以及在所述关联度表征所述子句文本与当前场景相关联的情况下,确定所述子句音频对应的说话人为主说话人。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的说话人的语音识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的说话人的语音识别方法。
技术总结本发明公开了一种说话人的语音识别方法、系统、电子设备及存储介质。该语音识别方法包括:获取目标音频,并对所述目标音频进行语音识别处理,得到目标文本;根据语义对所述目标文本进行断句处理,得到至少两个子句文本;对所述子句文本对应的子句音频进行声纹识别,得到所述子句音频的声纹信息;根据所述子句音频的声纹信息以及所述子句文本与当前场景的关联度确定所述子句音频对应的说话人是否为主说话人。通过对音频进行声纹信息识别和场景主题相关度的识别,判断音频对应的说话人是否为主说话人,解决了旁边人说话的干扰问题,提高了语音对话中的交互舒适度。技术研发人员:郝竹林,罗超,张威,陈文浩,张启祥,张泽,任君,周明康,江小林受保护的技术使用者:携程旅游网络技术(上海)有限公司技术研发日:技术公布日:2024/3/31本文地址:https://www.jishuxx.com/zhuanli/20240618/22779.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表