基于端到端的智能语音断句方法、系统、设备及存储介质与流程
- 国知局
- 2024-06-21 11:53:19
本发明实施例涉及语音识别,具体涉及一种基于端到端的智能语音断句方法、系统、设备及存储介质。
背景技术:
1、随着人工智能技术的发展,语音识别系统已经广泛应用于电话客服、聊天社交、机器人等场景,在实际应用中需要先对用户的语音数据流进行断句,再对断句后的语音片段进行语音识别。一个高性能的语音断句方案,能够有效的提高语音识别系统的性能和效果,进而提高用户体验。
2、目前,常用的语音断句方法是基于能量判决。即通过预设的能量阈值判断语音帧的能量值是否为静音帧,若检测到出现连续静音帧超过预设的最大静音时长,则对语音进行断句处理。
3、但是,由于实际场景的多变性、不同语言用户说话习惯的差异,使用常用的断句方法很难保证断句片段语义的完整性,同时在较嘈杂的环境下容易导致断句失效,影响语音识别模型的性能。
技术实现思路
1、为此,本发明实施例提供一种基于端到端的智能语音断句方法、系统、设备及存储介质,以解决现有技术中当遇到复杂场景或嘈杂环境时难以准确断句的技术问题。
2、为了实现上述目的,本发明实施例提供如下技术方案:
3、根据本发明实施例的第一方面,提供了一种基于端到端的智能语音断句方法,所述方法应用于端到端大模型,其包括:
4、实时获取用户输入的语音数据流片段并从所述语音数据流片段中提取音频流片段特征并根据所述音频流片段特征获取音频信息;
5、利用端到端大模型持续获取音频信息的静音标识序列/非静音标识序列并缓存音频流片段标识;
6、通过策略判决是否出现满足音频断句条件,如果在预设时间内满足语音断句条件,则输出音频断句结果及其缓存音频流片段;
7、如果在预设时间内未满足语音断句条件,则通过语义分析模型对语音识别的结果进行语义分析,获取最佳文本断句位置,根据所述最佳文本断句位置获取音频断句结果及其缓存音频流片段。
8、进一步地,利用端到端大模型持续获取音频信息的静音标识序列/非静音标识序列并缓存音频流片段标识,包括:
9、根据所述静音标识序列/非静音标识序列获取对应的模型预测序列;
10、对各个包含静音标识序列和非静音标识序列的模型预测序列进行计算,获取断句位置;
11、根据对应断句位置获取缓存音频与缓存音频流片段标识,所述缓存音频用于下次音频断句;
12、获取缓存音频的时长,根据所述时长和所述断句位置确定策略判决结果。
13、进一步地,通过策略判决是否出现满足音频断句条件,包括:
14、从策略判决中获取预设阈值与模型预测序列中出现的连续静音标识数;
15、根据所述预设阈值进行策略判决,判断所述连续静音标识数是否超过预设阈值;
16、如果所述连续静音标识数超过预设阈值,则此时存在断句位置;
17、如果所述连续静音标识数未超过预设阈值,则此时不存在断句位置。
18、进一步地,通过策略判决是否出现满足音频断句条件,还包括:
19、根据策略判决的结果检测断句开始位置,如果音频开始位置的连续静音标识数超过特定阈值,则过滤掉连续静音标识并重新确定断句开始位置;
20、根据策略判决的结果检测断句结束位置,如果模型预测序列中出现连续静音标识数超过特定阈值的情况时,获取出现连续静音标识的开始位置,利用平滑长度延长断句位置。
21、进一步地,根据对应断句位置获取缓存音频与缓存音频流片段标识,包括:
22、根据模型预测序列的长度获取模型预测序列中每个标识对应的时间长度;
23、其中,模型预测序列中的每个标识对应一个固定的音频时间长度;
24、根据模型预测序列中断句开始位置、结束位置与模型预测序列中每个标识对应的时间长度,计算获取音频断句位置的开始时间点和结束时间点;
25、根据音频断句位置的开始时间点和结束时间点,将当前音频流片断切分为过滤音频、断句音频、缓存音频;
26、其中,所述过滤音频为音频流片断中的无效音频,所述断句音频为本发明获取的音频断句的结果。
27、进一步地,判断是否需要利用语义分析模型的结果进行音频断句,包括:
28、根据策略判决中缓存音频配置预设时长,其中预设时长用于控制缓存音频的时长;
29、判断缓存音频时长是否超过预设时长;
30、如果缓存音频时长超过预设时长,则需要语义分析模型的结果获取音频断句位置;
31、如果缓存音频时常未超过预设时常,则不需要语义分析模型的结果获取音频断句位置。
32、进一步地,通过语义分析模型对语音识别的结果进行语义分析,获取最佳文本断句位置,根据所述最佳文本断句位置获取音频断句结果及其缓存音频流片段,包括:
33、根据缓存音频流片段,获取语音识别的文本及词时间点结果;
34、根据各所述的语音识别的文本结果,获取语义分析模型的结果,所述语义分析模型的结果用于获取文本最佳断句位置;
35、根据所述文本最佳断句位置及语音识别的词时间点结果,获取音频断句的开始时间点和结束时间点;
36、根据所述音频断句的开始时间点和结束时间点,获取音频断句的结果及缓存的音频片段;
37、其中,所述语音识别的文本结果用于进行语义完整性的分析,所述语音识别的词时间为语音识别的文本中,每个词在音频流片段中出现的时间点;所述音频断句的开始时间点为缓存音频流片段的音频开始位置,音频断句的结束时间点为文本最佳断句位置对应的语音识别的词时间点。
38、根据本发明实施例的第二方面,提供了一种基于端到端的智能语音断句系统,所述系统包括:
39、音频获取模块,用于接收新的音频流片段,并缓存音频流片段;
40、特征提取模块,用于提取音频流片段的信息,该信息用于端到端模型区分人声和非人声;
41、模型断句模块,用于获取端到端模型的预测结果,包括静音及非静音标示的序列;
42、策略判决模块,用于判决端到端模型的预测结果是否满足判决条件;
43、语音识别模块,用于当策略判决模块缓存的音频时长超过预设时长时,获取语音识别的结果,包括语音识别的文本信息及词时间点;
44、语义分析模块,用于利用语音识别的结果及语音分析模型进行辅助音频断句,通过获取音频断句的最佳位置,获取音频断句的结果及其缓存的音频片段。
45、根据本发明实施例的第三方面,提供了一种基于端到端的智能语音断句设备,所述设备包括:处理器和存储器;
46、所述存储器用于存储一个或多个程序指令;
47、所述处理器,用于运行一个或多个程序指令,用以执行如上任一项所述的一种基于端到端的智能语音断句方法的步骤。
48、根据本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述一种基于端到端的智能语音断句方法的步骤。
49、本发明实施例具有如下优点:
50、本发明实施例实时获取用户输入的语音数据流片段并从所述语音数据流片段中提取音频流片段特征并根据所述音频流片段特征获取音频信息;利用端到端大模型持续获取音频信息的静音标识序列/非静音标识序列并缓存音频流片段标识;通过策略判决是否出现满足音频断句条件,如果在预设时间内满足语音断句条件,则输出音频断句结果及其缓存音频流片段;如果在预设时间内未满足语音断句条件,则通过语义分析模型对语音识别的结果进行语义分析,获取最佳文本断句位置,根据所述最佳文本断句位置获取音频断句结果及其缓存音频流片段。本发明实施例能够适应不同用户的语言表达习惯,保证断句的完整性、提升语音识别性能,在面对复杂的实际环境时,利用神经网络模型进行语义分析辅助断句,能够有效的避免音频断句失效的情况,保证语音识别性能的稳定性及识别内容的可靠性。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24286.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表