一种终端设备及语音结束端点的检测方法与流程
- 国知局
- 2024-06-21 11:41:49
本技术一些实施例涉及语音识别,尤其涉及一种终端设备及语音结束端点的检测方法。
背景技术:
1、通过终端设备可以执行语音识别、语音交互等功能。在执行语音识别、语音交互等功能时,需要判断语音输入的起始端点和结束端点,即检测语音的端点。例如,在一些近场场景下,可以通过判断用户是否松开语音按钮的方式判断语音的起始端点和结束端点。例如,用户按下语音按钮时,为语音的起始端点,用户松开语音按钮时,为语音的结束端点。但是,对于中场或远场的场景,用户与终端设备没有近距离的物理接触,则无法检测出语音的起始端点和结束端点。
2、为了检测出语音的起始端点和结束端点,可以通过设置阈值或使用机器学习的算法来判断语音的起始端点和结束端点。在一些可行的实施方式中,可以使用语音端点检测的方法,但是该方法并不能判断用户输入的语音是否已经说完,也就是说,语音端点检测的方法并不能检测出语音的真正结束点。例如,在通过语音端点检测方式判断语音的结束端点时,语音中单词的停顿可能会被判定为语音结束的端点,从而导致过早地结束语音服务,针对此种情况,用户需不断重复唤醒语音服务,进而影响用户体验。
3、为了避免过早结束语音的情况,可以增加缓冲时间。例如,在判断语音的结束端点时,可以设定如下规则,在语音结束端点后的一段时间内,没有新的起始端点后才能结束语音服务。但是,在该种情况下,部分环境噪声可能会被识别为语音的起始端点,从而导致语音服务一直处于开启状态,这样会占用内存资源,同时还会泄漏用户隐私。因此,通过上述方式判断语音的结束端点时,存在语音结束端点判断不准确的问题。
技术实现思路
1、本技术一些实施例提供一种终端设备及语音结束端点的检测方法,以解决判断语音的结束端点时,存在语音结束端点判断不准确的问题。
2、第一方面,本技术一些实施例提供一种终端设备,包括:
3、存储器,所述存储器中存储有程序指令;
4、处理器,所述处理器通过运行所述程序指令,被配置为:
5、获取输入的语音数据,以及,对所述语音数据执行分帧处理,得到多个音频帧;相邻的两个所述音频帧之间存在重复片段;
6、提取所述音频帧中的音频特征,以及基于所述音频特征计算所述音频帧的特征值;
7、检测所述特征值中的语音特征,以及根据语音特征检测结果计算所述特征值的积分值;
8、根据所述积分值标记所述语音数据的语音结束端点。
9、在一些实施例中,所述控制器执行提取所述音频帧中的音频特征,以及基于所述音频特征计算所述音频帧的特征值的步骤,进一步被配置为:
10、提取所述音频特征中的语音信号;
11、对所述语音信号执行短时傅里叶变换,以生成所述音频帧的频域信号;
12、对所述频域信号执行平方计算,得到功率谱;
13、将所述功率谱通过一组梅尔滤波器,得到一个滤波器输出,以及将所述频域信号中的频率轴划分为多个频带,每个所述频带对应一个所述滤波器输出;
14、对每个所述频带的能量取对数,得到对数能量谱;
15、对所述对数能量谱执行离散余弦变换,得到梅尔频率倒谱系数,以及将所述梅尔频率倒谱系数作为所述音频帧的特征值。
16、在一些实施例中,所述控制器执行检测所述特征值中的语音特征,以及根据语音特征检测结果计算所述特征值的积分值的步骤,进一步被配置为:
17、设置所述积分值的初始值;
18、通过多个判别器检测所述特征值中的语音特征,并输出对所述语音特征的检测结果;所述检测结果包括存在语音特征和不存在语音特征;
19、如果所述检测结果为所述存在语音特征,将所述初始值与所述判别器的权值相减,作为所述判别器的过程积分值;以及计算所述过程积分值的积分和,以生成所述特征值的积分值;
20、如果所述检测结果为所述不存在语音特征,将所述初始值与所述判别器的权值相加,作为所述判别器的过程积分值;以及计算所述过程积分值的积分和,以生成所述特征值的积分值。
21、在一些实施例中,所述控制进一步被配置为:
22、获取预设数量的测试音频,所述测试音频的语种与所述语音数据的语种相同;
23、通过所述测试音频计算所述判别器的准确率;
24、设置预设准确率,以及按照所述预设准确率筛选出有效准确率;
25、基于所述有效准确率计算所述判别器的权值。
26、在一些实施例中,所述控制执行根据所述积分值标记所述语音数据的语音结束端点的步骤,进一步被配置为:
27、累加所述积分值,以生成所述语音数据的总积分值;
28、如果所述总积分值大于积分阈值,确定用户输入的语音数据已输入完成,以及确定所述语音中的最后一个端点为语音结束端点;
29、如果所述总积分值小于或等于所述积分阈值,确定用户输入的语音数据未输入完成,以及累加所述积分值以生成所述语音数据的总积分值。
30、在一些实施例中,所述控制进一步被配置为:
31、获取音频帧中目标帧的帧长和步长;
32、计算所述帧长和所述步长的差值,以生成差值帧;
33、提取所述差值帧对应的音频帧片段,以生成两个所述音频帧之间的重复片段。
34、在一些实施例中,所述控制进一步被配置为:
35、搭建用于检测语音结束端点的结束检测模型;所述结束检测模型中包括主服务;所述主服务用于执行语音识别以及检测语音结束端点;
36、获取所述结束检测模型的预训练权值;
37、将所述主服务的前两层的权值添加至所述结束检测模型;
38、加载所述语音数据中的音频帧,通过所述结束检测模型以二分类任务训练目标卷积神经网络层和全连接层;
39、通过所述结束检测模型输出所述音频帧为语音特征的概率。
40、在一些实施例中,所述控制进一步被配置为:
41、获取所述结束检测模型的模型结构;
42、在所述模型结构中嵌入学习块,所述学习块包括自注意力层和归一化层。
43、在一些实施例中,所述控制进一步被配置为:
44、获取所述结束检测模型中用于检测语音结束端点的语音端点检测任务;
45、基于所述语音端点检测任务获取所述结束检测模型的模型参数;
46、在所述结束检测模型中创建语种识别任务;
47、通过所述语音端点检测任务和所述语种识别任务训练所述结束检测模型,以及向所述语种识别任务共享所述模型参数,以使所述语种识别任务学习语种特征;
48、将所述语种特征输入到用于检测所述语音数据结束的结束检测任务中。
49、第二方面,本技术一些实施例提供一种语音结束端点的检测方法,可以应用于第一方面的终端设备,所述语音结束端点的检测方法包括:
50、获取输入的语音数据,以及,对所述语音数据执行分帧处理,得到多个音频帧;相邻的两个所述音频帧之间存在重复片段;
51、提取所述音频帧中的音频特征,以及基于所述音频特征计算所述音频帧的特征值;
52、检测所述特征值中的语音特征,以及根据语音特征检测结果计算所述特征值的积分值;
53、根据所述积分值标记所述语音数据的语音结束端点。
54、由以上技术方案可知,本技术一些实施例提供一种终端设备及语音结束端点的检测方法,所述终端设备首先获取输入的语音数据,以及,对语音数据执行分帧处理,得到多个音频帧;其中,相邻的两个音频帧之间存在重复片段;之后提取音频帧中的音频特征,以及基于音频特征计算音频帧的特征值;再检测特征值中的语音特征,以及根据语音特征检测结果计算特征值的积分值;最后根据积分值标记语音数据的语音结束端点。所述终端设备可以基于语音的特征值结合积分机制判断语音数据是否结束,从而准确的判断出语音结束端点,进而解决判断语音的结束端点时,存在语音结束端点判断不准确的问题。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22976.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表