技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音唤醒词的识别方法与流程  >  正文

一种语音唤醒词的识别方法与流程

  • 国知局
  • 2024-06-21 11:49:49

本发明涉及语音识别,具体而言,涉及一种语音唤醒词的识别方法。

背景技术:

1、语音唤醒词识别指的是通过用户说出指定的词语,来唤醒某种设备、某个程序。

2、现有技术在对语音唤醒词的识别时,主要的方法是,将待识别语音进行移动滑窗,得到每一个的语音片段,然后对每一个语音片段进行识别。在识别的时候,算法就需要对每个语音片段进行数据预处理然后进行识别,从而知道该语音片段是不是唤醒词。因此这个语音唤醒词识别的模型会一直在做着识别任务,全程的识别会导致程序的计算量的增加,需要更加多的计算资源进行计算;同时由于一直在进行识别计算,所以模型的训练需要更加多、更加复杂的样本进行训练,进而适应更加多的使用场景。由此可见,现有技术在对语音唤醒词进行识别时未对是否需要对每个窗口进行识别的问题进行考虑。

3、因此,亟需一种语音唤醒词的识别方法。

技术实现思路

1、本申请的主要目的在于提供一种语音唤醒词的识别方法,以至少解决现有技术中的语音唤醒词识别模型一直处于识别状态和由于模型实时识别导致的模型训练所需要的大量样本数的问题。

2、为实现上述目的,根据本申请的一个方面,提供了一种语音唤醒词的识别方法,包括:获取语音数据,采用移动滑窗方法对语音数据进行切片,得到待处理的语音片段;

3、将待处理的语音片段进行标准化处理后与标准化后的已知唤醒词语音进行相关性计算,对相关性值与设定的阈值进行比较,若相关性值大于阈值,则从待处理的语音片段提取特征,根据所述特征进行唤醒词识别;反之则继续监测后续的语音片段。

4、可选地,从待处理的语音片段提取特征包括:对待处理的语音片段进行fbank特征提取,得到初始特征;将初始特征进行均值方差归一化后,得到最终特征,最终特征为待处理的语音片段提取的特征。

5、可选地,唤醒词识别包括:将最终特征输入语音唤词识别模型,通过语音唤醒词模型判断是否为唤醒词。

6、根据本申请的再一方面,还提供了一种语音唤醒词的识别装置,包括:

7、语音分段模块,用于获取语音数据,采用移动滑窗方法对语音数据进行切片,得到待处理的语音片段;

8、唤醒词相关性计算模块,用于将待处理的语音片段进行标准化处理后与标准化后的已知唤醒词语音进行相关性计算,对相关性值与设定的阈值进行比较;在相关性值小于阈值时,继续监测后续的语音片段;

9、语音特征工程模块,用于在相关性值大于阈值时,从待处理的语音片段提取特征;

10、唤醒词识别模块,用于在语音特征工程模块提取特征,根据所述特征进行唤醒词识别。

11、可选地,从待处理的语音片段提取特征包括:对待处理的语音片段进行fbank特征提取,得到初始特征;将初始特征进行均值方差归一化后,得到最终特征,最终特征为待处理的语音片段提取的特征。

12、可选地,唤醒词识别包括:将最终特征输入语音唤词识别模型,通过语音唤醒词模型判断是否为唤醒词。

13、根据本申请的一方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一项一种所述的语音唤醒词的识别方法。

14、根据本申请的又一个方面,一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行任意一项一种所述的语音唤醒词的识别方法。

15、与现有的技术相比,本发明具有如下有益效果:

16、应用本申请的技术方案,本发明提供一种新的语音唤醒词识别方法,通过获取语音数据,采用移动滑窗方法对语音数据进行切片,得到待处理的语音片段;将待处理的语音片段进行标准化处理后与标准化后的已知唤醒词语音进行相关性计算,对相关性值与设定的阈值进行比较,若相关性值大于阈值,则从待处理的语音片段提取特征,根据所述特征进行唤醒词识别;反之则继续监测后续的语音片段。

17、通过对待检测语音片段与唤醒词语音进行了相关性计算,所以会把很多相关性很低的语音片段过滤掉,所以可以减少语音唤醒词模型识别的次数,从而可以降低设备运行的功耗。由于通过相关性的计算已经过滤了一部分的语音数据,所以在模型训练的时候,可以减少负样本的类别,减少训练样本的数量。因此,本发明可以让语音唤醒词识别模型不用一直处于识别状态,同时减少识别模型训练样本的方法。

技术特征:

1.一种语音唤醒词的识别方法,其特征在于,包括:

2.根据权利要求1所述的语音唤醒词的识别方法,其特征在于,从待处理的语音片段提取特征包括:对待处理的语音片段进行fbank特征提取,得到初始特征;将初始特征进行均值方差归一化后,得到最终特征,最终特征为待处理的语音片段提取的特征。

3.根据权利要求2所述的语音唤醒词的识别方法,其特征在于,唤醒词识别包括:将最终特征输入语音唤词识别模型,通过语音唤醒词模型判断是否为唤醒词。

4.一种语音唤醒词的识别装置,其特征在于,包括:

5.根据权利要求4所述的语音唤醒词的识别装置,其特征在于,从待处理的语音片段提取特征包括:对待处理的语音片段进行fbank特征提取,得到初始特征;将初始特征进行均值方差归一化后,得到最终特征,最终特征为待处理的语音片段提取的特征。

6.根据权利要求5所述的语音唤醒词的识别装置,其特征在于,唤醒词识别包括:将最终特征输入语音唤词识别模型,通过语音唤醒词模型判断是否为唤醒词。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至3中任意一项所述的语音唤醒词的识别方法。

8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至3中任意一项所述的语音唤醒词的识别方法。

技术总结本发明公开了一种语音唤醒词的识别方法,属于语音识别技术领域,该方法包括:通过获取语音数据,采用移动滑窗方法对语音数据进行切片,得到待处理的语音片段;将待处理的语音片段进行标准化处理后与标准化后的已知唤醒词语音进行相关性计算,对相关性值与设定的阈值进行比较,若相关性值大于阈值,则从待处理的语音片段提取特征,根据所述特征进行唤醒词识别;反之则继续监测后续的语音片段。本发明可以让语音唤醒词识别模型不用一直处于识别状态,同时减少识别模型训练样本的方法。技术研发人员:黄文新,高健,李昌金受保护的技术使用者:中国—东盟信息港股份有限公司技术研发日:技术公布日:2024/5/8

本文地址:https://www.jishuxx.com/zhuanli/20240618/23826.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。