技术新讯 > 乐器声学设备的制造及制作,分析技术 > 唤醒语音识别方法、装置、电子设备及存储介质与流程 > 正文

唤醒语音识别方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:52:17

本申请涉及语音处理，尤其涉及一种唤醒语音识别方法、装置、电子设备及存储介质。

背景技术：

1、语音唤醒通过理解用户的语音数据，达到唤醒智能终端的目的。相比于语音识别，语音唤醒与其最重要的区别是在识别唤醒词的同时，需要严格避免非唤醒词的语音将智能终端唤醒。

2、现有方法一般在唤醒词识别之后，会进行唤醒词的确认，具体确认时，根据唤醒词识别过程中分别识别为唤醒词和非唤醒词的声学似然度值，计算识别为唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比，当所述似然比大于阈值时，则认为识唤醒词识别结果可信，唤醒成功，否则唤醒失败。然而，当更换唤醒词或唤醒词的使用场景时，往往需要重新做大量实验来确定唤醒词声学似然比阈值，代价较高，并且如果唤醒词声学似然比阈值设置不当，容易造成唤醒词识别结果准确的情况下，唤醒失败的情况，降低了唤醒成功的准确度。

技术实现思路

1、基于上述技术现状，本申请提出一种唤醒语音识别方法、装置、电子设备及存储介质，其中包含了与现有技术完全不同的唤醒语音识别方案，能够提高唤醒语音识别的准确度和识别效率。

2、为了达到上述技术目的，本申请提出如下具体方案：

3、本申请第一方面提出一种唤醒语音识别方法，包括：

4、基于待识别语音的声学特征，从模型集合中确定出与所述声学特征适配的建模模型，并利用所述建模模型对所述声学特征进行特征建模处理，得到建模声学特征；所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型；

5、基于所述建模声学特征，从所述待识别语音中识别唤醒语音。

6、本申请第二方面提出一种唤醒语音识别装置，包括：

7、特征建模单元，用于基于待识别语音的声学特征，从模型集合中确定出与所述声学特征适配的建模模型，并利用所述建模模型对所述声学特征进行特征建模处理，得到建模声学特征；所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型；

8、唤醒识别单元，用于基于所述建模声学特征，从所述待识别语音中识别唤醒语音。

9、本申请第三方面提出一种电子设备，包括存储器和处理器；

10、所述存储器与所述处理器连接，用于存储程序；

11、所述处理器用于通过运行所述存储器中的程序，实现上述的唤醒语音识别方法。

12、本申请第四方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的唤醒语音识别方法。

13、基于上述第一方面至第四方面中的任意一方面可知，本申请提出的唤醒语音识别方案预先设置了用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。在此基础上，根据待识别语音的声学特征从唤醒语音的建模模型和非唤醒语音的建模模型中选取与待识别语音的声学特征适配的建模模型，用于对待识别模型的声学特征进行声学特征建模处理，得到建模声学特征。该处理过程将对唤醒语音的特征建模以及对非唤醒语音的特征建模通过不同的模型单独实现，使得对唤醒语音的特征建模以及对非唤醒语音的特征建模均更加准确。在此基础上，选择与待识别语音的声学特征适配的建模模型对待识别语音的声学特征进行建模，能够使得待识别语音的声学特征中的唤醒语音特征部分更加有利于识别唤醒语音，以及使得非唤醒语音特征部分更加有利于识别非唤醒语音，进而，基于建模后的声学特征，能够更加准确地从待识别语音中识别唤醒语音。

14、而且，本申请实施例提出的唤醒语音识别方案可以直接准确识别唤醒语音，不需要在识别唤醒词后再对唤醒词进行确认，其识别效率更高，而且能够避免由于对唤醒词的确认失败导致唤醒语音识别失败。

技术特征：

1.一种唤醒语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述模型集合包括第一模型集合和第二模型集合，所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，在基于待识别语音的声学特征，从模型集合中确定出与所述声学特征适配的建模模型之前，所述方法还包括：

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一类型非唤醒语音包括不包含唤醒词的语音，所述第二类型非唤醒语音包括不包含语音内容的音频。

8.根据权利要求1至5中任意一项所述的方法，其特征在于，基于所述建模声学特征，从所述待识别语音中识别唤醒语音，包括：

9.根据权利要求8所述的方法，其特征在于，基于所述建模声学特征，对所述待识别语音的语音帧进行音素分类，得到分类结果，包括：

10.根据权利要求1所述的方法，其特征在于，基于待识别语音的声学特征，从模型集合中确定出与所述声学特征适配的建模模型，并利用所述建模模型对所述声学特征进行特征建模处理，得到建模声学特征，包括：

11.根据权利要求10所述的方法，其特征在于，所述声学特征模型还包括：

12.根据权利要求11所述的方法，其特征在于，所述模型集合包括第一模型集合和第二模型集合，所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型；

13.根据权利要求12所述的方法，其特征在于，所述声学特征模型还包括共享编码器、第一共享特征层和第二共享特征层；

14.根据权利要求13所述的方法，其特征在于，所述声学特征模型还包括分类层，用于基于所述建模声学特征，对所述待识别语音的语音帧进行音素分类处理。

15.根据权利要求10至14中任意一项所述的方法，其特征在于，所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型，包括：

16.根据权利要求12至14中任意一项所述的方法，其特征在于，所述声学特征模型的训练过程包括：

17.一种唤醒语音识别装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括存储器和处理器；

19.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至16中任意一项所述的唤醒语音识别方法。

技术总结本申请提出一种唤醒语音识别方法、装置、电子设备及存储介质，该方法包括：基于待识别语音的声学特征，从模型集合中确定出与所述声学特征适配的建模模型，并利用所述建模模型对所述声学特征进行特征建模处理，得到建模声学特征；所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型，以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型；基于所述建模声学特征，从所述待识别语音中识别唤醒语音。上述方案能够提高唤醒语音识别的准确度和识别效率。技术研发人员：徐文娜,申凯,熊世富,潘嘉,高建清,刘聪受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/5/16