技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音唤醒方法、装置、设备及介质与流程 > 正文

一种语音唤醒方法、装置、设备及介质与流程

国知局
2024-06-21 11:30:56

本发明涉及语音识别，尤其是涉及一种语音唤醒方法、装置、终端设备及计算机可读存储介质。

背景技术：

1、语音唤醒是智能语音领域的重要研究方向，语音唤醒的过程为在连续的语音中实时检测用户说出的特定唤醒词，将处于低运算量的电子设备从休眠状态转换为高运算量的激活状态，然后电子设备开始执行语音识别功能，其中，在电力调度领域，语音识别功能具有广泛的应用场景。由于电力调度场景具有噪音干扰大的特点，而现有的语音唤醒方法通常采用基于噪音干扰小的训练语料训练而获得的语音唤醒模型来实现语音唤醒功能，使得现有技术在电力调度场景下的误唤醒率高。

技术实现思路

1、本发明提供一种语音唤醒方法、装置、设备及介质，通过基于电力调度场景语料库训练所获得的声学模型进行语音唤醒识别，能够降低在噪音干扰大的电力调度场景下语音唤醒的误唤醒率，此外，通过利用正交时延神经网络、深度神经网络和长短期记忆网络联合构建神经网络模型，能够融合待识别语音的前后文信息，提高了语音唤醒的识别精度。

2、为了解决上述技术问题，本发明实施例第一方面提供一种语音唤醒方法，包括如下步骤：

3、当检测到待识别语音时，对所述待识别语音进行预处理，并提取预处理后的待识别语音的声学特征；

4、将所述声学特征输入至预设的声学模型，通过所述声学模型输出所述声学特征所对应的音素状态后验概率，并根据所述音素状态后验概率确定音素状态序列；

5、基于预设的发音词典和所述音素状态序列，利用基于令牌的维比特解码方式对所述待识别语音进行解码，当识别到所述待识别语音中存在预设唤醒词时，触发待唤醒设备进行唤醒状态；

6、其中，所述声学模型由基于预设的电力调度场景语料库训练所获得的隐马尔可夫模型和神经网络模型组成；所述神经网络模型包括正交时延神经网络、深度神经网络和长短期记忆网络。

7、作为优选方案，所述方法具体通过如下步骤训练所述隐马尔可夫模型：

8、分别采用一个包含四个状态的第一hmm模型、一个单状态的第二hmm模型和一个单状态的第三hmm模型对所述预设唤醒词、非唤醒文本和静音音素进行建模，获得未训练的隐马尔可夫模型；

9、对所述电力调度场景语料库所包含的语音数据进行预处理，并提取预处理后的语音数据的声学特征，利用所述预处理后的语音数据的声学特征对所述未训练的隐马尔可夫模型进行训练，获得所述隐马尔可夫模型。

10、作为优选方案，所述方法具体通过如下步骤训练所述神经网络模型：

11、利用所述预处理后的语音数据的声学特征对未训练的神经网络模型进行训练，并在训练过程中将所述隐马尔可夫模型所包含的各个状态关联至所述未训练的神经网络模型的输出节点，通过反向传播算法对所述未训练的神经网络模型的模型参数进行更新，获得所述神经网络模型。

12、作为优选方案，所述神经网络模型具体由线性映射层、20层所述正交时延神经网络、3层所述深度神经网络、2层所述长短期记忆网络、归一化层和输出层组成。

13、作为优选方案，所述对所述待识别语音进行预处理，具体为：

14、对所述待识别语音进行预加重处理、分帧处理和加窗处理。

15、作为优选方案，所述对所述电力调度场景语料库所包含的语音数据进行预处理，具体为：

16、对所述电力调度场景语料库所包含的语音数据进行预加重处理、分帧处理和加窗处理。

17、作为优选方案，所述方法具体通过如下步骤构建所述电力调度场景语料库：

18、在预设的电力调度模拟场景下采集来自不同说话人的若干语音数据，并根据若干所述语音数据构建所述电力调度场景语料库；其中，所述电力调度模拟场景具体为具有不同电力调度场景噪音类型的模拟噪音的场景；所述电力调度场景噪音类型包括交流电噪音、机械噪音和环境噪音；所述模拟噪音的强度为40分贝～80分贝。

19、本发明实施例第二方面提供一种语音唤醒装置，包括：

20、声学特征提取模块，用于当检测到待识别语音时，对所述待识别语音进行预处理，并提取预处理后的待识别语音的声学特征；

21、音素识别模块，用于将所述声学特征输入至预设的声学模型，通过所述声学模型输出所述声学特征所对应的音素状态后验概率，并根据所述音素状态后验概率确定音素状态序列；

22、解码模块，用于基于预设的发音词典和所述音素状态序列，利用基于令牌的维比特解码方式对所述待识别语音进行解码，当识别到所述待识别语音中存在预设唤醒词时，触发待唤醒设备进行唤醒状态；

23、其中，所述声学模型由基于预设的电力调度场景语料库训练所获得的隐马尔可夫模型和神经网络模型组成；所述神经网络模型包括正交时延神经网络、深度神经网络和长短期记忆网络。

24、本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的语音唤醒方法。

25、本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的语音唤醒方法。

26、相比于现有技术，本发明实施例的有益效果在于，通过基于电力调度场景语料库训练所获得的声学模型进行语音唤醒识别，能够降低在噪音干扰大的电力调度场景下语音唤醒的误唤醒率，此外，通过利用正交时延神经网络、深度神经网络和长短期记忆网络联合构建神经网络模型，能够融合待识别语音的前后文信息，提高了语音唤醒的识别精度。

技术特征：

1.一种语音唤醒方法，其特征在于，包括如下步骤：

2.如权利要求1所述的语音唤醒方法，其特征在于，所述方法具体通过如下步骤训练所述隐马尔可夫模型：

3.如权利要求2所述的语音唤醒方法，其特征在于，所述方法具体通过如下步骤训练所述神经网络模型：

4.如权利要求1所述的语音唤醒方法，其特征在于，所述神经网络模型具体由线性映射层、20层所述正交时延神经网络、3层所述深度神经网络、2层所述长短期记忆网络、归一化层和输出层组成。

5.如权利要求1所述的语音唤醒方法，其特征在于，所述对所述待识别语音进行预处理，具体为：

6.如权利要求2所述的语音唤醒方法，其特征在于，所述对所述电力调度场景语料库所包含的语音数据进行预处理，具体为：

7.如权利要求1所述的语音唤醒方法，其特征在于，所述方法具体通过如下步骤构建所述电力调度场景语料库：

8.一种语音唤醒装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音唤醒方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的语音唤醒方法。

技术总结本发明公开一种语音唤醒方法、装置、设备及介质，方法包括：当检测到待识别语音时，对待识别语音进行预处理，并提取其声学特征；将声学特征输入至预设的声学模型，通过声学模型输出声学特征所对应的音素状态后验概率，并确定音素状态序列；基于预设的发音词典和音素状态序列，利用基于令牌的维比特解码方式对待识别语音进行解码，当识别到待识别语音中存在预设唤醒词时，触发待唤醒设备进行唤醒状态；其中，声学模型由基于预设的电力调度场景语料库训练所获得的隐马尔可夫模型和神经网络模型组成；神经网络模型包括正交时延神经网络、深度神经网络和长短期记忆网络。本发明能够降低在电力调度场景下语音唤醒的误唤醒率，提高语音唤醒的识别精度。技术研发人员：张延斌,金吴晗,柯国富受保护的技术使用者：广州广哈通信股份有限公司技术研发日：技术公布日：2024/2/29