技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音唤醒方法、装置、电子设备及存储介质与流程 > 正文

语音唤醒方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:28:33

本申请涉及音频处理，具体涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术：

1、语音唤醒技术的应用领域广泛，例如机器人、手机、可穿戴设备、智能家居、车载设备等。较多的带有语音功能的设备基于语音唤醒技术建立用户和机器之间的语音交互。不同的产品预先设置不同的唤醒词，当用户需要唤醒设备时需要说出预先设定的唤醒词。

2、为更好地满足用户需求，设备的语音唤醒装置会持续监听特定的唤醒词。出于隐私考虑，语音唤醒装置通常需要离线工作在具有低占用空间和低功耗要求的设备上。另外误唤醒是用户难以容忍的。综上，具有一定的唤醒率且误唤醒率较低是语音唤醒最重要的指标。

技术实现思路

1、为了解决上述技术问题，本申请提供了一种语音唤醒方法、装置、电子设备及存储介质，以在满足唤醒率的同时抑制明显的误唤醒。

2、第一方面，提供了一种语音唤醒方法，包括：

3、对接收的语音信息进行预处理以提取得到音频特征；

4、将所述音频特征输入语音唤醒模型中进行计算；

5、基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；

6、基于所述语音唤醒模型的残差连接的输出进行唤醒词中单个音节的识别，并获得所述语音信息的状态机跳转状态；

7、根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件。

8、可选地，对接收的语音信息进行预处理以提取得到音频特征包括：

9、将输入的语音信息进行分帧、加窗以及梅尔谱变换以得到所述音频特征。

10、可选地，所述语音唤醒模型包括多层子模型，至少一层子模型包括扩大因果卷积层、pixelcnn门控单元、跳跃连接和残差连接层。

11、可选地，基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数包括：

12、将所述语音唤醒模型中各层子模型的跳跃连接的输出求和以获得所述语音信息对应的唤醒分数。

13、可选地，基于所述语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别并获得所述语音信息的状态机跳转状态包括：

14、将所述语音唤醒模型中最后一层子模型的残差连接的输出经过线性层做音节分类处理；

15、按照唤醒词中各音节的排序依次在设定时间内判断每个音节的得分是否高于第一阈值以更新状态机跳转状态，其中，若在设定时间内且唤醒词中的一个音节高于第一阈值则状态机跳转至当前音节，否则状态机跳转至初始状态。

16、可选地，根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件包括：

17、唤醒分数高于第二阈值且所述状态机跳转至唤醒词中的最后一个音节则满足唤醒条件。

18、第二方面，提供了一种语音唤醒装置，包括：

19、语音唤醒模块，被配置为采用语音唤醒模型对接收的语音信息所对应的音频特征进行计算，并得到每一帧音频特征的得分和残差连接输出；

20、第一检测模块，被配置为基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；

21、第二检测模块，被配置为基于所述语音唤醒模型得到的残差连接的输出进行唤醒词中单个音节的识别，并获得所述语音信息的状态机跳转状态；以及

22、判断模块，被配置为根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件。

23、可选地，语音唤醒模块包括多层堆叠的子模块，至少一层子模块包括扩大因果卷积层、pixelcnn门控单元、跳跃连接和残差连接层。

24、第三方面，提供了一种电子设备，其中，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的方法的步骤。

25、第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如上所述的方法的步骤。

26、本申请提供的语音唤醒方法、装置、电子设备及存储介质，通过将音频特征输入语音唤醒模型中进行计算，以基于单神经网络模型进行二段式的唤醒词检测，可以在单模型算力的情况下实现多段式的语音唤醒检测，从而在最少计算量下减少了误唤醒。

27、应当说明的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

技术特征：

1.一种语音唤醒方法，其中，包括：

2.根据权利要求1所述的方法，其中，对接收的语音信息进行预处理以提取得到音频特征包括：

3.根据权利要求1所述的方法，其中，所述语音唤醒模型包括多层子模型，至少一层子模型包括扩大因果卷积层、pixelcnn门控单元、跳跃连接和残差连接层。

4.根据权利要求3所述的方法，其中，基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数包括：

5.根据权利要求3所述的方法，其中，基于所述语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别并获得所述语音信息的状态机跳转状态包括：

6.根据权利要求1所述的方法，其中，根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件包括：

7.一种语音唤醒装置，其中，包括：

8.根据权利要求7所述的装置，其中，语音唤醒模块包括多层堆叠的子模块，至少一层子模块包括扩大因果卷积层、pixelcnn门控单元、跳跃连接和残差连接层。

9.一种电子设备，其中，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

10.一种存储介质，其中，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

技术总结本申请提供了一种语音唤醒方法、装置、电子设备及存储介质，方法包括：对接收的语音信息进行预处理以提取得到音频特征；将音频特征输入语音唤醒模型中进行计算；基于语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；基于语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别，并获得语音信息的状态机跳转状态；根据唤醒分数和状态机跳转状态判断语音信息是否满足唤醒条件。本申请基于单神经网络模型进行二段式的唤醒词检测，满足唤醒率的同时抑制了明显的误唤醒。技术研发人员：朱宸都受保护的技术使用者：北京奕斯伟计算技术股份有限公司技术研发日：技术公布日：2024/2/19