技术新讯 > 乐器声学设备的制造及制作,分析技术 > 设备的唤醒方法、装置、电子设备、可读存储介质及芯片与流程 > 正文

设备的唤醒方法、装置、电子设备、可读存储介质及芯片与流程

国知局
2024-06-21 11:31:32

本公开涉及计算机，尤其涉及一种设备的唤醒方法、装置、电子设备、可读存储介质及芯片。

背景技术：

1、传统的用于唤醒电子设备的语音唤醒模型，当检测到连续的音频流中出现唤醒词，即认为用户发出唤醒电子设备的指令，比如唤醒词“小a同学”，当用户说出“小a同学”、“小a同学，打开空调”或“我家的小a同学很智能”之类的语音时，唤醒交互系统都会响应。但第三种指令“我家的小a同学很智能”，用户只是在句中提到小a同学，并没有唤醒意图，从而造成了误唤醒，降低了用户体验。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种设备的唤醒方法、装置、电子设备、可读存储介质及芯片。

2、根据本公开实施例的第一方面，提供一种设备的唤醒方法，包括：获取待测语音；通过唤醒词识别模型识别所述待测语音；在所述待测语音中包含唤醒词的情况下，确定待测语音是否为误唤醒语音；所述唤醒词为用于唤醒设备的词；在所述待测语音为误唤醒语音的情况下，拒绝唤醒所述设备。

3、在一些可能的实施方式中，所述待测语音包括多个语音帧；所述确定待测语音是否为误唤醒语音，包括：检测所述待测语音的唤醒词及唤醒起始点，所述唤醒起始点为所述唤醒词的起点；确定所述唤醒起始点所在语音帧的前后语音是否为同一用户的语音；在所述唤醒起始点所在语音帧的前后语音为同一用户的语音的情况下，确定所述待测语音为误唤醒语音。

4、在一些可能的实施方式中，所述确定所述唤醒起始点所在语音帧的前后语音是否为同一用户的语音，包括：

5、在检测到所述待测语音中任一目标语音帧的变化置信度小于或等于预定阈值的情况下，确定所述唤醒起始点所在语音帧的前后语音为同一用户的语音；所述目标语音帧为唤醒起始点所在语音帧的前后第一预定数量语音帧中的任一语音帧，所述变化置信度用于表征语音帧的发出人变化的概率。

6、在一些可能的实施方式中，所述设备的唤醒方法还包括：获取至少一个样本语音，所述样本语音包括多个语音帧；标记所述样本语音中的语音帧，得到带标签的样本语音；根据所述带标签的样本语音训练得到所述唤醒词识别模型。

7、在一些可能的实施方式中，所述样本语音包括唤醒语音及所述误唤醒语音；所述获取样本语音，包括：从唤醒交互系统中存储的所述待测语音中筛选出所述唤醒语音和/或所述误唤醒语音；和/或根据不同用户的语音拼接得到所述唤醒语音；和/或根据相同用户的语音拼接得到所述误唤醒语音。

8、在一些可能的实施方式中，所述标记所述样本语音中的语音帧，得到带标签的样本语音，包括：标记所述样本语音中的唤醒词、唤醒起始点及唤醒结束点；所述唤醒起始点为所述唤醒词的起点，所述唤醒结束点为所述唤醒词的结束点。

9、在一些可能的实施方式中，标记所述样本语音中的所述唤醒起始点包括：将所述样本语音中发生了语音跳变的所述唤醒起始点所在的语音帧的标签置为第一值，和/或将发生了所述语音跳变的所述唤醒起始点所在的语音帧前后第二预定数量的语音帧的标签置为第一值，将其余帧的所述标签置为第二值；所述语音跳变为所述唤醒起始点前后的语音是不同用户发出的。

10、根据本公开实施例的第二方面，提供一种设备的唤醒装置，包括：获取模块，被配置为获取待测语音；处理模块，被配置为通过唤醒词识别模型识别所述待测语音；所述处理模块，还被配置为在所述待测语音中包含唤醒词的情况下，确定待测语音是否为误唤醒语音；所述唤醒词为用于唤醒设备的词；所述处理模块，还被配置为在所述待测语音为误唤醒语音的情况下，拒绝唤醒所述设备。

11、根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令实现前述的设备的唤醒方法的步骤。

12、根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现本公开第一方面所提供的设备的唤醒方法的步骤。

13、根据本公开实施例的第五方面，提供一种芯片，包括处理器和接口；所述处理器用于读取指令以执行前述的设备的唤醒方法的步骤。

14、本公开的实施例提供的技术方案可以包括以下有益效果：获取待测语音，通过唤醒词识别模型识别待测语音，在待测语音中包含唤醒词的情况下，确定待测语音是否为误唤醒语音，在待测语音为误唤醒语音的情况下，拒绝唤醒设备；能够在待测语音中包含唤醒词的情况下，判断待测语音是否为误唤醒语音，如句中唤醒语音，待测语音为句中唤醒语音时，拒绝唤醒设备，减少了误唤醒的发生，提升了用户的使用体验。

15、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种设备的唤醒方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待测语音包括多个语音帧；所述确定待测语音是否为误唤醒语音，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述唤醒起始点所在语音帧的前后语音是否为同一用户的语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述样本语音包括唤醒语音及所述误唤醒语音；所述获取样本语音，包括：

6.根据权利要求4所述的方法，其特征在于，所述标记所述样本语音中的语音帧，得到带标签的样本语音，包括：

7.根据权利要求6所述的方法，其特征在于，标记所述样本语音中的所述唤醒起始点包括：将所述样本语音中发生了语音跳变的所述唤醒起始点所在的语音帧的标签置为第一值，和/或将发生了所述语音跳变的所述唤醒起始点所在的语音帧前后第二预定数量的语音帧的标签置为第一值，将其余帧的所述标签置为第二值；所述语音跳变为所述唤醒起始点前后的语音是不同用户发出的。

8.一种设备的唤醒装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～7中任一项所述方法的步骤。

11.一种芯片，其特征在于，包括处理器和接口；所述处理器用于读取指令以执行权利要求1～7中任一项所述的方法。

技术总结本公开涉及一种设备的唤醒方法、装置、电子设备、可读存储介质及芯片，该方法包括：获取待测语音，通过唤醒词识别模型识别待测语音，在待测语音中包含唤醒词的情况下，确定待测语音是否为误唤醒语音，在待测语音为误唤醒语音的情况下，拒绝唤醒设备；能够在待测语音中包含唤醒词的情况下，判断待测语音是否为误唤醒语音，如句中唤醒语音，待测语音为句中唤醒语音时，拒绝唤醒设备，减少了误唤醒的发生，提升了用户的使用体验。技术研发人员：王壹丰,刘勇受保护的技术使用者：北京小米移动软件有限公司技术研发日：技术公布日：2024/3/4