技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音唤醒方法、语音唤醒装置、可穿戴设备及存储介质与流程 > 正文

语音唤醒方法、语音唤醒装置、可穿戴设备及存储介质与流程

国知局
2024-06-21 10:38:59

本公开的实施例涉及一种语音唤醒方法、语音唤醒装置、可穿戴设备和非瞬时性计算机可读存储介质。

背景技术：

1、对于具有语音交互功能的设备，语音交互功能通常需要由用户的语音来唤醒，然后再识别用户的语音指令。先唤醒后识别的操作方式需要用户等待设备作出提示之后再说出语音指令。但是在一些情况下，用户会将唤醒词和语音指令一起说出。针对这种情况，目前已经存在连说唤醒的处理方式，其可以将唤醒操作和对语音指令的反馈一并完成。

2、连说唤醒克服了传统的一问一答式的交互操作导致的用户语音控制的步骤多的问题，但其具有语音指令识别不准确、语音指令的反馈错误的情况。

技术实现思路

1、本公开实施例提供了一种语音唤醒方法、语音唤醒装置、可穿戴设备和存储介质，用于解决现有技术中连说唤醒过程中语音指令识别不准确的问题。

2、本公开至少一个实施例提供一种语音唤醒方法，包括：响应于检测到唤醒词，对接收到的音频数据进行语音活动检测；在音频数据包括检测结果为存在语音的第一音频数据的情况下，继续对第一音频数据之后的第二音频数据进行语音活动检测；在第二音频数据的检测结果为存在语音的情况下，执行连说唤醒的操作。

3、例如，在本公开至少一个实施例提供的语音唤醒方法中，在继续对第一音频数据之后的第二音频数据进行语音活动检测之前，方法还包括：确定第一音频数据的检测结果不满足置信度条件。

4、例如，在本公开至少一个实施例提供的语音唤醒方法中，方法还包括：若第一音频数据的检测结果满足置信度条件，执行连说唤醒的操作。

5、例如，在本公开至少一个实施例提供的语音唤醒方法中，音频数据的检测结果包括概率值，概率值指示存在语音活动的概率；第一音频数据的检测结果中的概率值大于第一阈值，且，在第一音频数据的检测结果中的概率值不小于第二阈值的情况下，确定第一音频数据的检测结果满足置信度条件，其中，第二阈值大于第一阈值。

6、例如，在本公开至少一个实施例提供的语音唤醒方法中，在继续对第一音频数据之后的第二音频数据进行语音活动检测之后，方法还包括：在第二音频数据的检测结果为不存在语音的情况下，执行普通唤醒的操作。

7、例如，在本公开至少一个实施例提供的语音唤醒方法中，音频数据的检测结果包括概率值，概率值指示存在语音活动的概率，且第一音频数据的检测结果中的概率值大于第一阈值；在第二音频数据的检测结果中的概率值大于第三阈值的情况下，第二音频数据的检测结果为存在语音；在第二音频数据的检测结果中的概率值不大于第三阈值的情况下，第二音频数据的检测结果为不存在语音，其中，第三阈值不大于第一阈值。

8、例如，在本公开至少一个实施例提供的语音唤醒方法中，继续对第一音频数据之后的第二音频数据进行语音活动检测，包括：按照时域顺序，依次对音频数据中续接在第一音频数据之后且连续的至少一帧数据帧进行语音活动检测；其中，在连续的至少一帧数据帧的语音活动检测结果为存在语音的情况下，确定第二音频数据的检测结果为存在语音，第二音频数据包括连续的至少一帧数据帧。

9、例如，在本公开至少一个实施例提供的语音唤醒方法中，检测结果包括概率值，概率值指示存在语音活动的概率；在每一帧数据帧的语音活动检测结果中的概率值皆大于第三阈值的情况下，连续的至少一帧数据帧的语音活动检测结果为存在语音活动，且，每一帧数据帧对应的第三阈值相同；或者，在每一帧数据帧的语音活动检测结果中的概率值皆大于第三阈值的情况下，连续的至少一帧数据帧的语音活动检测结果为存在语音活动，且，每一帧数据帧对应的第三阈值按时域顺序依次降低；或者，在每一帧数据帧的语音活动检测结果中的概率值的均值大于第三阈值的情况下，连续的至少一帧数据帧的语音活动检测结果为存在语音活动。

10、例如，在本公开至少一个实施例提供的语音唤醒方法中，方法还包括：在检测到唤醒词在之后的第一时间段内接收到的音频数据中不包括第一音频数据的情况下，执行普通唤醒的操作。

11、例如，在本公开至少一个实施例提供的语音唤醒方法中，语音活动检测使用神经网络模型、统计模型或根据音频数据的能量值实现。

12、本公开至少一个实施例提供一种语音唤醒装置，包括：语音活动检测模块，被配置为响应于检测到唤醒词，对接收到的音频数据进行语音活动检测，以及在音频数据包括检测结果为存在语音的第一音频数据的情况下，继续对第一音频数据之后的第二音频数据进行语音活动检测；和唤醒模块，被配置为在第二音频数据的检测结果为存在语音的情况下，执行连说唤醒的操作。

13、本公开至少一个实施例提供一种可穿戴设备，包括：一个或多个存储器，非瞬时性地存储有计算机可执行指令；一个或多个处理器，配置为运行计算机可执行指令，其中，计算机可执行指令被一个或多个处理器运行时实现根据本公开任一实施例的语音唤醒方法。

14、本公开至少一个实施例提供一种非瞬时性计算机可读存储介质，其中，非瞬时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被处理器执行时实现根据本公开任一实施例的语音唤醒方法。

技术特征：

1.一种语音唤醒方法，包括：

2.根据权利要求1所述的方法，其中，在所述继续对所述第一音频数据之后的第二音频数据进行语音活动检测之前，所述方法还包括：

3.根据权利要求2所述的方法，其中，所述方法还包括：

4.根据权利要求2所述的方法，其中，所述音频数据的检测结果包括概率值，所述概率值指示存在语音活动的概率；

5.根据权利要求1所述的方法，其中，在所述继续对所述第一音频数据之后的第二音频数据进行语音活动检测之后，所述方法还包括：

6.根据权利要求5所述的方法，其中，所述音频数据的检测结果包括概率值，所述概率值指示存在语音活动的概率，且所述第一音频数据的检测结果中的概率值大于第一阈值；

7.根据权利要求1所述的方法，其中，所述继续对所述第一音频数据之后的第二音频数据进行语音活动检测，包括：

8.根据权利要求7所述的方法，其中，所述检测结果包括概率值，所述概率值指示存在语音活动的概率；

9.根据权利要求1-8中任一项所述的方法，其中，所述方法还包括：

10.一种可穿戴设备，包括：

11.一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据权利要求1-9中任一项所述的语音唤醒方法。

技术总结本公开提供了一种语音唤醒方法、语音唤醒装置、可穿戴设备和存储介质。该语音唤醒方法包括：响应于检测到唤醒词，对接收到的音频数据进行语音活动检测；在音频数据包括检测结果为存在语音的第一音频数据的情况下，继续对第一音频数据之后的第二音频数据进行语音活动检测；在第二音频数据的检测结果为存在语音的情况下，执行连说唤醒的操作。通过对音频数据进行多次语音活动检测，来提高确定语音是否存在的准确性，从而解决现有技术中连说唤醒过程中语音指令识别不准确的问题。技术研发人员：李林峰,黄海荣,曹阳受保护的技术使用者：湖北星纪魅族科技有限公司技术研发日：技术公布日：2024/1/15