技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频唤醒方法、装置、设备及计算机可读存储介质与流程 > 正文

音频唤醒方法、装置、设备及计算机可读存储介质与流程

国知局
2024-06-21 11:28:18

本申请涉及音频唤醒领域，尤其涉及一种音频唤醒方法、装置、设备及计算机可读存储介质。

背景技术：

1、音频事件检测是音频领域中当前关注度越来越高的一项技术，广泛应用在音频内容安全、工业听诊、音乐分析等领域。音频事件检测又可以分为声音事件识别和异常声音检测，前者是通过声音来自动识别该事件的类别，而后者是判断该声音事件是否是异常声音。语音助手现在已经基本成为智能手机的标配，是一种最常见的语音交互类产品，通过语音唤醒后，可以用于信息查询、手机指令操作等。

2、现有技术主要通过唤醒词唤醒后再进行语音交互，始终是用户的主动行为，在某些特殊的场景下，用户可能处于一种被动或者无能力唤醒的状态，导致现有的音频唤醒功能无法进行唤醒，进而导致音频唤醒方法的适用性差。

技术实现思路

1、本申请实施例期望提供一种音频唤醒方法、装置、设备及计算机可读存储介质，能够提高音频唤醒方法的适用性。

2、本发明的技术方案是这样实现的：

3、第一方面，本申请实施例提供一种音频唤醒方法，包括：在语音监听功能开启的情况下，获取声音数据；对所述声音数据进行特征提取，确定所述声音数据的声音特征；若所述声音特征表征所述声音数据为音频事件，则通过预设声音处理模型对所述音频事件进行分类，确定所述音频事件的类型；所述音频事件的类型表征用户生活中不同场景下的声音；所述预设声音处理模型用于识别声音数据的事件类别；基于所述音频事件的类型，执行所述音频事件的类型对应的预设响应操作。

4、第二方面，本申请实施例提供一种音频唤醒装置，所述音频唤醒装置包括：获取单元、确定单元和执行单元，其中，

5、所述获取单元，用于在语音监听功能开启的情况下，获取声音数据；

6、所述确定单元，用于对所述声音数据进行特征提取，确定所述声音数据的声音特征；若所述声音特征表征所述声音数据为音频事件，则通过预设声音处理模型对所述音频事件进行分类，确定所述音频事件的类型；所述音频事件的类型表征用户生活中不同场景下的声音；所述预设声音处理模型用于识别声音数据的事件类别；

7、所述执行单元，用于基于所述音频事件的类型，执行所述音频事件的类型对应的预设响应操作。

8、第三方面，本申请实施例提供一种音频唤醒设备，所述音频唤醒设备包括：处理器和存储器；其中，

9、所述存储器，用于存储计算机程序；

10、所述处理器，用于从所述存储器中调用并运行所述计算机程序，以执行如第一方面所述的方法。

11、第四方面，本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行如第一方面所述的方法。

12、本申请实施例提供了一种音频唤醒方法、装置、设备及计算机可读存储介质，该方法包括：在语音监听功能开启的情况下，获取声音数据；对所述声音数据进行特征提取，确定所述声音数据的声音特征；若所述声音特征表征所述声音数据为音频事件，则通过预设声音处理模型对所述音频事件进行分类，确定所述音频事件的类型；所述音频事件的类型表征用户生活中不同场景下的声音；所述预设声音处理模型用于识别声音数据的事件类别；基于所述音频事件的类型，执行所述音频事件的类型对应的预设响应操作。上述方案中，在获取声音数据后，进行特征提取，得到声音特征，若声音特征表征声音数据为音频事件，则通过预设声音处理模型对音频事件进行分类，确定音频事件的类型，由于音频事件是不同场景下非主动唤醒事件，可以补充非主动唤醒场景，基于音频事件的类型，执行音频事件的类型对应的预设响应操作，使得音频唤醒方法不仅适用于语音唤醒，还适应于音频事件唤醒，提高了音频唤醒的适用性。

技术特征：

1.一种音频唤醒方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设声音处理模型包括：预设神经网络模型和预设声音分类模型；

3.根据权利要求1所述的方法，其特征在于，所述预设响应操作包括：自定义响应操作和默认响应操作；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述若所述声音特征表征所述声音数据为音频事件，则通过预设声音处理模型对所述音频事件进行分类，确定所述音频事件的类型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述初始声音处理模型包括：初始神经网络模型和初始声音分类模型；

6.根据权利要求1或3所述的方法，其特征在于，所述基于所述音频事件的类型，执行所述音频事件的类型对应的预设响应操作之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述声音数据进行特征提取，确定所述声音数据的声音特征之后，所述方法还包括：

8.一种音频唤醒装置，其特征在于，包括：获取单元、确定单元和执行单元，其中，

9.一种音频唤醒设备，其特征在于，包括：处理器和存储器，其中，

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至7任一项所述的方法。

技术总结本申请实施例提供了一种音频唤醒方法、装置、设备及计算机可读存储介质，该方法包括：在语音监听功能开启的情况下，获取声音数据；对声音数据进行特征提取，确定声音数据的声音特征；若声音特征表征声音数据为音频事件，则通过预设声音处理模型对音频事件进行分类，确定音频事件的类型；音频事件的类型表征用户生活中不同场景下的声音；预设声音处理模型用于识别声音数据的事件类别；基于音频事件的类型，执行音频事件的类型对应的预设响应操作。上述方案中，提高了音频唤醒方法的适用性。技术研发人员：琚炜,单煜翔受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/2/19