技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法及装置与流程 > 正文

音频处理方法及装置与流程

国知局
2024-06-21 10:39:36

本申请属于音频处理，尤其涉及音频处理方法及装置。

背景技术：

1、目前，随着科学技术的不断发展，各种终端设备的功能也越来越丰富，比如，许多终端设备能够进行音频处理。

2、例如，用户想用语音控制终端设备，可通过oneshot实现，oneshot指：用户将唤醒词与欲实现的内容连着说。然而，目前终端设备在处理用户所说的语音时，通常需要先确定用户所说的语音对应的唤醒类型，唤醒类型可为普通唤醒类型或者oneshot唤醒类型，其中，普通唤醒类型所对应的场景包括“语音唤醒中终端设备后，终端设备播放提示音，以向用户提示终端设备已被唤醒，待提示音播放完后，用户述说欲实现的内容”。然后，确定唤醒类型的过程耗时较长，大大降低了音频的处理效率。

技术实现思路

1、本申请实施例提供了一种音频处理方法、装置、终端设备及计算机可读存储介质，可以解决目前音频的处理效率较低的问题。

2、第一方面，本申请实施例提供了一种音频处理方法，包括：

3、若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作；

4、若发生用户主动唤醒操作，则识别待识别音频。

5、在第一方面的一种可能的实现方式中，所述若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作，包括：

6、若检测到目标语音，则根据所述目标语音计算主动唤醒概率；

7、根据所述主动唤醒概率判断是否发生用户主动唤醒操作。

8、在第一方面的一种可能的实现方式中，所述根据所述目标语音计算主动唤醒概率，包括：

9、根据所述目标语音计算唤醒词匹配度；

10、若所述唤醒词匹配度大于或者等于第一阈值，则计算主动唤醒概率。

11、在第一方面的一种可能的实现方式中，所述根据所述主动唤醒概率判断是否发生用户主动唤醒操作，包括：

12、若所述主动唤醒概率大于或者等于第二阈值，且计算出所述目标语音对应的方位，则判定发生用户主动唤醒操作。

13、在第一方面的一种可能的实现方式中，所述目标语音包括多路语音，所述若所述主动唤醒概率大于或者等于第二阈值，且计算出所述目标语音对应的方位，则判定发生用户主动唤醒操作，包括：

14、若所述主动唤醒概率大于或者等于第二阈值，且根据所述多路语音对应的信号强度计算出所述目标语音对应的方位，则判定发生用户主动唤醒操作。

15、在第一方面的一种可能的实现方式中，所述音频处理方法应用于终端设备，所述终端设备上设置有第一缓冲区和第二缓冲区，所述音频处理方法还包括：

16、进行语音活动检测；

17、在开始执行所述根据所述目标语音计算主动唤醒概率之后，从所述第一缓冲区中读取第一音频以及在所述第二缓冲区写入第二音频，所述第一音频为具有指定时长的最近写入所述第一缓冲区的音频；

18、在判定发生用户主动唤醒操作之后，包括：清空所述第一缓冲区，将所述第一音频和所述第二音频写入所述第一缓冲区，以及将当前外部语音对应的音频写入所述第一缓冲区直至结束语音活动检测；

19、对应地，所述待识别音频包括：所述第一缓冲区内所存有的所有音频。

20、在第一方面的一种可能的实现方式中，所述识别待识别音频包括：

21、启动指定线程读取所述第一缓冲区内的音频以及将读取到的音频送到识别引擎，控制所述识别引擎对所述读取到的音频进行识别，直至结束语音活动检测。

22、第二方面，本申请实施例提供了一种音频处理装置，包括：

23、判断单元，用于若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作；

24、识别单元，用于若发生用户主动唤醒操作，则识别待识别音频。

25、第三方面，本申请实施例提供了一种终端设备，包括：包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

26、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法。

27、第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的**方法。

28、可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

29、本申请实施例与现有技术相比存在的有益效果是：若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作；若发生用户主动唤醒操作，则识别待识别音频。即本申请不需要确定唤醒类型，而是根据所述目标语音判断是否发生用户主动唤醒操作；若发生用户主动唤醒操作，则识别待识别音频，该过程的耗时比较短，进而能够大大地提高音频的处理效率。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.如权利要求1所述的音频处理方法，其特征在于，所述若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作，包括：

3.如权利要求2所述的音频处理方法，其特征在于，所述根据所述目标语音计算主动唤醒概率，包括：

4.如权利要求2所述的音频处理方法，其特征在于，所述根据所述主动唤醒概率判断是否发生用户主动唤醒操作，包括：

5.如权利要求4所述的音频处理方法，其特征在于，所述目标语音包括多路语音，所述若所述主动唤醒概率大于或者等于第二阈值，且计算出所述目标语音对应的方位，则判定发生用户主动唤醒操作，包括：

6.如权利要求2所述的音频处理方法，其特征在于，所述音频处理方法应用于终端设备，所述终端设备上设置有第一缓冲区和第二缓冲区，所述音频处理方法还包括：

7.如权利要求6所述的音频处理方法，其特征在于，所述识别待识别音频包括：

8.一种音频处理装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结本申请适用于音频处理技术领域，提供了一种音频处理方法，包括：若检测到目标语音，则根据所述目标语音判断是否发生用户主动唤醒操作；若发生用户主动唤醒操作，则识别待识别音频。通过所述音频处理方法，能够大大地提高音频的处理效率。技术研发人员：肖永君受保护的技术使用者：深圳联友科技有限公司技术研发日：技术公布日：2024/1/15