技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、电子设备和可读存储介质与流程 > 正文

音频处理方法、装置、电子设备和可读存储介质与流程

国知局
2024-06-21 11:31:22

本申请涉及计算机，特别是涉及一种音频处理方法、装置、电子设备和可读存储介质。

背景技术：

1、目前，越来越多的设备可以通过用户的语音进行唤醒，以实现设备的智能化。

2、在相关技术中，设备在采集到音频后，会对该音频进行语音识别，并将该音频与预先存储的对照文本进行比对，若该音频的识别结果与对照文本一致，则该音频对应的设备会被唤醒从而执行后续的指令。

3、在此过程中，由于相关技术至少需要将音频转换为文本并进行比对，因此，在音频和文本转换的过程中会存在一定的误差，从而会出现无法唤醒设备或误唤醒设备等问题，因此，如何提高唤醒设备的准确度是目前亟需解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供一种音频处理方法、装置、电子设备和可读存储介质，以提高唤醒设备的准确度。

2、第一方面，提供了一种音频处理方法，所述方法包括：

3、获取采集音频。

4、读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频。

5、确定所述采集音频和所述唤醒音频之间的音频相似度。

6、响应于所述音频相似度满足唤醒条件，唤醒目标设备。

7、第二方面，提供了一种音频处理装置，所述装置包括：

8、采集音频获取模块，被配置为获取采集音频。

9、唤醒音频读取模块，被配置为读取预先录制的唤醒音频，所述唤醒音频至少包括目标唤醒词对应的音频。

10、音频相似度确定模块，被配置为确定所述采集音频和所述唤醒音频之间的音频相似度。

11、唤醒模块，被配置为响应于所述音频相似度满足唤醒条件，唤醒目标设备。

12、第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

14、第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如第一方面所述的方法。

15、通过本申请实施例，可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频相似度包括特征相似度；

3.根据权利要求2所述的方法，其特征在于，所述音频相似度还包括对象相似度；

4.根据权利要求3所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

5.根据权利要求2所述的方法，其特征在于，所述确定各所述待测片段与所述唤醒音频之间的特征相似度包括：

6.根据权利要求5所述的方法，其特征在于，所述唤醒音频对应的平均特征至少基于如下步骤确定：

7.根据权利要求2所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

8.根据权利要求2所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

9.根据权利要求2所述的方法，其特征在于，响应于所述目标唤醒词为叠词；

10.根据权利要求9所述的方法，其特征在于，所述响应于所述音频相似度满足唤醒条件，唤醒目标设备包括：

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

12.根据权利要求5或6所述的方法，其特征在于，所述瓶颈特征基于预先训练的语音识别模型中的瓶颈特征层确定。

13.一种音频处理装置，其特征在于，所述装置包括：

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-12中任一项所述的方法。

技术总结本申请实施例提供了一种音频处理方法、装置、电子设备和可读存储介质，涉及计算机技术领域。当用户授权开启语音唤醒目标设备的功能后，本申请实施例可以直接根据采集音频和预先录制的唤醒音频之间的匹配程度来判断是否唤醒目标设备。在此过程中，无需将采集音频转换为文本，也无需将采集音频与文本进行比对。因此，通过本申请实施例，避免了音频转换为视频过程中所产生的误差，提高唤醒目标设备的准确性。技术研发人员：胡广宇,王飞,赵茜受保护的技术使用者：北京嘀嘀无限科技发展有限公司技术研发日：技术公布日：2024/3/4