技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频数据处理方法、装置、电子设备及存储介质与流程 > 正文

音频数据处理方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 10:41:12

本公开涉及音频处理，尤其涉及一种音频数据处理方法、装置和电子设备及存储介质。

背景技术：

1、现有技术中，多数产品都是将语音检测和识别放在同一个应用中，当一个设备上存在多个应用时，每个应用都需要做单独的语音检测和识别，极大地占用了设备的资源，增大了设备的负载，影响设备的稳定性。

技术实现思路

1、本公开提供了一种用于音频数据处理方法、装置、电子设备及存储介质。

2、根据本公开的一方面，提供了一种音频数据处理方法，包括：获取音频数据，并对所述音频数据进行关键字检测，得到所述音频数据的关键帧；基于所述关键帧确定第二语音应用，并向所述第二语音应用发送所述关键帧的帧标识；根据所述关键帧，从所述音频数据中截取第一音频数据，并向所述第二语音应用发送所述第一音频数据以进行语音识别。

3、根据本公开的另一方面，提供了一种音频数据处理方法，包括：接收第一语音应用发送的音频数据的关键帧的帧标识；接收所述第一语音应用发送的第一音频数据，所述第一音频数据基于所述关键帧从所述音频数据中截取得到；基于所述关键帧的帧标识，从所述第一音频数据中确定第二音频数据，并对所述第二音频数据进行语音识别，得到语音识别结果。

4、根据本公开的另一方面，提供了一种音频数据处理装置，包括：检测模块，用于获取音频数据，并对所述音频数据进行关键字检测，得到所述音频数据的关键帧；发送模块，用于基于所述关键帧确定第二语音应用，并向所述第二语音应用发送所述关键帧的帧标识；截取模块，用于根据所述关键帧，从所述音频数据中截取第一音频数据，并向所述第二语音应用发送所述第一音频数据以进行语音识别。

5、根据本公开的另一方面，提供了一种音频数据处理装置，包括：第一接收模块，用于接收第一语音应用发送的音频数据的关键帧的帧标识；第二接收模块，用于接收所述第一语音应用发送的第一音频数据，所述第一音频数据基于所述关键帧从所述音频数据中截取得到；识别模块，用于基于所述关键帧的帧标识，从所述第一音频数据中确定第二音频数据，并对所述第二音频数据进行语音识别，得到语音识别结果。

6、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的音频数据处理方法。

7、根据本公开另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序/指令，所述计算机指令用于使所述计算机执行上述一方面实施例所述的音频数据处理方法。

8、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的音频数据处理方法。

9、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种音频数据处理方法，其中，由第一语音应用执行，所述方法包括：

2.根据权利要求1所述的方法，其中，所述向所述第二语音应用发送所述关键帧的帧标识，包括：

3.根据权利要求1所述的方法，其中，所述根据所述关键帧，从所述音频数据中截取第一音频数据，包括：

4.根据权利要求3所述的方法，其中，所述基于所述起点关键帧或者尾点关键帧，确定第一截取起点帧，包括：

5.根据权利要求3或4所述的方法，其中，所述基于所述起点关键帧或者尾点关键帧，确定第一截取起点帧，包括：

6.根据权利要求1-4中任一项所述的方法，其中，所述向所述第二语音应用发送所述关键帧的帧标识之前，包括：

7.一种音频数据处理方法，其中，由第二语音应用执行，所述方法包括：

8.根据权利要求7所述的方法，其中，所述接收第一语音应用发送的音频数据的关键帧的帧标识，包括：

9.根据权利要求8所述的方法，其中，所述基于所述关键帧的帧标识，从所述第一音频数据中确定第二音频数据，包括：

10.根据权利要求9所述的方法，其中，所述基于所述关键帧的帧标识，确定所述音频数据的尾点关键帧，包括：

11.根据权利要求9或10所述的方法，其中，所述基于所述尾点关键帧，确定第二音频数据的第二截取起点帧，包括：

12.根据权利要求7-10中任一项所述的方法，其中，所述接收第一语音应用发送的音频数据的关键帧的帧标识之前，还包括：

13.一种音频数据处理装置，其中，适用于第一语音应用，所述装置包括：

14.根据权利要求13所述的装置，其中，所述发送模块，还用于：

15.根据权利要求13所述的装置，其中，所述截取模块，还用于：

16.根据权利要求15所述的装置，其中，所述截取模块，还用于：

17.根据权利要求15或16所述的装置，其中，所述截取模块，还用于：

18.根据权利要求13-16中任一项所述的装置，其中，所述发送模块，还用于：

19.一种音频数据处理装置，其中，适用于第二语音应用，所述装置包括：

20.根据权利要求19所述的装置，其中，所述第一接收模块，还用于：

21.根据权利要求20所述的装置，其中，所述识别模块，还用于：

22.根据权利要求21所述的装置，其中，所述识别模块，还用于：

23.根据权利要求21或22所述的装置，其中，所述识别模块，还用于：

24.根据权利要求19-22中任一项所述的装置，其中，所述第一接收模块，还用于：

25.一种电子设备，包括：

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法，或者执行如权利要求7-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法，或者执行如权利要求7-12中任一项所述的方法。

技术总结本公开提供了一种音频数据处理方法、装置、电子设备及存储介质，涉及音频处理技术领域。具体实施方案为：获取音频数据，并对音频数据进行关键字检测，得到音频数据的关键帧；基于关键帧确定第二语音应用，并向第二语音应用发送关键帧的帧标识；根据关键帧，从音频数据中截取第一音频数据，并向第二语音应用发送第一音频数据以进行语音识别。由此，本方案通过检测音频数据中的关键字得到关键帧，并向第二语音应用发送关键帧的帧标识。从音频数据中截取第一音频数据，并发送给第二语音应用以进行语音识别。通过将关键字检测和语音识别解耦成两个应用来进行，可以做到多元化的音频数据处理，提升音频数据处理的可配置性和灵活性。技术研发人员：毛文强受保护的技术使用者：阿波罗智联（北京）科技有限公司技术研发日：技术公布日：2024/1/25