技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频的识别方法、装置、电子设备及存储介质与流程 > 正文

音频的识别方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:35:35

本发明涉及安全检测，特别是涉及一种音频的识别方法、一种音频的识别装置、一种电子设备以及一种计算机可读存储介质。

背景技术：

1、随着信息技术的发展和生活水平的提高，人们对智慧安防的需求也越来越迫切。目前，在安防领域中，主要采用摄像头为主的监控方式进行智慧监控，但是这种方式存在一定的弊端，如视频监控受光线、角度等影响，且视频监控一般都部署在公共区域，对隐私性的要求比较高。

技术实现思路

1、本发明实施例是提供一种音频的识别方法、装置、电子设备以及计算机可读存储介质，以解决或部分解决安放监控存在局限性大且隐私性差的问题。

2、本发明实施例公开了一种音频的识别方法，包括：

3、获取目标音频，并将所述目标音频切分为若干个音频切片；

4、提取各个所述音频切片对应的音频特征，并根据各个所述音频特征对所述目标音频进行有效特征提取，获得所述目标音频的人声特征以及环境声特征；

5、根据所述人声特征与所述环境声特征对所述目标音频进行识别，获得针对所述目标音频的识别结果，所述识别结果包括所述目标音频为存在异常入户的音频，或所述目标音频为不存在异常入户的音频。

6、可选地，所述提取各个所述音频切片对应的音频特征，包括：

7、获取各个所述音频切片的原始音频特征，所述原始音频特征包括时间步数以及特征维度，所述时间步数为所述音频切片在时间轴上的帧数，所述特征维度为每帧提取出的特征维度；

8、根据所述音频切片对应的时间步数和特征维度进行特征压缩，获得所述音频切片对应的音频特征。

9、可选地，所述根据所述音频切片对应的时间步数和特征维度进行特征压缩，获得所述音频切片对应的音频特征，包括：

10、获取针对所述原始音频特征的倍率因子；

11、采用所述倍率因子对所述时间步数和所述特征维度进行压缩，获得与所述原始音频特征对应的压缩特征向量；

12、获取针对所述压缩特征向量的投影权重；

13、根据所述投影矩阵以及所述压缩特征向量进行特征提取，获得所述音频切片对应的音频特征。

14、可选地，所述投影权重至少包括查询投影权重、键投影权重以及值投影权重，所述根据所述投影矩阵以及所述压缩特征向量进行特征提取，获得所述音频切片对应的音频特征，包括：

15、采用所述查询投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的查询向量，采用所述键投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的键向量，采用所述值投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的值向量；

16、将查询向量与键向量的转置矩阵进行相乘，获得空间注意力特征图；

17、采用所述空间注意力特征图与所述值向量进行投影，获得所述音频切片对应的音频特征。

18、可选地，所述根据各个所述音频特征对所述目标音频进行有效特征提取，获得所述目标音频的人声特征以及环境声特征，包括：

19、获取针对所述音频特征的特征提取模型，所述特征提取模型包括用于提取人声特征的第一特征提取通道以及用于提取环境声特征的第二特征提取通道；

20、将所述音频特征输入所述第一特征提取通道进行特征提取，获得所述目标音频的目标人声特征；

21、将所述音频特征输入所述第二特征提取通道进行特征提取，获得所述目标音频的目标环境声特征。

22、可选地，所述第一特征提取通道至少包括第一输入卷积核、与所述第一输入卷积核连接的第一深度分离卷积层以及与所述第一深度分离卷积层连接的第一输出卷积核，所述将所述音频特征输入所述第一特征提取通道进行特征提取，获得所述目标音频的人声特征，包括：

23、将所述音频特征输入所述第一输入卷积核进行人声特征提取，获得所述音频特征中与人声关联的第一关键特征；

24、将所述第一关键特征输入所述第一深度分离卷积层进行特征组合，获得所述第一组合特征；

25、将所述第一组合特征输入所述第一输出卷积核增大感受野，获得所述目标音频的人声特征。

26、可选地，所述第二特征提取通道至少包括第二输入卷积核、与所述第二输入卷积核连接的第二深度分离卷积层以及与所述第二深度分离卷积层连接的第二输出卷积核，所述将所述音频特征输入所述第二特征提取通道进行特征提取，获得所述目标音频的环境声特征，包括：

27、将所述音频特征输入所述第二输入卷积核进行环境声特征提取，获得所述音频特征中与环境声关联的第二关键特征；

28、将所述第二关键特征输入所述第二深度分离卷积层进行特征组合，获得所述第二组合特征；

29、将所述第二组合特征输入所述第二输出卷积核增大感受野，获得所述目标音频的环境声特征。

30、可选地，所述根据所述人声特征与所述环境声特征对所述目标音频进行识别，获得针对所述目标音频的识别结果，包括：

31、获取针对所述人声特征的家庭成员声纹库，以及针对所述环境声特征的家庭正常声音库，所述家庭成员声纹库至少包括家庭用户的用户声纹特征，所述家庭正常声音库至少包括正常声音特征；

32、将所述人声特征与所述用户声纹特征进行拼接，以及将所述环境声特征与所述正常声音特征进行拼接，获得所述目标音频对应的四元组；

33、将所述四元组输入预设的多层感知器进行推理，获得针对所述目标音频的事件识别概率；

34、若所述事件识别概率为表征存在异常入户的概率，则生成针对所述目标音频的异常入户提示信息；

35、若所述事件识别概率为表征不存在异常入户的概率，则对所述目标音频进行静默处理。

36、本发明实施例还公开了一种音频的识别装置，包括：

37、音频处理模块，用于获取目标音频，并将所述目标音频切分为若干个音频切片；

38、特征提取模块，用于提取各个所述音频切片对应的音频特征，并根据各个所述音频特征对所述目标音频进行有效特征提取，获得所述目标音频的人声特征以及环境声特征；

39、音频识别模块，用于根据所述人声特征与所述环境声特征对所述目标音频进行识别，获得针对所述目标音频的识别结果，所述识别结果包括所述目标音频为存在异常入户的音频，或所述目标音频为不存在异常入户的音频。

40、可选地，所述特征提取模块具体用于：

41、获取各个所述音频切片的原始音频特征，所述原始音频特征包括时间步数以及特征维度，所述时间步数为所述音频切片在时间轴上的帧数，所述特征维度为每帧提取出的特征维度；

42、根据所述音频切片对应的时间步数和特征维度进行特征压缩，获得所述音频切片对应的音频特征。

43、可选地，所述特征提取模块具体用于：

44、获取针对所述原始音频特征的倍率因子；

45、采用所述倍率因子对所述时间步数和所述特征维度进行压缩，获得与所述原始音频特征对应的压缩特征向量；

46、获取针对所述压缩特征向量的投影权重；

47、根据所述投影矩阵以及所述压缩特征向量进行特征提取，获得所述音频切片对应的音频特征。

48、可选地，所述投影权重至少包括查询投影权重、键投影权重以及值投影权重，所述特征提取模块具体用于：

49、采用所述查询投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的查询向量，采用所述键投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的键向量，采用所述值投影权重与所述压缩特征向量进行计算，获得所述音频切片对应的值向量；

50、将查询向量与键向量的转置矩阵进行相乘，获得空间注意力特征图；

51、采用所述空间注意力特征图与所述值向量进行投影，获得所述音频切片对应的音频特征。

52、可选地，所述特征提取模块具体用于：

53、获取针对所述音频特征的特征提取模型，所述特征提取模型包括用于提取人声特征的第一特征提取通道以及用于提取环境声特征的第二特征提取通道；

54、将所述音频特征输入所述第一特征提取通道进行特征提取，获得所述目标音频的目标人声特征；

55、将所述音频特征输入所述第二特征提取通道进行特征提取，获得所述目标音频的目标环境声特征。

56、可选地，所述第一特征提取通道至少包括第一输入卷积核、与所述第一输入卷积核连接的第一深度分离卷积层以及与所述第一深度分离卷积层连接的第一输出卷积核，所述特征提取模块具体用于：

57、将所述音频特征输入所述第一输入卷积核进行人声特征提取，获得所述音频特征中与人声关联的第一关键特征；

58、将所述第一关键特征输入所述第一深度分离卷积层进行特征组合，获得所述第一组合特征；

59、将所述第一组合特征输入所述第一输出卷积核增大感受野，获得所述目标音频的人声特征。

60、可选地，所述第二特征提取通道至少包括第二输入卷积核、与所述第二输入卷积核连接的第二深度分离卷积层以及与所述第二深度分离卷积层连接的第二输出卷积核，所述特征提取模块具体用于：

61、将所述音频特征输入所述第二输入卷积核进行人声特征提取，获得所述音频特征中与人声关联的第二关键特征；

62、将所述第二关键特征输入所述第二深度分离卷积层进行特征组合，获得所述第二组合特征；

63、将所述第二组合特征输入所述第二输出卷积核增大感受野，获得所述目标音频的环境声特征。

64、可选地，所述音频识别模块具体用于：

65、获取针对所述人声特征的家庭成员声纹库，以及针对所述环境声特征的家庭正常声音库，所述家庭成员声纹库至少包括家庭用户的用户声纹特征，所述家庭正常声音库至少包括正常声音特征；

66、将所述人声特征与所述用户声纹特征进行拼接，以及将所述环境声特征与所述正常声音特征进行拼接，获得所述目标音频对应的四元组；

67、将所述四元组输入预设的多层感知器进行推理，获得针对所述目标音频的事件识别概率；

68、若所述事件识别概率为表征存在异常入户的概率，则生成针对所述目标音频的异常入户提示信息；

69、若所述事件识别概率为表征不存在异常入户的概率，则对所述目标音频进行静默处理。

70、本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

71、所述存储器，用于存放计算机程序；

72、所述处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的方法。

73、本发明实施例还公开了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的方法。

74、本发明实施例包括以下优点：

75、在本发明实施例中，在安防领域中，尤其是入户安防中，可以通过获取目标音频，并将所述目标音频切分为若干个音频切片，然后提取各个所述音频切片对应的音频特征，并根据各个所述音频特征对所述目标音频进行有效特征提取，获得所述目标音频的人声特征以及环境声特征，再根据所述人声特征与所述环境声特征对所述目标音频进行识别，获得针对所述目标音频的识别结果，所述识别结果包括所述目标音频为存在异常入户的音频，或所述目标音频为不存在异常入户的音频，从而通过多维度的声音特征对检测音频进行识别，有效地提高了一音频识别的准确性，能够准确地识别出音频对应的入户事件，进而保证了用户或用户财产的安全。