技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频识别方法、装置、系统和电子设备与流程 > 正文

音频识别方法、装置、系统和电子设备与流程

国知局
2024-06-21 11:36:59

本公开涉及音频识别，特别涉及一种音频识别方法、装置、系统和电子设备。

背景技术：

1、当前，基于深度学习的音频（声音）识别应用越来越广泛，并且基于音频识别的定制化分类需求也越来越多。声音识别的应用主要集中两个方向，即声音事件检测和关键词识别。其中，声音事件的检测例如婴儿哭声监护、异常声音检测、呼喊声检测等；关键词识别例如利用包含特定词语内容的语音（话术）对设备（如移动终端、智能语音交互设备）的唤醒等。

2、目前，在终端设备上，实现上述不同的方向的声音识别应用，需要利用不同的人工智能网络来实现，并且为了满足可能存在的多种需求，还需要确保终端设备中部署的人工智能网络预留出较多的识别类别，确保能够识别出用户可能自定义的多种语音（话术）内容、以及多种声音事件。另一方面，声音事件检测和关键词识别所采用的人工智能网络也并不相同，因此，在终端设备上若要实现这两种应用需要部署不同的人工智能网络。由于这些问题的存在，在终端设备部署这两种应用的人工智能网络满足用户的多种需求，无疑对终端设备的功耗带来很大的挑战，特别会影响到采用电池供电的终端设备的使用时长，对终端设备的运行速度也可能存在潜在的影响。

3、因此，针对声音事件检测和关键词识别，如何进一步降低终端设备的功耗、提升终端设备的运行速度，便成为亟待解决的问题。

技术实现思路

1、有鉴于此，本公开提供一种音频识别方法、装置、系统和电子设备，以降低终端设备在声音事件检测和关键词识别方面的功耗，并提升终端设备在声音事件检测和关键词识别方面的运行速度。

2、根据本公开实施例的一方面，提供一种音频识别方法，包括：

3、接收音频识别目标信息，将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，其中所述音频识别目标信息对应的类别数量为至少一个；

4、将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数；

5、将所述模型配置参数发送到部署于终端设备的音频识别分类模型，使得所述音频识别分类模型基于所述模型配置参数进行配置，并使得所述终端设备接收到与所述音频识别目标信息相关联的音频信息后，通过所述音频识别分类模型得到音频识别结果。

6、在一种可能实施方式中，所述音频识别目标信息包括声音事件音频数据和文字数据的至少其中之一，所述编码器模块包括音频编码器和文本编码器；

7、所述将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，包括：

8、在所述音频识别目标信息为所述声音事件音频数据的情况下，将所述声音事件音频数据输入所述音频编码器，通过所述音频编码器得到所述目标特征向量；或者

9、在所述音频识别目标信息为所述文字数据的情况下，将所述文字数据输入所述文本编码器，通过所述文本编码器得到所述目标特征向量。

10、在一种可能实施方式中，所述参数推理模块包括类别数量适配器和参数生成器，其中所述参数生成器的数量为至少一个；

11、其中，所述将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数，包括：

12、将所述类别数量输入所述类别数量适配器，通过所述类别数量适配器确定出与所述类别数量相关联的所述参数生成器；

13、将所述目标特征向量输入与所述类别数量相关联的所述参数生成器，通过与所述类别数量相关联的所述参数生成器得到所述模型配置参数。

14、在一种可能实施方式中，所述音频识别分类模型包括：

15、特征编码器，所述特征编码器用于根据所述音频信息得到音频特征向量；

16、分类器，所述分类器用于根据音频特征向量得到所述音频识别结果；

17、其中，所述模型配置参数包括所述特征编码器的权重参数、所述特征编码器的偏置参数、所述分类器的权重参数和所述分类器的偏置参数。

18、在一种可能实施方式中，所述音频识别方法还包括如下针对所述编码器模块和/或所述参数推理模块的训练过程：

19、获取音频识别目标样本和音频识别参考样本，所述音频识别目标样本的标注类别的数量为至少一个，其中，所述音频识别参考样本的标注类别与所述音频识别目标样本的标注类别相同；

20、将所述音频识别目标样本输入待训练的编码器模块，通过所述待训练的编码器模块得到目标特征样本向量；

21、将所述目标特征样本向量和所述标注类别的数量输入待训练的参数推理模块，通过所述待训练的参数推理模块得到模型配置推理参数；

22、将所述模型配置推理参数发送到所述音频识别分类模型，使得所述音频识别分类模型基于所述模型配置推理参数进行配置；

23、将所述音频识别参考样本输入基于所述模型配置推理参数配置后的所述音频识别分类模型，通过基于所述模型配置推理参数配置后的所述音频识别分类模型得到分类预测数据；

24、根据所述分类预测数据和所述音频识别目标样本的标注类别，建立损失函数；

25、根据所述损失函数，调整所述待训练的编码器模块的参数和/或调整所述待训练的参数推理模块的参数，直到所述损失函数收敛至期望值或者达到训练的迭代次数，得到训练后的所述编码器模块和/或训练后的所述参数推理模块。

26、在一种可能实施方式中，在所述训练过程当中，分批次地获取所述音频识别目标样本和所述音频识别参考样本，每批次获取的所述音频识别目标样本和所述音频识别参考样本均为至少一个，在同一批次中获取的音频识别目标样本的数量和音频识别参考样本的数量相等；

27、在同一批次中获取的所述音频识别目标样本的数量和所述音频识别参考样本的数量均为一个的情况下，所述音频识别目标样本的标注类别和所述音频识别参考样本的标注类别相同；或者

28、在同一批次中获取的所述音频识别目标样本的数量和所述音频识别参考样本的数量均多于一个的情况下，按照输入所述待训练的编码器模块的所述音频识别目标样本的顺序和输入基于所述模型配置推理参数配置后的所述音频识别分类模型的音频识别参考样本的顺序排序，处于相同排序位置的所述音频识别目标样本和所述音频识别参考样本为相同的标注类别；

29、所述待训练的参数推理模块包括类别数量适配器和至少一个待训练的参数生成器，所述至少一个待训练的参数生成器分别一对一地关联于至少一个类别数量范围；

30、其中，在每批次所接收的音频识别目标样本和所获取的音频识别参考样本均为至少两个的情况下，所述将所述目标特征样本向量和所述标注类别的数量输入待训练的参数推理模块，通过所述待训练的参数推理模块得到模型配置推理参数，包括：

31、将所述标注类别的数量输入所述类别数量适配器，通过所述类别数量适配器确定出所述标注类别的数量所属的类别数量范围；

32、将所述目标特征样本向量输入与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器，通过与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器得到所述模型配置推理参数；

33、其中，所述调整所述待训练的参数推理模块的参数，包括：调整与所述标注类别的数量所属的类别数量范围相关联的所述待训练的参数生成器的参数。

34、在一种可能实施方式中，所述音频识别目标样本包括第一声音事件音频样本数据和文字样本数据的至少其中之一，所述音频识别参考样本包括第二声音事件音频样本数据和语音样本数据的至少其中之一；

35、所述待训练的编码器模块包括待训练的音频编码器和待训练的文本编码器；

36、其中，所述将所述音频识别目标样本输入待训练的编码器模块，通过所述待训练的编码器模块得到目标特征样本向量，包括：

37、在所述音频识别目标样本为第一声音事件音频样本数据的情况下，将所述第一声音事件音频样本数据输入所述待训练的音频编码器，通过所述待训练的音频编码器得到所述目标特征样本向量；或者

38、在所述音频识别目标样本为文字样本数据的情况下，将所述文字样本数据输入所述待训练的文本编码器，通过所述待训练的文本编码器得到所述目标特征样本向量；

39、其中，所述调整所述待训练的编码器模块的参数，包括：对应于输入的所述第一声音事件音频样本数据，调整所述待训练的音频编码器的参数；对应于输入的所述文字样本数据，调整所述待训练的文本编码器的参数。

40、根据本公开实施例的另一方面，提供一种音频识别装置，包括：

41、特征提取模块，被配置为执行接收音频识别目标信息，将所述音频识别目标信息输入编码器模块，通过所述编码器模块得到目标特征向量，其中所述音频识别目标信息对应的类别数量为至少一个；

42、参数获得模块，被配置为执行将所述目标特征向量和所述类别数量输入参数推理模块，通过所述参数推理模块得到模型配置参数；

43、参数发送模块，被配置为执行将所述模型配置参数发送到部署于终端设备的音频识别分类模型，使得所述音频识别分类模型基于所述模型配置参数进行配置，并使得所述终端设备接收到与所述音频识别目标信息相关联的音频信息后，通过所述音频识别分类模型得到音频识别结果。

44、根据本公开实施例的另一方面，提供一种音频识别系统，包括：

45、数据接收模块，所述数据接收模块部署于服务器，用于通过所述服务器所接入的网络接收音频识别目标信息，其中所述音频识别目标信息对应的类别数量为至少一个；

46、编码器模块，所述编码器模块部署于所述服务器，用于根据所述音频识别目标信息得到目标特征向量；

47、参数推理模块，所述参数推理模块部署于所述服务器，用于根据所述目标特征向量得到模型配置参数；

48、数据发送模块，所述数据发送模块部署于所述服务器，用于通过所述网络发送所述模型配置参数；

49、音频识别分类模型，所述音频识别分类模型部署于终端设备，所述音频识别分类模型基于所述模型配置参数进行配置，并用于在接收到与所述音频识别目标信息相关联的音频信息后得到音频识别结果，其中，所述终端设备接入于所述网络并通过所述网络获得所述模型配置参数。

50、根据本公开实施例的另一方面，提供一种电子设备，包括：

51、处理器；

52、用于存储所述处理器的可执行指令的存储器；

53、其中，所述处理器被配置为执行所述可执行指令，以实现如上任一项所述的音频识别方法。

54、根据本公开实施例的另一方面，提供计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如上任一项所述的音频识别方法。

55、从上述方案可以看出，本公开的音频识别方法、装置、系统和电子设备，通过编码器模块和音频识别分类模型对用户所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据进行处理，得到终端设备的音频识别分类模型所需要的模型配置参数，进而在终端设备一侧利用模型配置参数对音频识别分类模型进行配置后，用户在终端设备上只需要利用配置好的音频识别分类模型既可以实现所需要的声音事件检测和/或关键词识别。本公开技术方案实现了在终端设备中利用一个模型实现了声音事件检测和关键词识别的两种功能。并且本公开技术方案中，在终端设备一侧实现了仅基于音频识别分类模型对关键词的识别，因此不需要cpu的介入，只需要npu的参与，所以有助于终端设备功耗的降低和运行速度的提升。另外，本公开技术方案中，在参数推理模块中还根据所需的类别数量选择不同类别数量范围的参数生成器，所得到的模型配置参数在可以满足用户需要的同时还能够使得终端设备中的音频识别分类模型的模型参数尽可能地小，有助于减少终端设备的资源浪费并有助于提升音频识别分类模型的运行速度。另外，本公开技术方案中，通过将编码器模块和音频识别分类模型部署于服务器一侧，使得用户只需要通过终端设备将所需的声音事件检测和/或关键词识别所针对的音频数据和/或关键词数据上传至服务器，由服务器进行相应的处理而得到终端设备中部署的音频识别分类模型的模型配置参数，终端设备不需要进行模型配置参数的训练，因此，也减少了终端设备为得到模型配置参数而进行的模型训练的消耗。