技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质与流程  >  正文

声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:38:36

本发明涉及人工智能,尤其涉及一种声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质。

背景技术:

1、声学场景分类(acoustic scene classification,asc)是指在给定音频信号的情况下预测声学场景,例如,高铁站、机场、室内购物中心、城市公园等,也即对音频信号的来源场景进行分类。

2、近年来,基于深度学习的声学场景分类算法取得了比传统声学场景分类方法更好的效果,但相关技术的基于深度学习模型的声学场景分类模型往往具有高计算复杂度和高内存要求,因此在蓝牙耳机、音响等资源受限的通信终端交互设备上难以部署。

技术实现思路

1、本发明实施例提供一种声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质,以解决相关技术中基于深度学习模型的声学场景分类模型往往具有高计算复杂度和高内存要求,因此在蓝牙耳机、音响等资源受限的通信终端交互设备上难以部署的风险的技术问题。

2、第一方面,本发明实施例提供了一种声学场景分类模型,所述声学场景分类模型包括:数据获取模块,用于获取输入音频数据;音频信号预处理模块,用于对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;多个依次连接的深度膨胀残差块,用于对输入特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征输入下一个深度膨胀残差块,直至所述中间特征输入值最后一个深度膨胀残差块,将最后一个深度膨胀残差块输出的中间特征输入卷积层,其中,第一个深度膨胀残差块的输入特征为所述梅尔频率倒谱系数特征;卷积层,用于根据输入的所述中间特征生成卷积结果;全连接层,用于根据所述卷积结果和饱和激活函数确定声学场景分类结果。

3、于本发明一实施例中,所述音频信号预处理模块包括:短时傅里叶变换模块,用于对所述输入音频数据进行短时傅里叶变换得到初始频谱图;梅尔滤波器,用于根据所述初始频谱图创建梅尔频谱图;取对数模块,用于对所述梅尔频谱图取对数,得到取对数结果;离散余弦变换模块,用于对所述取对数结果进行离散余弦变换,得到所述梅尔频率倒谱系数特征。

4、于本发明一实施例中,所述深度膨胀残差块包括:一个或多个依次连接的膨胀卷积块,用于对输入特征进行膨胀卷积,得到膨胀卷积结果;频域实例归一化模块,用于对所述膨胀卷积结果中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征;残差连接模块,用于将所述膨胀卷积结果与归一化后特征在频域维度相加,得到所述中间特征。

5、本发明实施例还提供了一种声学场景分类模型训练方法,所述方法包括:获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;将所述样本混合音频数据作为输入音频数据输入如上述任一项实施例所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。

6、于本发明一实施例中,一样本混合音频数据的生成方式包括:获取样本脉冲响应数据集和样本声场景语音数据集,所述样本声场景语音数据集包括不同设备在不同场景下的语音数据;将样本脉冲响应数据集中的一样本脉冲响应数据与样本声场景语音数据集中的一样本声场景语音数据进行卷积操作,得到混合增强数据;根据预设场景声音频波形长度切断所述混合增强数据的拖尾样本,得到一样本混合音频数据。

7、第二方面,本发明实施例还提供了一种声学场景分类方法,所述方法包括:获取待分类音频数据;将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果;其中,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到。

8、第三方面,本发明实施例还提供了一种声学场景分类方法,所述方法包括:获取输入音频数据;对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;对所述梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征;对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。

9、第四方面,本发明实施例还提供了一种模型部署方法,所述方法包括:获取训练后的声学场景分类模型,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到;通过arm算子对所述训练后的声学场景分类模型进行加速部署。

10、第五方面,本发明实施例还提供了一种声学场景分类装置,所述装置包括:待分类音频数据获取模块,用于获取待分类音频数据;确定模块,用于将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果,其中,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到。

11、第六方面,本发明实施例还提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,使得所述芯片执行上述第三方面实施例所述的声学场景分类方法。

12、第七方面,本发明实施例还提供了一种声学场景分类模型训练装置,所述装置包括:训练数据获取模块,用于获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;数据输入模块,用于将所述样本混合音频数据作为输入音频数据输入如上述任一项实施例所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;损失函数确定模块,用于根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;训练模块,用于通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。

13、第八方面,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的方法。

14、第九方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项实施例所述的方法。

15、上述提供的声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质所实现的方案中,该模型通过采用一个或多个深度膨胀残差块,由于膨胀卷积能在不增加网络参数和计算量的前提下提高网络感受野,网络捕获全局信息能力更强,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失,相对于传统的声场景分类方法中常选用批量归一化或实例归一化方法,这些归一化方法会导致中间特征的频域信息和时域信息丢失,本实施例提供的声学场景分类模型通过对膨胀卷积结果进行频域实例归一化处理,避免了中间特征的频域信息和时域信息丢失,加快模型训练过程中的收敛速度,该声学场景分类模型合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙耳机、音响等资源受限的设备上。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22630.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。