技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种对不同设备或地点的自适应环境音频分类方法及系统 > 正文

一种对不同设备或地点的自适应环境音频分类方法及系统

国知局
2024-06-21 11:44:06

本发明涉及环境音频识别，具体涉及一种对不同设备或地点的自适应环境音频分类技术方案。

背景技术：

1、声学场景分类(asc)是机器听觉和音频信号处理中的一项任务[1]，主要是对音频信号背后的场景进行自动识别和分类，如"机场"、"公交车"或"地铁"等场景。但由于asc任务往往会涉及到多个地点以及不同的设备，现有方法难以在这种多样的录制条件下构造一个泛化的模型，从而阻碍未来asc系统在一些便携设备上的应用，例如耳机的自适应降噪或针对不同环境的语音通话优化。

2、在asc系统的开发过程中，sawhney和maes首先尝试通过递归神经网络来分析音频信号。其他一些asc方法则依赖于从音频信号中提取手工制作的特征作为卷积神经网络的输入xinput，如mel频谱图。

3、xinput＝mel(fft(x))

4、其中，x为原始音频，fft()为快速傅里叶变换，mel()为梅尔频谱尺度。

5、于此同时，由于录音设备的不同，不同设备录制的音频可能会呈现出不同的数据分布。涉及多个设备的asc任务已成为防止模型在一系列设备上退化的主要研究背景[2]。除了设备之外，在不同城市的录音中也观察到了特征分布的变化[3]。然而，目前还没有研究能同时解决跨城市和跨设备的asc任务。考虑到适用的asc系统将不可避免地涉及到新的城市或设备，一个泛化的asc任务需要考虑在不同数据域(城市、设备)下的领域自适应问题[4][5]，其训练集xtrain与测试集xtest应满足如下表示：

6、xtrain＝{xi,si,di,ci|ci∈c,di∈d}

7、xtest＝{xi,di,ci|ci∈c′,di∈d′}

8、

9、其中，xi,si,di,ci分别指样本，场景标签，设备标签和城市标签，c为训练集的城市标签集合，c′为测试集的城市标签集合，d为训练集的设备标签集合，d′为测试集的设备标签集合。

10、由于训练集和测试集关于城市c和设备d的集合不同，asc任务可以根据城市和设备标签的集合差异，将asc任务拆解成如下4个任务：

11、(1)普通asc任务：c＝c′,d＝d′

12、(2)跨城市asc任务：

13、(3)跨设备asc任务：

14、(4)跨城市跨设备asc任务：

15、目前已有的方法结合了场景(1)和(2)，在领域分类器和特征提取其间引入的梯度反转层grl[6]来实现对训练集(源域)和测试集(目标域)的分类。通过梯度反转层，模型在反向传播更新时可以实现对分类器和特征提取器的对抗训练，使得特征提取器尽可能提取到领域分类器难以区分的特征，从而实现对源域和目标域特征分布的对齐并将对齐后的特征用于asc任务。

16、最大化分类差异[7]则用于实现场景分类器与特征提取器之间的对抗训练，以实现两个不同的场景分类器f1,f2对特征提取器g(·|θg)所提取输入样本xinput的特征产生一致的分类结果：

17、训练集：f＝g(xinput|θg)

18、测试集：f′＝g(xinput′|θg)

19、对抗损失函数：

20、分类损失函数：

21、其中，f和f′分别指来自训练集和测试集所提取样本的特征，n为样本数量，i为样本序号，则fi为训练集样本特征，f′i为测试集样本特征，si为场景标签，所有的θ均指的神经网络参数，下标代表相应的模块，即θg为特征提取器参数，θs1为场景分类器1参数，θs2为场景分类器2参数。

22、训练步骤如下所示：

23、参数更新step(1)：更新分类器

24、参数更新step(2)：更新特征提取器

25、其中，α为超参数，默认取1.

26、然而，已用领域分类器和最大化分类差异的技术方案仅区分源域和目标域，而忽略了源域和目标域下次级数据域之间的关系，如具体的设备类型，城市地点等。因此，这些方案仅适用于跨单一数据域的asc任务，如跨设备asc任务或跨城市asc任务。而面临跨设备跨城市asc任务，已有的模型将难以适用。

27、参考文献：

28、[1]d.barchiesi,d.giannoulis,d.stowell,and m.d.plumbley,“acousticscene classification:classifying environments from the sounds they produce,”ieee signal processing magazine,vol.32,no.3,pp.16-34,2015

29、[2]a.mesaros,t.heittola,and t.virtanen,“a multi-device dataset forurban acoustic scene classification,”in proceedings of the detection andclassification of acoustic scenes and events 2018 workshop(dcase2018),november 2018,pp.9-13.[online].available:https://arxiv.org/abs/1807.09840

30、[3]h.l.bear,t.heittola,a.mesaros,e.benetos,and t.virtanen,“cityclassification from multiple real-world sound scenes,”in 2019 ieee workshoponapplications of signal processing to audio and acoustics(waspaa).ieee,2019,pp.11-15.

31、[4]m.wang and w.deng,“deep visual domain adaptation:a survey,”neurocomputing,vol.312,pp.135-153,2018.

32、[5]y.luo,l.zheng,t.guan,j.yu,and y.yang,“taking a closer look atdomain shift:category-level adversaries for semantics consistent domainadaptation,”in proceedings of the ieee/cvf conference on computer vision andpattern recognition,2019,pp.2507-2516.

33、[6]y.ganin and v.lempitsky,“unsupervised domain adaptation by back-propagation,”in international conference on machine learning.pmlr,2015,pp.1180-1189.

34、[7]k.saito,k.watanabe,y.ushiku,and t.harada,“maximum classifierdiscrepancy for unsupervised domain adaptation,”in proceedings of the ieeeconference on computer vision and pattern recognition.ieee,2018,pp.3723-3732

技术实现思路

1、为了解决上述现有技术中存在的不足，本发明提供了一种通过对环境音频录制城市和设备的特征解耦方案，实现了一个能自适应新城市和新设备的环境音频分类系统。

2、为了实现上述目的，本发明提出一种对不同设备或地点的自适应环境音频分类方法，包括以下步骤，

3、步骤1，构建训练集和测试集，包括使用不同设备在不同城市采集不同场景的环境音，根据跨城市，跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割；对于缺失有相关设备或城市标签的音频数据，根据所处训练集或数据集集位置赋予对应伪标签；

5、步骤3，利用训练集和测试集数据样本计算损失函数以进行模型领域自适应训练，训练集包含场景、设备和城市标签，测试集中包含设备和城市标签；

6、基于多领域分类器并联结构的深度学习网络模型的总损失函数包括由最大化分类差异mcd对场景分类损失函数，以及基于梯度反转层grl的领域分类器对场景，城市和设备分类损失函数构成；

8、而且，所述根据跨城市，跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割，实现方式如下，

9、针对跨城市任务场景，训练集与测试集数据保证音频场景标签集合一致，音频录制设备集合一致，训练集与测试集音频频录制城市集合交集为空集；

10、针对跨设备任务场景，训练集与测试集数据保证音频场景标签集合一致，音频录制城市一致，训练集与测试集音频录制设备集合交集为空集；

11、针对跨城市跨设备任务场景，训练集与测试集数据保证音频场景标签集合一致，训练集与测试集音频录制城市集合交集为空集，音频录制设备集合交集为空集。

12、而且，所述梯度反转层模块执行梯度反转或不执行梯度反转操作的规则如下，

13、跨城市任务场景，输入城市分类器fc(·|θc)的特征将被执行梯度反转操作，输入设备分类器fd(·|θd)的特征不执行梯度反转操作。

14、跨设备任务场景，输入设备分类器fd(·|θd)的特征将被执行梯度反转操作，输入城市分类器fc(·|θc)的特征不执行梯度反转操作。

15、跨设备任务场景，输入设备分类器fd(·|θd)和城市分类器fc(·|θc)的特征都将被执行梯度反转操作。

16、而且，基于多领域分类器并联结构的深度学习网络模型的框架主题中，场景分类器、设备分类器和城市分类器的并行结构基于多任务分类器组合mtlc、条件多任务分类器组合cc、投影多任务分类器组合pmtc和联合多任务分类器组合jmtc中的一个或多个组合。

17、而且，用于跨城市、跨设备的领域自适应声学场景分类。

18、另一方面，本发明还提供一种对不同设备或地点的自适应环境音频分类系统，用于实现如上所述的一种对不同设备或地点的自适应环境音频分类方法。

19、而且，包括以下模块，

20、第一模块，用于构建训练集和测试集，包括使用不同设备在不同城市采集不同场景的环境音，根据跨城市，跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割；对于缺失有相关设备或城市标签的音频数据，根据所处训练集或数据集集位置赋予对应伪标签；

22、第三模块，用于利用训练集和测试集数据样本计算损失函数以进行模型领域自适应训练，训练集包含场景、设备和城市标签，测试集中包含设备和城市标签；

23、基于多领域分类器并联结构的深度学习网络模型的总损失函数包括由最大化分类差异mcd对场景分类损失函数，以及基于梯度反转层grl的领域分类器对场景，城市和设备分类损失函数构成；

25、或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种对不同设备或地点的自适应环境音频分类方法。

26、或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种对不同设备或地点的自适应环境音频分类方法。

27、本发明提供了一种在有限数据量下实现跨城市，跨设备的环境音频分类方法。由于环境音频信号的特殊性，其在不同城市或者不同设备的录制条件下会出现显著的数据分布差异，从而导致已用分类模型难以兼容陌生设备或城市下收集的数据。为了解决上述环境音频分类的泛化性问题，本发明提出了基于多层神经网络的特征解耦方法，实现对场景，设备和城市特征的分离，从而得到鲁棒的场景特征实现泛化的分类决策边界。其中首先准备充分标注的训练数据集和包含新设备或新城市环境音的测试集，然后使用最大分类差异(mcd)和梯度反转层(grl)实现模型中特征提取器和分类器的对抗训练。通过对抗训练，特征提取器可以依赖于有标签的训练集学习到相应的环境特征，并通过比对测试集中陌生城市和设备的数据分布，分离并消除相应的城市和设备特征，从而获得鲁棒的环境特征作为最终分类器的输入。

28、本发明和现有技术的区别是：构建了一个基于最大分类差异和多任务领域分类器并联的新网络结构，并提出了4种不同的多任务领域分类器的实现方式，使得模型在进行领域自适应训练过程中可以引入额外的对音频元数据(设备、城市等)的分类任务，帮助模型进一步利用音频中的元数据，如：设备类型，录制地点(ip地址)等，实现在同时涉及多种不同类型数据域下环境音频分类系统的领域自适应。

29、本发明的技术效果是：

30、有效提升环境音频分类系统在涉及跨域问题上分类性能，在跨城市、跨设备和跨城市跨设别的场景下，相较于基线系统分别提升4.9％、27.7％、17.3％的准确率，同时相比与目前最先进方案，分别提升0.9％、19.8％、10.7％。

31、本发明方案实施简单方便，实用性强，解决了相关技术存在的实用性低及实际应用不便的问题，能够提高用户体验，具有重要的市场价值。