一种基于CNN-GRU融合模型的婴儿哭声分类方法
- 国知局
- 2024-06-21 11:37:15
本发明涉及计算机语音技术,具体涉及一种基于cnn-gru融合模型的婴儿哭声分类方法。背景技术:::1、自动婴儿哭声分类在生物工程里是一个至关重要的研究领域,它采用医学和工程技术分析婴儿哭声的信号来区分婴儿哭声的生理以及病理状态,与成人语音的口头信息不同,很难识别婴儿试图通过他们的哭声传达什么。因此,研究设计一种有效的婴儿哭声分类模型,高效地获取并识别婴儿哭声的生理病理状况,具有重要意义。2、传统的婴儿哭声分类模型大多是基于单分支分类模型,主要分为基于传统机器学习分类器(包括mlp,svm,决策树等模型)和基于深度学习分类器(包括resnet 50,迁移resnet50结合svm模型、图卷积模型以及r-cnn系列方法)。但是传统的机器学习分类器存在诸多局限,如数据规模较小,泛化能力差,难以应用于复杂多变的实际场景。而结合了深度学习分类器方法,大多只关注深层次地提取复杂的婴儿哭声特征表示,无法同时考虑到如何扩充有限的婴儿哭声样本以及充分挖掘婴儿哭声通道内部以及通道之间可区分性特征表示。3、cn114595772a,公开了基于transformer融合模型的婴儿哭声分类方法,其通过音频处理模块对输入的音频样本进行变换,得到音频的频谱图;将得到的频谱图通过预训练的resnet 50模型,得到频谱图特征;将得到的频谱图特征分别输入至频谱图增强模块和注意力机制模块,分别提取出数据增强后的特征表示和通道内和通道之间的可区分性特征表示;通过transformer融合模块对双线性生成的特征表示进行融合,突出有用信息,抑制冗余信息,进一步增强特征图的表征能力;将融合后的特征图用于婴儿哭声分类,通过多次迭代训练得到最后分类结果。4、上述现有技术婴儿哭声分类方法有以下问题:5、(1)现在的哭声分类方法无法解决哭声分类时图像中局部结果和全局语义关系的复杂场景问题。6、(2)同样在有限标注的婴儿哭声数据问题上,受限于婴儿哭声数据的敏感性以及转录原始的哭声数据比较耗时,现有技术方法不能很好的增加频谱图特征的鲁棒性。技术实现思路1、发明目的:本发明针对现有技术的哭声分类方法无法解决哭声分类时图像中局部结果和全局语义关系的复杂场景和现在方法不能很好的增加频谱图特征的鲁棒性问题,提供一种基于cnn-gru融合模型的婴儿哭声分类方法。本发明将音频文本转化为频谱图,用融合模型处理图像问题,可以更好地解决哭声分类时图像中局部结果和全局语义关系的复杂场景问题、更好地解决哭声分类时图像中局部结果和全局语义关系的复杂场景问题,智能、快速、准确地的进行检测。2、本发明采用的技术方案如下:3、步骤(1)、婴儿哭声数据集的获取,通过音频处理模块对输入的音频进行处理,得到训练所用的频谱图;4、步骤(2)、构建预训练模型,对步骤(1)得到的频谱图进行预处理;5、步骤(3)、构建训练模型,初步提取频谱图特征;6、步骤(4)、通过gru模型对步骤(3)得到特征进行编码,然后进行婴儿哭声频谱图分类,通过多次迭代得到最终分类结果。7、本发明将音频文本转化为频谱图,用融合模型处理图像问题,可以更好地解决哭声分类时图像中局部结果和全局语义关系的复杂场景问题、更好地解决哭声分类时图像中局部结果和全局语义关系的复杂场景问题,智能、快速、准确地的进行检测。8、进一步地,所述步骤(1)的处理是指采用kaggle上的babycry数据库,babycry数据库内含有awake、diaper、hug、hungry、sleepy、uncomfortable六种婴儿哭声,共计918个哭声数据,为wav格式的样本;输入由上述得到的待分类的婴儿哭声音频数据进行音频处理模块处理,通过音频处理库进行预处理,并生成频谱图,使用图像增强技术,对得到的频谱图进行图像增强处理从而得到训练所用的数据。9、进一步地,所述步骤(1)通过音频处理模块对输入的音频进行处理,为通过torchaudio音频处理库读取获取的音频文件,将其转换为数字信号,对数字信号应用去噪、降噪技术,将预处理后的信号分为短时窗口,对每个窗口应用傅里叶变换fft,将时序信号转换为频域表示,通过应用mel滤波器将频域表示转换为mel频谱图;其中,10、傅里叶变换:11、12、其中,xk,m表示第m帧的频域第k个频率分量,xwn,m表示加窗后的信号的第m帧的第n个样本,l表示每个帧的长度,j表示虚数单位。13、傅里叶变换的计算过程:将信号分为重叠的帧,对每个帧应用窗函数wn,窗函数的长度与帧的长度一致,将窗函数应用于信号的每个帧上,得到加窗后的信号xwn,对加窗后的信号xwn进行离散傅里叶变换,得到每个帧的频域表示xk,其中k表示频率索引。14、下面进行图像增强,考虑到婴儿哭声频谱图数量小的特点,为了提高系统的鲁棒性和识别精度,我们对频谱图进行图像增强。本发明采用三种自然图像增强方法对频谱图进行增强,其中s(o)为增强后图像,s(i)为原始图像:15、a)加入图像噪声:选取高斯噪声,椒盐噪声,泊松噪声三种常见图像噪声,并且改变不同的信噪比生成数据,下式中n(θ)为噪声,θ为噪声参数:16、s(o)=s(i)+n(θ) (7)17、b)图像模糊化:选取均值滤波、高斯滤波、运动模糊、对比度增强滤波等常见滤波器,设定不同参数得到经过滤波器后的图像,下式中f(·)为滤波器,φ为滤波器参数:18、s(o)=f(s(i)|φ) (8)19、c)改变图像明暗度:选取不同的亮度比例,将原图像进行亮度值变换,下式中f(·)为亮度变化函数:20、s(o)=f(s(i)) (9)21、通过利用以上策略对前一步得到的频谱图进行变换,实现对婴儿哭声频谱图的增强,增强后的数据量是原始数据量的10倍,处理后的频谱图分为awake、diaper、hungry、hug、sleepy、uncomfortable六类,共计9180个频谱图。22、进一步地,所述步骤(2)构建预训练模型,对步骤(1)得到的频谱图进行预处理方法为:23、使用imagenet的预训练参数,输入频谱图以32张图片组成一个batch,每张频谱图通过transform操作转换为3*224*244尺寸,使用imagenet上的均值和方差对频谱图进行归一化处理,均值mean=[0.485,0.456,0.406],方差std=[0.229,0.224,0.225]对频谱图进行归一化处理,由此这批的频谱图图像尺寸为32*3*224*224。24、进一步地,所述步骤(3)构建训练模型,初步提取频谱图特征的具体方法为;将resnet-50预训练模型作为基础网络,首先把这批频谱图输入resnet-50网络,resnet-50网络使用步骤(3)在imagenet上的预训练参数,进行一个conv2d二维卷积输入通道数为3,输出通道数为64kernel size,卷积核尺寸为7*7,stride步长为2,padding填充为3,输入为32*3*224*224,输出为32*64*114*114;随后进行一个batchnorm2d进行归一化,输入为32*64*114*114,输出为32*64*114*114;接着进行非线性函数relu处理,输入为32*64*114*114,输出为32*64*114*114,然后进行最大池化maxpool2d,参数为kernel size,卷积核为3*3,stride步长为2,padding边缘填充1,输入为32*64*114*114,输出为32*64*56*56;最后接入四个组输出,每组均由卷积层来进行映射,得到resnet最终输出为32*2048*7*7。25、进一步地,所述步骤(4)中通过gru模型对步骤(3)得到特征进行编码,然后进行婴儿哭声频谱图分类的方法为:频谱图特征经步骤(3)转化变为32*2048*7*7,设置gru的h隐藏层为256,输入长度,即编码程度为2048;换算成gru模型中的h隐藏层的长度为256,x的长度为2048,随后获取gru的h隐藏层,长度为256的向量,加上前面的batch,输出为32*256,随后输入全连接层,输出32*6,进行六分类任务。26、进一步地,对于步骤(4)gru模型构建如下:27、gru模型的构建,gru模型对数据的传递主要通过其门循环控制单元完成的,该结构可以很好的解决长距离依赖问题,更好的控制输出结果;gru模型中的更新门与重置门分别使用符号rt与zt,这其中更新门表示了准入程度,即有多少被允许写入到当前候选状态中;当输入xt后,重置门的输出结果为:28、rt=σ(wr·[ht-1,xt]) (10)29、公式中σ为激活函数sigmoid,wr为t时刻gru模型学习的重置门权重系数,ht-1为上一时刻隐藏层的输出状态;30、更新门的输出结果为:31、zt=σ(wz·[ht-1,xt]) (11)32、公式中σ为激活函数sigmoid,wz为t时刻gru模型学习的更新门权重系数,ht-1为上一时刻隐藏层的输出状态;33、候选状态的输出结果为:34、35、公式中tanh为激活函数,为t时刻gru模型学习出的候选隐藏层的权重系数;36、隐藏层状态输出的结果为:37、38、最终输出层yt的输出结果:39、yt=σ(w0·ht)) (14)40、进一步地,所述步骤(4)迭代训练过程中,通过交叉熵获取损失loss来进行梯度反向传播并通过adam来更新模型参数,从而进行训练,最后迭代次数为50次,得到学习率、准确率和loss的值。41、本发明利用深度卷积神经网络的算法,设计一种基于cnn-gru融合模型的婴儿哭声分类方法。该方法以婴儿哭声为研究对象,通过声音转换到频谱图,对频谱图增强处理,用cnn-gru融合模型对哭声进行分类训练,得到训练准确率。这种融合模型可以更好地捕捉到婴儿哭声中的相关特征,提高婴儿哭声分类的准确性和鲁棒性。42、本发明具有以下优点:43、(1)本发明构建的训练模型,是一种新型双模型融合网络,能够多层次的挖掘频谱图特征。44、(2)本发明的频谱图增强模块,提取通道内的频谱图鲁棒性特征表示,可提升音频数量,同时还可动态扩展数据集。45、(3)本发明的resnet-50网络,提取可区分性特征表示,能充分挖掘可区分性特征。46、(4)本发明特征融合模块可实现特征间的互补作用,突出有用信息,抑制冗余信息,进一步增强特征图的表征能力。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20240618/22482.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。