技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于深度学习的哭声检测方法及系统  >  正文

一种基于深度学习的哭声检测方法及系统

  • 国知局
  • 2024-06-21 11:29:23

本发明涉及声音事件检测与深度学习领域,特别涉及一种基于深度学习的哭声检测方法及系统。

背景技术:

1、现代社会由于生活、工作等的压力,很多人特别是婴幼儿有时候仅能藉由哭泣方式表达情绪与需求,因此,对于哭声的检测存在很大市场需求。

2、通常地,现有的语音信号识别系统通常是由语音信号预处理,特征提取和分类等各部分组成,其中,特征提取是最重要的部分,它的好坏直接影响识别结果;因此,对于如何对语音信号的特征进行识别,以及设计特征提取的模型是至关重要的一个关键技术难题。

3、现有研究者提出的婴儿哭声检测方法大多无法判断具体哭声发生时段。如公开号为cn111326179a的中国发明申请公开了一种婴儿哭声检测深度学习方法,该方法:建立基于卷积网络和长短时记忆递归神经网络的深度学习分类器;并将提取到的相邻n帧耳蜗语音特征输入深度学习分类器中,得到n帧分类结果,运用多数优先投票原则对n帧分类结果进行投票,得到最终婴儿哭声检测结果。该方法使用的多数优先投票机制不能处理哭声成分较少的样本,且只能判断片段是否包含哭声,而无法得到具体哭声发生时间。

技术实现思路

1、本发明的目的在于对改进基于crnn的哭声检测模型,以及提出弱监督训练方法,以提升检测准确性和效果。

2、为达到上述目的,本发明通过下述技术方案实现。

3、本发明提出了一种基于深度学习的哭声检测方法,包括:

4、提取待检测语音信号的mfcc频谱,并输入预先建立并训练好的哭声检测模型中,输出得到每一帧语音信号为哭声和非哭声的概率;

5、通过概率阈值对哭声概率进行二值化,得到连续的哭声片段,将超过阈值时长的片段输出为哭声片段;

6、其中,所述哭声检测模型通过在crnn中引入帧级注意力机制模块得到,并采用弱监督训练方法训练完成。

7、作为上述技术方案的改进之一,所述哭声检测模型,包括:卷积神经网络、帧级注意力机制、循环神经网络和分类器;其中,

8、所述卷积神经网络,包括n层卷积神经网络,用于提取频谱图像的深度特征;

9、所述帧级注意力机制模块,用于将注意力集中在与哭声检测相关的信息上,自动学习到每个帧的重要性并进行加权;

10、所述循环神经网络,用于对频谱特征进行时间序列建模,并捕捉序列中不同时间步的依赖关系,学习哭声的序列特征、哭声沿时间轴的变化和演化;

11、所述分类器,包括全连接层,用于输出每一帧语音信号为哭声和非哭声的概率。

12、作为上述技术方案的改进之一,所述帧级注意力机制模块,包括:avgpooling层、压缩线性层、relu和还原线性层;其中,

13、所述avgpooling层,用于对每帧特征求平均;

14、所述压缩线性层、relu和还原线性层,用于得到每帧的注意力权重,并将每帧原始特征与注意力权重相乘,再与原始权重相加,输出帧间注意力加权后的频谱特征。

15、作为上述技术方案的改进之一,采用弱监督训练方法训练哭声检测模型,包括:

16、提取语音信号的mfcc频谱;

17、将语音信号的mfcc频谱输入到哭声检测模型,得到每一帧为哭声和非哭声的概率p;

18、从所有帧的概率p中选择具有最大概率的帧作为相应事件的代表;

19、使用交叉熵损失函数,将选择的具有最大概率的帧的概率p(tmax)与真实标签的概率分布ptrue进行比较,计算交叉熵损失l:

20、l=-∑[ptrue*log(p(tmax))]

21、重复上述步骤得到训练好的哭声检测模型。

22、作为上述技术方案的改进之一,所述哭声检测模型的处理过程包括:

23、对输入的语音信号的mfcc频谱进行特征提取,得到每帧的频谱特征表示为fcnn(mfcc):

24、对每个帧的频谱特征fcnn(mfcc)t,使用帧级注意力机制模块计算帧的注意力权重,得到每帧的注意力a;

25、将注意力权重应用于每帧的频谱特征,得到重组后的特征表示为f′:

26、f′=a*fcnn(mfcc)+fcnn(mfcc)

27、将重组后的特征f′传入循环神经网络,得到每帧的隐藏状态;

28、将每帧的隐藏状态输入分类器,计算每一帧为哭声和非哭声的概率p。

29、作为上述技术方案的改进之一,所述对输出概率进行处理,包括:对每个帧的分类概率使用中值滤波进行平滑。

30、本发明还提出一种基于深度学习的哭声检测系统,用于提取待检测语音信号的mfcc频谱,并输入预先建立并训练好的哭声检测模型中,输出得到每一帧语音信号为哭声和非哭声的概率;

31、通过概率阈值对哭声概率进行二值化,得到连续的哭声片段,将超过阈值时长的片段输出为哭声片段;

32、其中,所述哭声检测模型通过在crnn中引入帧级注意力机制模块得到,并采用弱监督训练方法训练完成。

33、本发明与现有技术相比优点在于:

34、1、本发明在传统的哭声检测模型(crnn)中引入了帧级注意力机制;通过在模型中加入帧间注意力模块,模型能够自动学习每帧特征的重要性,并根据重要性加权处理;这样,模型能够更加关注对哭声识别起关键作用的帧,并提高哭声检测的准确性和鲁棒性;帧级注意力机制的引入使得模型在哭声检测任务中具备了更好的特征选取和区分能力;

35、2、为了有效利用弱标签数据并防止模型过拟合噪声,本发明采用了弱监督训练方法;传统的音频数据标记通常只提供整个音频是否包含哭声的标签,而不提供具体事件发生的时间点;在这种情况下,本发明利用了弱标签数据,并提出了一种策略来提高对弱标签数据的利用效率;通过该方法,不仅能够更有效地利用数据,还能够在一定程度上抑制模型对噪声的过拟合现象,提高哭声检测的信号与噪声鉴别能力;

36、3、本发明将帧级注意力机制和弱监督训练方法应用于哭声检测模型,提高了模型的准确性、鲁棒性和可靠性;这项创新有望在智能家居领域产生广泛的应用,提升系统的哭声检测性能,促进人们对婴幼儿安全和健康的关注与保护。

技术特征:

1.一种基于深度学习的哭声检测方法,包括:

2.根据权利要求1所述基于深度学习的哭声检测方法,其特征在于,所述哭声检测模型,包括:卷积神经网络、帧级注意力机制、循环神经网络和分类器;其中,

3.根据权利要求1所述基于深度学习的哭声检测方法,其特征在于,所述帧级注意力机制模块,包括:avgpooling层、压缩线性层、relu和还原线性层;其中,

4.根据权利要求1所述基于深度学习的哭声检测方法,其特征在于,采用弱监督训练方法训练哭声检测模型,包括:

5.根据权利要求2所述基于深度学习的哭声检测方法,其特征在于,所述哭声检测模型的处理过程包括:

6.根据权利要求1所述基于深度学习的哭声检测方法,其特征在于,所述对输出概率进行处理,包括:对每个帧的分类概率使用中值滤波进行平滑。

7.一种基于深度学习的哭声检测系统,其特征在于,用于提取待检测语音信号的mfcc频谱,并输入预先建立并训练好的哭声检测模型中,输出得到每一帧语音信号为哭声和非哭声的概率;

技术总结本发明涉及声音事件检测与深度学习领域,特别涉及一种基于深度学习的哭声检测方法及系统。本发明方法包括以下步骤:首先,提取待检测语音信号的MFCC频谱,并输入预先建立并训练好的哭声检测模型中,输出每一帧语音信号为哭声和非哭声的概率。然后,对输出概率进行处理,得到每一帧语音信号为哭声和非哭声的概率。接下来,通过概率阈值对哭声概率进行二值化,得到连续的哭声片段。最后,将超过阈值时长的片段输出为哭声片段。所述哭声检测模型采用了一种引入帧级注意力机制模块的CRNN结构,并采用弱监督训练方法进行训练。通过本发明,实现了一种基于深度学习的哭声检测方法及相应的系统,为婴儿护理领域的技术发展提供了一种创新解决方案。技术研发人员:黎塔,冯宇,吴愁,张鹏远受保护的技术使用者:中国科学院声学研究所技术研发日:技术公布日:2024/2/21

本文地址:https://www.jishuxx.com/zhuanli/20240618/21787.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。