技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于机器学习的婴幼儿哭声增强方法、装置及设备与流程 > 正文

基于机器学习的婴幼儿哭声增强方法、装置及设备与流程

国知局
2024-09-11 15:11:58

本发明涉及音频处理，尤其涉及一种基于机器学习的婴幼儿哭声增强方法、装置及设备。

背景技术：

1、婴幼儿尤其是新生儿和不会说话的婴幼儿，其哭声是表达情绪和生理需求的重要方式，包括饥饿、疼痛、不舒服或者需要照顾等。而婴幼儿父母大多数因为工作忙碌而没有太多的时间照顾孩子，所以智能婴幼儿看护设备的出现成为一种趋势。然而，在家庭环境或医院病房中，由于存在其他声音干扰如人声、电器噪音、环境背景音等影响，导致婴幼儿看护设备不能准确辨识出是否存在婴幼儿哭声，或者收集到的婴幼儿哭声因环境声音嘈杂而无法从婴幼儿哭声中判别出婴幼儿哭声的类型，从而不能较好地起到智能看护婴幼儿的作用。

2、传统的方法可能需要人工监听和分析，不仅耗时费力，且易受主观因素影响。现有技术中有通过人工预先标记纯净的婴幼儿哭声音频，再对音频处理，从而增强婴幼儿啼哭的声音；或通过收集婴幼儿的哭声进行训练，将声音分为正负样本并分别进行标签，然后根据混合增强的方法通过线性插值的方法获得新的虚拟样本和标签，增加样本数据，从而达到增强的效果。

3、收集到的婴幼儿哭声受限于环境噪音、背景音乐、多人交谈等多种声音源的干扰，难以准确区分和提取出婴幼儿哭声的有效数据，需要人工预先标记好干净哭声样本，增加了数据准备的成本且因收集到的婴幼儿哭声音频质量差，而导致根据哭声判断的婴幼儿智能看护设备难以准确识别出婴幼儿哭声类型。

技术实现思路

1、有鉴于此，本发明提供了一种基于机器学习的婴幼儿哭声增强方法、装置及设备，用以解决现有技术中收集到的婴幼儿哭声受限于环境噪音、背景音乐、多人交谈等多种声音源的干扰，难以准确区分和提取出婴幼儿哭声的有效成分，需要人工预先标记的干净哭声样本，增加了数据准备的成本且因收集到的婴幼儿哭声音频质量差而导致根据哭声判断的婴幼儿智能看护受到影响的问题。

2、本发明采用的技术方案是：

3、第一方面，本发明提供了一种基于机器学习的婴幼儿哭声增强方法，所述方法包括：

4、获取第一音频数据，其中，所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据；

5、对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图；

6、将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息；

7、根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据。

8、优选地，所述对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图包括：

9、将所述第一音频数据设置为相同采样率；

10、将设置为相同采样率的所述第一音频数据进行分段处理，其中，每个分段音频数据包括部分所述第一音频数据，相邻两段分段音频数据有部分音频数据重叠；

11、对各所述分段音频数据进行转换，得到所述分段音频数据对应的频谱图；

12、对各所述频谱图按照预设特征增强处理方式进行增强处理，得到增强后的频谱图。

13、优选地，所述预设特征增强处理方式包括：对数转换处理方式、频率轴调整处理方式或频谱平滑处理方式。

14、优选地，所述将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息包括：

15、将所述频谱图进行标准化处理，得到标准化频谱图；

16、构建用于提取婴幼儿哭声特征的自编码器模型；

17、根据所述标准化频谱图输入所述自编码器模型进行训练，得到训练后的自编码器模型；

18、将所述标准化频谱图输入训练后的自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息。

19、优选地，所述根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据包括：

20、根据所述婴幼儿哭声特征，对所述第一音频数据对应的频谱图进行重构，得到第二频谱图；

21、将所述第二频谱图进行转换，得到所述第二频谱图对应的音频数据；

22、对所述第二频谱图对应的音频数据进行信号增强处理，得到增强后的第二音频数据。

23、优选地，所述对所述第二频谱图对应的音频数据进行信号增强处理，得到增强后的第二音频数据，包括：

24、获取预设能量门限值，其中，所述预设能量门限值用于区分哭声或非哭声；

25、对所述第二频谱图对应的音频数据中的信号能量值大于所述预设能量门限值的部分进行增强处理，对所述第二频谱图对应的音频数据中的信号能量值小于所述预设能量门限值的部分进行抑制处理。

26、优选地，所述的基于机器学习的婴幼儿哭声增强方法包括：

27、获取多名婴幼儿的哭声的第三音频数据；

28、将第三音频数据进行声源定位处理，得到各婴幼儿对应的哭声信息；

29、根据各所述哭声信息，对所述第三音频数据进行声源分离处理，得到各婴幼儿对应的哭声音频数据。

30、第二方面，本发明提供了一种基于机器学习的婴幼儿哭声增强装置，所述装置包括：

31、第一音频数据获取模块：用于获取第一音频数据，其中，所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据；

32、预处理模块：用于对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图；

33、哭声特征提取模块：用于将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息；

34、音频数据增强模块：用于根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据。

35、第三方面，本发明实施例还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

36、第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

37、综上所述，本发明的有益效果如下：

38、本发明提供的一种基于机器学习的婴幼儿哭声增强方法、装置及设备，首先获取第一音频数据，其中，所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据；对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图；将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息；根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据。整体上有效地从嘈杂环境中提取并增强了婴幼儿哭声，显著提高了哭声信号的纯净度和识别率，有助于即时关注婴幼儿状态，提升护理质量和效率。

技术特征：

1.一种基于机器学习的婴幼儿哭声增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图包括：

3.根据权利要求2所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述预设特征增强处理方式包括：对数转换处理方式、频率轴调整处理方式或频谱平滑处理方式。

4.根据权利要求3所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息包括：

5.根据权利要求4所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据包括：

6.根据权利要求5所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述对所述第二频谱图对应的音频数据进行信号增强处理，得到增强后的第二音频数据包括：

7.根据权利要求1所述的基于机器学习的婴幼儿哭声增强方法，其特征在于，所述对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图之前还包括：

8.一种基于机器学习的婴幼儿哭声增强装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的基于机器学习的婴幼儿哭声增强方法。

10.一种存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的基于机器学习的婴幼儿哭声增强方法。

技术总结本发明涉及音频处理技术领域，解决了现有技术中收集到的婴幼儿哭声受限于杂音的干扰，难以准确区分和提取出有效婴幼儿哭声的问题，提供了一种基于机器学习的婴幼儿哭声增强方法、装置及设备。该方法包括：获取第一音频数据，其中，所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据；对所述第一音频数据进行预处理，得到第一音频数据对应的频谱图；将所述频谱图输入自编码器模型，输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息；根据所述音频特征信息，对含有婴幼儿哭声的音频数据进行处理，得到增强后的第二音频数据。本发明有效地从嘈杂环境中提取并增强了婴幼儿哭声，显著提高了哭声信号的纯净度和识别率。技术研发人员：张智,陈辉,熊章,张青军,胡国湖受保护的技术使用者：宁波星巡智能科技有限公司技术研发日：技术公布日：2024/9/9