目标声学场景的确定方法、装置、计算机设备及存储介质
- 国知局
- 2024-06-21 11:56:18
本发明涉及数据处理,具体涉及目标声学场景的确定方法、装置、计算机设备及存储介质。
背景技术:
1、声学场景分类技术的核心任务是对环境中的声音进行分类和识别。它利用信号处理和机器学习技术,对音频信号进行特征提取和模式识别,从而将不同的音频片段归类到预定义的场景或环境中。这些场景可以包括室内环境、户外环境、交通场景、办公场景等等。通过对声音的分类和识别,智能设备可以更好地理解环境,提供符合使用者需求的个性化服务。例如,在一个居家环境中,声学场景分类技术可以识别出是正在播放音乐的场景还是正在进行对话的场景,从而智能调节音乐的音量或者提供适当的语音增强功能。在交通场景中,声学场景分类技术可以识别出是车辆行驶的声音或交通信号的声音,从而智能分析交通状况并提供相应的导航建议。
2、目前,从隐马尔可夫模型的应用到深度神经网络的流行,研究人员们对不同的总声学特征进行了大量试验,如logmel能量。其中,logmel能量特征与卷积神经网络的组合成为了主流的选择,该特征在各种改进的卷积网络结构出表现出较好的分类性能。但现有的工作大都集中于如何设计更精巧复杂的网络系统,忽视了对总声学特征的进一步研究和探讨,从而无法得到更丰富、更深层的声场信息。
技术实现思路
1、有鉴于此,本发明提供了一种目标声学场景的确定方法、装置、计算机设备及存储介质,以解决单一特征无法得到更丰富、更深层的声场信息的问题。
2、第一方面,本发明提供了一种目标声学场景的确定方法,该方法包括:获取音频信号;对音频信号进行特征提取处理,得到总声学特征;其中,总声学特征包括:logmel能量、频谱包络和频谱精细结构;基于总声学特征,利用预先训练好的神经网络模型进行处理,得到每个预定义的声学场景的概率;比对各个预定义的声学场景的概率,确定目标声学场景。
3、本实施例提供的目标声学场景的确定方法,通过对音频信号进行特征提取处理,得到logmel能量、频谱包络和频谱精细结构三种声学特征,并通过三种声学特征得到音频信号的总声学特征,并通过音频信号的总声学特征进行处理,得到每个预定义的声学场景的概率,比对各个预定义的声学场景的概率,确定目标声学场景,相比于只通过logmel能量特征的方式,本实施例得到更丰富、更深层的声场信息。
4、在一个可选的实施方式中,对音频信号进行特征提取处理,得到总声学特征,包括:基于音频信号确定logmel能量;基于logmel能量,确定音频信号的倒谱特征;对倒谱特征添加高通滤波矩形窗以及低通滤波矩形窗,得到目标倒谱特征;对目标倒谱特征进行傅里叶变换,得到高通滤波矩形窗对应的频谱精细结构和低通滤波矩形窗对应的频谱包络;对logmel能量、频谱包络和频谱精细结构进行特征融合,得到总声学特征。
5、在一个可选的实施方式中,构建预先训练好的神经网络模型,包括:构建第一模型以及第二模型;获取训练数据集;对训练数据集进行分帧以及特征计算,得到短时特征图以及长时特征图;其中,长时特征图的时长与音频信号的时长相同,短时特征图的总时长与音频信号的时长相同;基于短时特征图对第一模型进行模型训练,得到第一目标模型;基于长时特征图对第二模型进行模型训练,得到第二目标模型;对第一目标模型以及第二目标模型进行融合,得到预先训练好的神经网络模型。
6、在一个可选的实施方式中,历史分类结果包括:各个历史时刻的历史概率;其中,基于历史分类结果对概率进行修正,得到目标概率,包括:基于各个历史时刻的历史概率,确定历史概率的平均值;基于概率以及历史概率的平均值,确定当前时刻的目标概率。
7、在一个可选的实施方式中,上述方法还包括:获取测试数据集;将测试数据集输入至预先训练好的神经网络模型,得到测试结果;检测测试结果与是否满足预设测试结果;若测试结果与满足预设测试结果,则判定预先训练好的神经网络模型合格;若测试结果不满足预设测试结果,则判定预先训练好的神经网络模型不合格。
8、在一个可选的实施方式中,对目标倒谱特征进行傅里叶变换,得到高通滤波矩形窗对应的频谱精细结构和低通滤波矩形窗对应的频谱包络,包括:
9、其中,ωl[n]为低通滤波矩形窗,ωh[n]为高通滤波矩形窗,为目标倒谱特征,yenv为频谱包络,yfs为频谱精细结构,为傅里叶变换。
10、在一个可选的实施方式中,对倒谱特征添加高通滤波矩形窗以及低通滤波矩形窗,得到目标倒谱特征,包括:
11、其中,为目标倒谱特征,y[n]为倒谱特征,为傅里叶变换,为傅里叶逆变换。
12、第二方面,本发明提供了一种目标声学场景的确定装置,该装置包括:获取模块,用于获取音频信号;特征提取处理模块,用于对音频信号进行特征提取处理,得到总声学特征;处理模块,用于基于总声学特征,利用预先训练好的神经网络模型进行处理,得到每个预定义的声学场景的概率;比对确定模块,用于比对各个预定义的声学场景的概率,确定目标声学场景。
13、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的目标声学场景的确定方法。
14、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的目标声学场景的确定方法。
技术特征:1.一种目标声学场景的确定方法,其特征在于,包括:
2.根据权利要求1所述的目标声学场景的确定方法,其特征在于,所述对所述音频信号进行特征提取处理,得到总声学特征,包括:
3.根据权利要求1所述的目标声学场景的确定方法,其特征在于,构建预先训练好的神经网络模型,包括:
4.根据权利要求1所述的目标声学场景的确定方法,其特征在于,所述历史分类结果包括:各个历史时刻的历史概率;其中,所述基于所述历史分类结果对所述概率进行修正,得到目标概率,包括:
5.根据权利要求1所述的目标声学场景的确定方法,其特征在于,还包括:
6.根据权利要求2所述的目标声学场景的确定方法,其特征在于,所述对所述目标倒谱特征进行傅里叶变换,得到所述高通滤波矩形窗对应的频谱精细结构和所述低通滤波矩形窗对应的频谱包络,包括:
7.根据权利要求2所述的目标声学场景的确定方法,其特征在于,所述对所述倒谱特征添加高通滤波矩形窗以及低通滤波矩形窗,得到目标倒谱特征,包括:
8.一种目标声学场景的确定装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的目标声学场景的确定方法。
技术总结本发明涉及数据处理技术领域,公开了一种目标声学场景的确定方法、装置、计算机设备及存储介质。该方法包括:获取音频信号;对音频信号进行特征提取处理,得到总声学特征;基于总声学特征,利用预先训练好的神经网络模型进行处理,得到每个预定义的声学场景的概率;获取历史分类结果,并基于历史分类结果对概率进行修正,得到目标概率;基于目标概率确定目标声学场景。本方法能够通过对音频信号进行特征提取处理,得到基于LogMel能量、频谱包络和频谱精细结构三种声学特征组成的总声学特征,通过网络模型对其学习并经过制定策略输出,可以得到更准确的声场分类结果。技术研发人员:韩曜骏,郑能恒受保护的技术使用者:深圳大学技术研发日:技术公布日:2024/6/5本文地址:https://www.jishuxx.com/zhuanli/20240618/24585.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。