音频信号识别方法、装置和烟灶系统与流程
- 国知局
- 2024-06-21 10:41:21
本技术涉及音频识别,特别是涉及一种音频信号识别方法、装置和烟灶系统。
背景技术:
1、随着人工智能技术的发展,语音识别技术的应用也越来越普遍,在获取到一段音频信号后可以自动识别该音频信号中是否含有所需的目标音频。但目前已有的音频识别技术包括神经网络、hmm(hidden markov model,隐马尔科夫模型)、hmm-gmm(gaussianmixture model,高斯混合模型)、dnn(deep neural networks,深度神经网络)-hmm等,这些方案的实现过程普遍对算力要求较高,导致对应用在嵌入式系统上,特别是应用在mcu(microcontrollerunit,单片微型计算机)上的音频识别不太友好,进一步地,也会导致针对一些简单单调的音频进行识别时会造成资源的浪费。
2、目前在针对目标音频识别判断时存在的耗费资源过多的问题,尚未提出有效的解决方案。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种音频信号识别方法、装置和烟灶系统。
2、第一方面,本技术提供了一种音频信号识别方法。所述方法包括:
3、获取初始音频信号;对初始音频信号进行特征提取处理,得到目标频谱帧向量,并基于目标频谱帧向量得到频谱信息熵;基于所有频谱信息熵确定至少两个聚类簇相应的目标聚类中心;计算所有频谱信息熵与每个目标聚类中心之间的距离结果,根据距离结果得到音频信号识别结果。
4、由此,本技术通过基于上述频谱信息熵的聚类计算,即可得到针对初始音频信号的分类结果,进而可得音频信号的识别结果,鉴于一段初始音频信号的帧数并不多,和上万的神经网络参数相比,本技术中对频谱信息熵的求解以及对聚类中心的求解,对算力的需求并不大,在识别一些简单单调的目标音频时采用本技术的方法可以有效节省计算资源。
5、在其中一个实施例中,基于目标频谱帧向量得到频谱信息熵,包括:
6、将频谱帧向量分割为至少两个频谱向量数组,基于频谱向量数组得到频谱信息熵,其中,频谱信息熵与频谱向量数组为一一对应关系。由此,基于频谱信息熵的计算来反映对应的频谱向量数组中不同的频率幅值出现的概率,为后续的聚类计算打下基础,从而实现了对于初始音频信号的分类及识别。
7、在其中一个实施例中,基于目标频谱帧向量得到频谱信息熵,包括:
8、基于预设的频率范围得到频率划分规则;基于频率划分规则将目标频谱帧向量分割为至少两个频谱向量数组,基于频谱向量数组得到频谱信息熵。由此,基于上述频率范围完成对于目标频谱帧向量的划分,将同一频率的目标频谱帧向量划分在同一组,便于后续在进行聚类计算时综合所有不同频率上的频谱信息熵,以得到准确的分类结果。
9、在其中一个实施例中,获取初始音频信号,对初始音频信号进行特征提取处理得到至少两个频谱帧向量,并基于频谱帧向量在时间维度上的变化得到目标频谱帧向量,包括:
10、对初始音频信号进行分帧并加窗处理,得到声音信息加窗结果;
11、将声音信息加窗结果进行傅里叶变换,得到频谱帧向量;
12、将频谱帧向量按照时间维度进行排列,并基于预设的频率范围进行滤波处理,得到对应于初始音频信号的频谱结果;
13、求解在时间维度上至少两个相邻的频谱帧向量中的频谱系数之间的变化结果,基于变化结果得到目标频谱帧向量;其中,频谱帧向量由至少两个频谱系数构成。
14、由此,基于上述方法,在基于上述初始音频信号计算得到了频谱结果之后,后续的计算是针对组成频谱结果的频谱帧向量在时间维度上的变化实现的,即上述目标频谱帧向量,从而可以更好的反映出频率在时间维度上的变化
15、在其中一个实施例中,基于目标频谱帧向量得到频谱信息熵,包括:
16、基于频谱系数在时间维度上的变化得到目标频谱系数;
17、基于目标频谱系数在频谱向量数组中出现的概率得到频谱信息熵。
18、基于上述方法可知,频谱帧向量是由多个频谱系数组成,计算相邻的频谱帧向量在时间维度上的变化即为计算频谱系数对应的变化。基于可以反应频谱系数在时间维度上的变化差异的目标频谱系数,来计算对应的频谱信息熵,可以更好的反映出频谱系数携带的信息量。
19、在其中一个实施例中,获取至少两个目标聚类中心,包括:
20、获取预设的至少两个聚类类别,基于聚类类别设置针对于频谱信息熵的当前聚类类别标签;
21、基于当前聚类类别标签计算每一个聚类类别的当前聚类中心,并基于当前聚类中心更新频谱信息熵的聚类类别标签,得到频谱信息熵的下一个聚类类别标签;
22、重复以上步骤,直至更新后的下一个聚类中心与所述当前聚类中心之间的距离小于预设聚类阈值,得到所述目标聚类中心。
23、通过上述方法,可以得到针对于频谱信息熵的目标聚类中心,在得到准确地目标聚类中心后即可根据多个频谱信息熵距多个目标聚类中心的距离得到对于初始音频信号的分类结果。相比于现有技术中多利用神经网络完成对于初始音频信号的判断,通过上述聚类计算的方法所耗费的计算资源更少,耗费市场也更短,更适合针对单调简单的目标音频进行识别。
24、在其中一个实施例中,获取至少两个所述目标聚类中心,包括:
25、获取预设的至少两个聚类类别,基于所述聚类类别生成频谱信息熵对应的当前聚类类别标签;为每个频谱信息熵分配对应的当前维度权重值;基于当前聚类类别标签以及当前维度权重值,计算每一个聚类类别的当前聚类中心,并基于频谱信息熵与所有当前聚类中心之间的距离,对频谱信息熵的当前聚类类别标签以及当前维度权重值进行更新,得到频谱信息熵的下一个聚类类别标签以及下一个维度权重值;重复以上步骤,直至更新后的下一个聚类中心与当前聚类中心之间的距离小于预设的距离阈值,且下一个维度权重值以及当前维度权重值之间的权重值之差小于预设的维度权重阈值,得到目标聚类中心。
26、通过上述方法,在计算聚类中心的基础上为不同的频谱信息上分配不同的维度权重值,如对不重要的维度分配较小的权重值,以得到更准确的迭代结果,避免了该不重要的维度影响对聚类中心的迭代结果,其中不重要的维度如噪声维度等。
27、在其中一个实施例中,计算所有频谱信息熵与每个目标聚类中心之间的距离结果,根据距离结果得到音频信号识别结果,包括:
28、依次计算每个频谱信息熵与每个目标聚类中心之间的中心距离结果之和;
29、基于中心距离结果中的目标距离结果,得到音频信号识别结果,其中,目标距离结果为所有中心距离结果之和中数值最小的距离。
30、通过上述方法,通过计算目标聚类中心与各个频谱信息熵之间的距离来完成对于初始音频信号的类别判定,进而完成对于初始音频信号的识别,相比于现有技术中利用神经网络实现对于初始音频信号的识别,本技术中基于针对频谱信息熵来进行聚类计算的方法,可以更简便高效的实现对于初始音频信号的识别,进一步地,由于对算力要求不高,本技术的方法可以适用于更广泛的应用场景,如单片机计算等。
31、第二方面,本技术还提供了一种音频信号识别装置。所述装置包括:
32、获取模块,用于获取初始音频信号;
33、计算模块,用于对初始音频信号进行特征提取处理,得到目标频谱帧向量,并基于目标频谱帧向量得到频谱信息熵;并基于所有频谱信息熵确定至少两个聚类簇相应的目标聚类中心;
34、生成模块,用于计算所有频谱信息熵与每个聚类中心之间的距离结果,根据距离结果得到音频信号识别结果。
35、第三方面,本技术还提供了一种烟灶系统。烟灶系统包括烟机以及灶具;
36、所述烟机,连接所述灶具,用于获取初始音频信号,并基于所述初始音频信号执行如上文所述的音频信号识别方法;其中,基于所述音频信号识别方法得到的音频信号识别结果用于指示所述初始音频信号中是否包含所述灶具产生的目标声音。
37、在烟灶系统中,上述目标声音多为上述灶具的打火音,不同类型的灶具的打火音也极为相似,多为单调的、较为突出的声音,与厨房的噪音有显著的差异,因此在上述在上述应用环境中通过本技术的方法可以高效的实现对于打火音的识别,并且上述计算方法可以应用在烟机中的mcu芯片上,节省了算力的同时也减少了计算成本。
38、上述音频信号识别方法、装置和烟灶系统,基于初始音频信号得到目标频谱帧向量,可以有效地反映在频谱帧向量在时间维度上的变化,相比于直接基于频谱帧向量来计算频谱信息熵,可以更突出初始音频信号中的目标声音和噪音之间的差异;进一步地,基于上述由目标频谱帧向量得到的频谱信息熵来计算目标聚类中心,并通过聚类中心实现对于初始音频信号的分类及识别,可以很大程度上计算成本,现有技术中常用的基于神经网络实现对于目标声音的识别,其网络参数通常数以万计,而若将该神经网络用于针对较为单调、突出、短促的目标声音进行识别,则会出现方法过于冗余的问题,本技术提出的方法则解决了这个问题,相比于神经网络,本技术中计算的目标频谱帧向量的数量大大降低,在节省了大量算力的基础上也可以实现准确的识别上述目标声音。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21221.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。