一种音频实时场景识别系统的制作方法
- 国知局
- 2024-06-21 10:39:36
本发明涉及音频识别,具体为一种音频实时场景识别系统。
背景技术:
1、音频场景识别广泛应用于设备的环境感知,音频场景识别作为场景识别中的一个研究方向,音频场景识别通过分析音频来提取其所处的环境信息,音频包含与场景相关的丰富信息,使基于音频的场景识别成为可能,音频场景识别是一种通过提取场景音频信号的特征自动确定设备周围场景的过程,可以使各种便携式设备更加智能,一些电子产品可以根据周围不同的场景而自动的调节各种情景模式。
2、如申请公布号为:cn113793622a,申请公布日为2021.12.14,名称为《一种音频场景识别方法、系统及装置》,其通过残差网络结构的神经网络在大量数据进行训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,以及极大地提升对短时音频的识别性能,但是公知的,音频场景识别的主要任务是从音频样本中提取特征信息,依据模式匹配算法识别音频样本,只有在特征信息中包含了足够多的类别信息,才能通过分类器实现正确分类,而特征参数中是否包含有足够的类别信息却很难确定,通常在实际应用中,特征信息是否有效往往是未知的,所以会通过提取大量特征以更好地表示目标模式,但是并不是所有的特征都是有效的,其中存在很多冗余特征、无关特征,这些特征不但会增加音频场景识别计算复杂性,还会降低音频场景识别准确性。
技术实现思路
1、本发明的目的是提供一种音频实时场景识别系统,以解决现有技术中的上述不足之处。
2、为了实现上述目的,本发明提供如下技术方案:一种音频实时场景识别系统,包括:
3、音频特征信息提取单元,所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集u;
4、特征信息分析单元,计算获取的音频特征信息数据集u中各音频特征信息x的有效系数px;
5、特征信息选取单元,基于计算获取的各个音频特征信息的有效系数px选取预设数量sy的音频特征信息x;
6、音频场景识别模型,将选取的音频特征信息x导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。
7、作为上述技术方案的进一步描述:所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为,
8、通过机器学习模型对音频文件中的音频特征信息x进行识别提取;
9、对应提取各音频特征信息x对应的属性信息,其中,属性信息包括时长信息t,频次信息f;
10、将获取的各音频特征信息x和对应属性信息件整合获得音频特征信息数据集u,其中,u∈{x1(t1、f1),x2(t2、f2),x3(t3、f3),...,xn(tn、fn)};
11、对音频特征信息数据集u进行标签分类整合获得多个标签数据集:r1、r2、r3...rm。
12、作为上述技术方案的进一步描述:计算各音频特征信息x的有效系数时对每个标签数据集中的各音频特征信息x进行独立计算。
13、作为上述技术方案的进一步描述:基于各音频特征信息x的频次信息f计算各音频特征信息x的有效评估系数;
14、基于有效评估系数对应联立各音频特征信息x对应的时长信息t计算各音频特征信息x的有效系数px。
15、作为上述技术方案的进一步描述:各音频特征信息x的有效评估系数kn的计算公式为:
16、。
17、作为上述技术方案的进一步描述:各音频特征信息x的有效系数px的计算公式为:
18、。
19、作为上述技术方案的进一步描述:基于获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为:
20、基于各标签数据集中音频特征信息x数量计算各标签数据集百分比权重系数wm;
21、根据音频特征信息x预设选取数量sy联立各标签数据集百分比权重系数计算各标签数据集中音频特征信息x选取数量sm;
22、基于有效系数px对各标签数据集进行顺序排序,然后根据对应各标签数据集中音频特征信息x选取数量sm,顺序调取对应数量的音频特征信息x。
23、作为上述技术方案的进一步描述:各标签数据集百分比权重系数wm计算方式为:
24、统计各标签数据集rm中音频特征信息x的数量sr;
25、统计音频特征信息数据集u中音频特征信息x的数量su;
26、通过公式,计算各标签数据集百分比权重系数wm。
27、作为上述技术方案的进一步描述:各标签数据集中音频特征信息x的选取数量sm计算方式为:
28、通过公式进行计算,并对计算的值进行取整。
29、作为上述技术方案的进一步描述:
30、基于有效系数px对各标签数据集进行顺序排序具体为根据有效系数px的数值由大到小顺序对各标签数据集中音频特征信息x进行排序。
31、在上述技术方案中,本发明提供的一种音频实时场景识别系统,具备以下有益效果:
32、该音频实时场景识别系统通过对音频文件中包含的音频也在信息x对应的时长信息t以及频次信息f进行调取,并将时长信息t以及频次信息f进行联立计算各个音频特征信息x的有效系数px,然后基于有效系数px评估各音频特征信息x的代表性和有效性,从而可以消除无效音频特征信息或冗余音频特征信息,降低音频场景识别计算复杂性,提高音频场景识别准确性,并将音频特征数据信息数据集u分类成多个标签数据集,同时通过对每个标签数据集中各音频特征信息x的有效系数px独立计算并进行排序,然后基于各个标签数据集中音频特征信息x的数量计算其在音频特征信息数据集u中的百分比权重系数wm,再通过各个标签数据集的百分比权重系数wm计算各个标签数据集中选取的音频特征信息x的数量,然后对应在每个标签数据集中选取对应数量的音频特征信息x,确保选取的音频特征信息x包含足够多的类别信息,进一步提高对音频场景的准确性。
技术特征:1.一种音频实时场景识别系统,其特征在于,包括:
2.根据权利要求1所述的一种音频实时场景识别系统,其特征在于,所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为,
3.根据权利要求2所述的一种音频实时场景识别系统,其特征在于,计算各音频特征信息x的有效系数时对每个标签数据集中的各音频特征信息x进行独立计算。
4.根据权利要求2所述的一种音频实时场景识别系统,其特征在于,计算各音频特征信息x的有效系数具体为:
5.根据权利要求4所述的一种音频实时场景识别系统,其特征在于,各音频特征信息x的有效评估系数的计算公式为:
6.根据权利要求4所述的一种音频实时场景识别系统,其特征在于,各音频特征信息x的有效系数px的计算公式为:
7.根据权利要求2所述的一种音频实时场景识别系统,其特征在于,计算获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为:
8.根据权利要求7所述的一种音频实时场景识别系统,其特征在于,各标签数据集百分比权重系数wm计算方式为:
9.根据权利要求8所述的一种音频实时场景识别系统,其特征在于,各标签数据集中音频特征信息x的选取数量sm计算方式为:
10.根据权利要求1所述的一种音频实时场景识别系统,其特征在于,基于有效系数对各标签数据集进行顺序排序具体为根据有效系数的数值由大到小顺序对各标签数据集中音频特征信息x进行排序。
技术总结本发明公开了一种音频实时场景识别系统,涉及音频识别技术领域,包括:音频特征信息提取单元,音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取,并整合获得音频特征信息数据集U;特征信息分析单元,计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px;特征信息选取单元,基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X。音频场景识别模型,将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。本发明基于有效系数评估各音频特征信息的代表性和有效性,消除无效音频特征信息或冗余音频特征信息,降低音频场景识别计算复杂性,提高识别的准确性。技术研发人员:陈国强受保护的技术使用者:富迪科技(南京)有限公司技术研发日:技术公布日:2024/1/15本文地址:https://www.jishuxx.com/zhuanli/20240618/21013.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表