技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于人工智能的语音编码器特征提取与识别方法与流程  >  正文

一种基于人工智能的语音编码器特征提取与识别方法与流程

  • 国知局
  • 2024-09-05 14:47:40

本发明属于语音编解码器识别领域,具体涉及一种基于人工智能的语音编码器特征提取与识别方法。

背景技术:

1、在语音通信中,为了提高语音信号的传输速率或者节约数据所需的存储空间,人们通常会对语音信号进行语音编码来进行语音数据的压缩和处理。在对语音信号编解码的过程中,由于不同编解码器的压缩算法等并不相同,使用不同的语音编解码器会对语音信号产生不一样的影响。不同语音编码类型的语音数据具有潜在的异构特征,异构特征间又存在线性或者非线性关联,这些特征需要借助人工智能的方法进行深入挖掘,从而能够对语音编码特征进行智能分类,能够对不同编码类型语音数据进行差异化分析,实现常用语音编码器的识别,最终应用于信号侦查中的信源处理方向,提升情报的智能处理能力,提升装备的智能化水平。在语音编解码器识别算法研究方面,hiysonmez s,sencar h t,avcibas i等人于2011年提出使用编码随机性和混沌性作为特征,此方法计算较为复杂且特征维数过高;tripathi p,raju d kp,joka m s等人于2013年提出一种新的算法,基于图形用户界面(graphical user interface,gui)的决策子系统方法,利用微软基础类库(microsoft foundation classes,mfc)框架实现gui,基于gui迭代设置阈值,gui通过分析来获得自相关、中心二阶矩、傅里叶变换(fast fourier transformation,fft)和二进制比特征,此方法特征较少,且需要先使用mfc框架实现gui,过程较为复杂;bondalapati v,raju k p,tripati p等人2015年提出对编码比特流提取均值、自相关、二三四阶中心矩、二进制比作为特征参数,此算法对相似编码的识别准确率较低。本发明算法拓展了特征参数的数量,且特征参数计算较为简单,针对相似编码,采用深度神经网络提取中间层特征来提高识别准确率。

技术实现思路

1、本发明所要解决的技术问题在于寻找和确定适用于识别语音编码器的特征组合,同时能够准确分类识别出g.711a、g.711u、g.721、g.722、g.723、g.726、g.728、g.729、cvsd、acelp、qcelp、aac-ld和lpc10.这13种语音编码器。

2、本发明采用的技术方案为:

3、一种基于人工智能的语音编码器特征提取与识别方法,包括以下步骤:

4、s1:将原始语音分别通过多种语音编码器进行编码生成编码文件,得到原始语音编码数据集,选取其中一部分数据作为训练数据,另一部分作为测试数据;其中,语音编码器包括g.711a、g.711u、g.721、g.722、g.723、g.726、g.728、g.729、cvsd、acelp、qcelp、aac-ld和lpc10.;

5、s2:对得到的编码文件提取均值、方差、k阶中心矩、傅里叶变换和二进制比作为直接特征;其中,k取2、3和4;

6、s3:将得到的直接特征作为深度神经网络的输入,通过多个隐含层映射,得到中间层特征,作为深层特征;

7、s4:将通过训练数据提取得到的直接特征和深层特征送入分类器,对分类器模型进行训练,然后将通过测试数据提取得到的直接特征和深层特征送入训练好的分类器模型,实现对多种语音编码的分类进行识别。

8、进一步的,所述s2包括:

9、s21:检查通过语音编码器后得到的编码文件内容,将编码文件内容不是01的比特流统一转换为二进制;

10、s22:对统一为二进制的编码文件进行分段,即根据编码文件的大小选取对应的字节段长度进行截取,不超过20kb的文件截取文件大小的1/2~2/3,超过20kb的文件截取长度为20kb;

11、s23:对截取的比特段计算0和1的个数比,得到二进制比bro,计算公式为:

12、bro=zr/or

13、式中,zr和or分别为截取段中0和1的个数;

14、s24:使用滑动窗口技术,将s21得到的比特流转换成字节序列段,即设定窗口大小为a,先计算位于首位的a位比特数的十进制值,然后每次将窗口向右移动1位,再次计算十进制值,直到计算完所有比特流中的比特数;每a位计算为一个介于0-255的无符号整数,即将二进制序列转换成十进制序列;对计算后得到的十进制序列再进行分段,得到新的字节序列段,段长和s22一致;十进制值计算公式为:

15、

16、式中,b(i)为接收比特流,s(i)为滑动窗口技术生成的十进制值,w为窗大小,n为接收的比特数;

17、s25:计算新字节序列段的均值m;其中均值是指对所有数据计算平均,公式为:

18、

19、式中,n为新字节序列段的段长,x(i)是s(i)在分段时截取的十进制值;

20、s26:计算新字节序列段的方差v;其中方差是各个数据与平均值作差,然后计算平方,再求平均,方差用来表示随机变量和数学期望之间的偏离程度;计算公式为:

21、

22、s27:计算新字节序列段的二、三和四阶中心距q2、q3和q4,k阶矩的公式为:

23、

24、式中,k是要计算的阶数,k取2、3和4;

25、s28:计算新字节序列段的傅里叶变换值,计算方式为:对数据做fft变换,取前一半数值的模值乘以2再除以字节段长度;

26、s29:将上述特征整合并存入特征文件中,得到语音编码直接特征。

27、进一步的,所述s3包括:

28、将得到的直接特征作为深度神经网络的原始输入,给定训练标签和测试标签,通过最小化交叉熵为目标函数,利用误差反向传播算法调整参数,最后在深度神经网络训练完成后,利用网络参数对原始输入进行映射得到中间层特征,作为深层特征。

29、进一步的,所述s4包括:

30、将通过训练数据提取得到的直接特征和深层特征送入ovr svms,对模型进行训练,然后将通过测试数据提取得到的直接特征和深层特征送入训练好的模型,即将直接特征和深层特征整合成文件送入ovr svms进行分类识别,最后得到每种特征对应编码器的类型。

31、与现有技术相比,本发明的有益效果在于:

32、1.本发明基于人工智能的语音编码器特征提取与识别方法,在语音编码器种类上得到了扩展,同时使用深度神经网络提取的中间层特征提高识别准确率。

33、2.本发明的基于人工智能的语音编码器特征提取与识别方法,在分类器的选择上使用了ovr svms作为分类器,相比于其他几种分类器,识别准确度得到了提升。

技术特征:

1.一种基于人工智能的语音编码器特征提取与识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于人工智能的语音编码器特征提取与识别方法,其特征在于,所述s2包括:

3.根据权利要求1所述的基于人工智能的语音编码器特征提取与识别方法,其特征在于,所述s3包括:

4.根据权利要求1所述的基于人工智能的语音编码器特征提取与识别方法,其特征在于,所述s4包括:

技术总结本发明提出了一种基于人工智能的语音编码器特征提取与识别方法,属于语音编解码器识别领域,包括语音编码数据集的生成,将原始语音通过13种语音编码器进行编码得到编码文件;语音编码直接特征的提取,生成特征文件;语音编码深层特征的提取,将得到的原始直接特征作为深度神经网络的输入,通过多个隐含层映射,得到中间层特征输出,作为语音编码的深层特征;语音编码分类器设计,通过将提取到的直接特征和深层特征送入分类器,确定对应编码器的类型,实现对13种语音编码的分类识别。本发明方法采用两阶段的语音编码器特征提取方法,一阶段先提取直接特征实现语音编码器的识别,二阶段针对识别准确率较低的语音编码,结合深层特征提高识别准确率。技术研发人员:岳怡然,宋秉玺,郭洁,董文斌,尚庆华,宋彬受保护的技术使用者:中国电子科技集团公司第五十四研究所技术研发日:技术公布日:2024/9/2

本文地址:https://www.jishuxx.com/zhuanli/20240905/288148.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。