技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度学习和矢量预测的语音压缩方法及系统与流程  >  正文

基于深度学习和矢量预测的语音压缩方法及系统与流程

  • 国知局
  • 2024-06-21 10:41:04

本公开涉及语音信号处理,具体涉及基于深度学习和矢量预测的语音压缩方法及系统。

背景技术:

1、本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

2、低速率语音编码技术在卫星通信、短波通信、水声通信以及保密通信等领域中有着广泛的应用需求,比如,极端恶劣的山区通信环境中,超短波电台要保障全天候24小时通信,语音编码的编码速率往往要低于600bps。当语音的编码速率降低时,语音合成质量会受到影响,因此声学特征的提取和比特分配变得尤为重要。尤其是基于深度学习的超低速率语音压缩编码技术,这一类语音压缩编码技术也称之为神经声码器。

3、目前神经声码器的基本步骤包括:在编码端对输入信号样本点进行声学特征提取;在量化端对提取的特征进行量化,并打包成二进制字节进行传输;然后在解量化端对接收到的数据包进行解包,并根据码本还原声学特征,最后在解码端对提取的声学特征进行合成,还原输入语音信号。其神经声码器的量化方式主要采用标量量化或者残差矢量量化,但是上述方案仍然存在以下弊端:

4、1)在面临数据较大的场景时,标量量化将每个维度独立量化为一个标量,容易导致信息丢失,且标量量化对噪声信号非常敏感。

5、2)残差矢量量化相对于标量量化来说,虽然在一定程度上减少了量化损失,但使用多个量化器额外增加了计算和存储的开销。

6、然而,上述两种方式每个量化都是独立的,不依赖于其他量化结果,换句话来说,上述两种方式并不依赖于编码器或者解码器的过去状态或将来状态,使得数据之间的相关性无法得到利用。

技术实现思路

1、本公开为了解决上述问题,提出了基于深度学习和矢量预测的语音压缩方法及系统,在深度学习的基础上,通过引入预测矢量量化,对输入矢量与预测矢量的差值进行矢量量化,以此来提高语音编码质量。

2、根据一些实施例,本公开采用如下技术方案:

3、基于深度学习和矢量预测的语音压缩方法,包括:

4、获取低速率下的多帧语音信号,并预处理为语音序列;

5、将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;

6、对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。

7、根据一些实施例,本公开采用如下技术方案:

8、基于深度学习和矢量预测的语音压缩系统,包括:

9、数据获取模块,用于获取低速率下的多帧语音信号,并预处理为语音序列;

10、预测模块,用于将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;

11、矢量量化模块,用于对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量;

12、语音合成模块,用于对所述重构矢量解码输出合成语音,并对生成语音的真伪通过判别器进行判断。

13、与现有技术相比,本公开的有益效果为:

14、本公开的提供了基于深度学习和矢量预测的语音压缩方法,将预测矢量量化技术引入到深度学习的低速率神经声码器中,利用预测器来减少量化损失,并提高矢量之间时间相关性,通过训练一个预测器,将过去的重建矢量作为输入来预测下一帧矢量,将预测矢量与输入矢量的差值输入码本进行量化,得到量化索引进行传输。在解码端接收量化索引,通过量化索引获得量化矢量,然后将量化矢量与预测器输出相加,得到输入矢量的重构矢量。该方法通过预测器利用数据的时间相关性,减少了量化误差,提高了语音的编码合成质量。

技术特征:

1.基于深度学习和矢量预测的语音压缩方法,其特征在于,包括:

2.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,所述第一深度网络由一维卷积和多个卷积块组成,每个卷积块由单个残差单元组成,残差单元由内核大小为 3和1的跳跃连接卷积组成,然后是一个由跨步卷积组成的下采样层,内核大小为是步幅 s 的两倍,残差单元由跳过连接卷积组成。

3.如权利要求2所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,每当下采样时,通道数都会加倍,所述卷积块后接两层lstm,捕捉语音序列数据中的长期依赖关系。

4.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,设计码本大小为n,帧长为l,帧率为m,每个码本可以编码比特,对码本进行初始化,使用k-means算法对n个簇进行聚类得到初始化的码本。

5.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,

6.如权利要求5所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,

7.如权利要求6所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,将重构矢量输入到与第一深度网络结构相同但是对称倒置的第二深度网络中,首先通过内核大小为k的一维卷积,然后通过两层lstm以及多个卷积块,最后通过内核为k的一维卷积,输出得到合成语音。

8.如权利要求1所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,通过引入多尺度stft鉴别器和多周期判别器判断生成语音的真伪,stft鉴别器由对多尺度复值stft进行操作的相同结构化网络组成,其中实部和虚部连接,每个子网络由一个二维卷积层组成。

9.如权利要求8所述的基于深度学习和矢量预测的语音压缩方法,其特征在于,多周期判别器是子鉴别器的混合,每个子鉴别器只接受输入语音序列的等间距样本,在通过查看输入语音序列的不同部分来捕获彼此不同的隐式结构。

10.基于深度学习和矢量预测的语音压缩系统,其特征在于,包括:

技术总结本公开提供了基于深度学习和矢量预测的语音压缩方法及系统,涉及语音信号处理技术领域,包括:获取低速率下的多帧语音信号,并预处理为语音序列;将当前帧语音序列作为第一深度网络的输入信号提取声学特征,利用所述声学特征预测下一帧语音序列的声学特征,并作为预测矢量;对原声学特征与预测矢量作差,获取差值矢量,并在设计的码本中寻找与差值矢量最匹配的量化矢量,作为残差索引传输到第二深度网络,第二深度网络根据接收的残差索引,在码本中找到相应的差值量化矢量,将差值量化矢量与预测矢量相加,得到重构矢量,对所述重构矢量解码输出合成语音,本公开提高了语音压缩编码合成的质量。技术研发人员:李晔,于兴业,吝灵霞受保护的技术使用者:山东省计算中心(国家超级计算济南中心)技术研发日:技术公布日:2024/1/25

本文地址:https://www.jishuxx.com/zhuanli/20240618/21186.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。