技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种非空气传导语音的恢复系统及方法 > 正文

一种非空气传导语音的恢复系统及方法

国知局
2024-06-21 11:28:32

本发明属于音频信号处理领域，具体涉及一种非空气传导语音的恢复系统及方法。

背景技术：

1、传统的气导麦克风例如驻极体麦克风、微机电系统(mems)麦克风都是采集空气振动信号来获取语音信号。气导麦克风不仅采集到期望的语音信号，也会采集到环境中的背景噪声和各种干扰信号。在一些强噪声场景，例如消防、机场、矿山等，气导麦克风采集的语音信号信噪比非常低，不能满足实际应用。近几年基于深度学习的语音增强技术取得了较大进展，但是在上述复杂强噪声环境下，现有的语音增强技术并不能取得满意的结果。

2、为了解决极低信噪比环境的语音拾取难题，骨导麦克风、压电式振动传感器、微波测振仪和激光多普勒测振仪等多种传感器受到了人们的关注。骨导麦克风是一种非声传感器。人说话时声带振动会传递到喉头和头骨等，这种麦克风通过采集人体振动信号并将其转换为电信号。与传统的气导语音不同，背景噪声很难对这类非声传感器产生影响，所以骨导语音从声源处就屏蔽了噪声干扰，非常适用于强噪声环境下的语音通信。微波测振仪和激光多普勒测振仪则可以测量物体的振动速度和位移，适用于非接触式远距声音拾取。这些传感器为复杂环境的声音采集提供了新的解决方案。然而，以上传感器拾取的非空气传导语音信号存在明显的问题。特别是，语音信号中的高频部分在非空气传导过程中衰减严重，最终导致这些非声传感器拾取的语音信号缺失了大部分的高频信息。这严重影响了所采集语音信号可懂度和语音质量。

3、已有很多研究来探索非空气传导语音信号的盲恢复。在源-滤波器模型中，非空气传导语音与气导语音被认为具有相同的激励源，两者的区别在于滤波器，即声音传递路径的不同。该传输路径可利用线性预测系数表征。经典的做法是利用成对的非空气传导语音和气导语音训练一个网络，该网络完成非空气传导语音的线性预测系数到对应的气导语音的线性预测系数之间的映射。但是，由于非空气传导语音中通道噪声以及物理噪声的存在，非空气传导语音的激励源并不完全等于气导语音的激励源，该方法在实际应用中的性能较差。基于深度神经网络的非空气传导语音盲恢复利用神经网络来将非空气传导语音的幅度谱映射到对应气导语音的幅度谱，然后利用非空气传导语音的相位谱来恢复气导语音信号。也有研究利用神经网络直接将非空气传导语音的波形映射到气导语音的波形。

4、现有非空气传导语音盲恢复的方法存在两方面的问题。一是算法的泛化性能不够好。例如，在骨导语音的盲恢复中，现有的方法是针对每一个说话人训练一个单独的骨导语音恢复模型，并验证模型使用的骨导语音与训练模型的骨导语音来自同一个说话人。该模型无法泛化到其他说话人。二是现有非空气传导语音盲恢复系统的性能较差。因为现有的非空气传导语音恢复算法大多是借鉴语音增强与去混响等方面的研究成果，但是非空气传导语音的恢复与上述任务具有明显的不同。

5、综上所述，现有的非空气传导语音恢复办法，存在模型恢复性能差、泛化性能不好等问题。非空气传导语音带宽受限，缺失了大部分的高频信息。因此非空气传导语音的盲恢复本质上属于条件生成任务。

技术实现思路

1、本发明的目的在于克服非空气传导语音带宽受限、语音质量较差以及语音可懂度较低的缺陷。

2、为了实现上述目的，本发明提出了一种非空气传导语音的恢复系统，其特征在于，所述系统包括：

3、语音特征提取模块，用于对获得的非空气传导语音信号进行特征提取，输入为非空气传导语音的时域信号，输出为非空气传导语音的低维度特征；

4、语音特征恢复模块，用于对输入的非空气传导语音的低维度特征，恢复非空气传导语音缺失的高频信息，得到恢复语音的低维度特征；和

5、声码器，用于将恢复语音的低维度特征转换为语音时域波形。

6、作为上述系统的一种改进，所述语音特征恢复模块为生成对抗网络，包含生成器；

7、所述生成器包括依次级联的编码器、中间层和解码器；所述编码器与解码器的对应层额外采用跳连进行连接；所述解码器的输出数据使用一个卷积层进一步处理，输出恢复语音的低维度特征。

8、作为上述系统的一种改进，所述生成器的基本组成单元为包含残差连接的两个卷积块；每个所述卷积块包括group normalization层、swish激活函数和一维卷积层。

9、作为上述系统的一种改进，所述编码器与解码器使用的基本组成单元数目相同；所述编码器在每个基本组成单元后级联一个用于降采样的卷积层；所述解码器在每个基本组成单元后面级联一个最近邻插值上采样层。

10、作为上述系统的一种改进，所述语音特征恢复模块还包含判别器；

11、所述判别器包括级联的二维卷积层和elu激活函数。

12、作为上述系统的一种改进，所述判别器的输出不经过全局池化操作，所述判别器对输入特征的每一个局部进行判别。

13、作为上述系统的一种改进，所述语音特征提取模块选取特征向量的方法包括选取时域包络、选取频域能量或者信号离散余弦变换，或选取小波变换后的系数。

14、作为上述系统的一种改进，所述声码器为基于扩散模型的diffwave或基于生成对抗网络的melgan。

15、本申请还提供一种非空气传导语音的恢复方法，基于上述系统实现，所述方法包括：

16、使用语音特征提取模块对获得的非空气传导语音信号进行特征提取，输出非空气传导语音的低维度特征；

17、将非空气传导语音的低维度特征输入语音特征恢复模块，输出恢复语音的低维度特征；

18、将恢复语音的低维度特征输入声码器，输出语音时域波形。

19、与现有技术相比，本发明的优势在于：

20、本申请的技术方案在语音的低维特征空间生成非空气传导语音缺失的高频信息，利用声码器将恢复过的语音特征转化为语音时域波形。因此，本申请所得到的恢复语音具有较高的可懂度和语音质量。此外，本申请所提供的非空气传导语音恢复系统及方法具有很好的泛化能力，针对未知说话人以及不同型号传感器录制得到的非空气传导语音均具有较好的性能。

技术特征：

1.一种非空气传导语音的恢复系统，其特征在于，所述系统包括：

2.根据权利要求1所述的非空气传导语音的恢复系统，其特征在于，所述语音特征恢复模块为生成对抗网络，包含生成器；

3.根据权利要求2所述的非空气传导语音的恢复系统，其特征在于，所述生成器的基本组成单元为包含残差连接的两个卷积块；每个所述卷积块包括group normalization层、swish激活函数和一维卷积层。

4.根据权利要求3所述的非空气传导语音的恢复系统，其特征在于，所述编码器与解码器使用的基本组成单元数目相同；所述编码器在每个基本组成单元后级联一个用于降采样的卷积层；所述解码器在每个基本组成单元后面级联一个最近邻插值上采样层。

5.根据权利要求2所述的非空气传导语音的恢复系统，其特征在于，所述语音特征恢复模块还包含判别器；

6.根据权利要求5所述的非空气传导语音的恢复系统，其特征在于，所述判别器的输出不经过全局池化操作，所述判别器对输入特征的每一个局部进行判别。

7.根据权利要求1所述的非空气传导语音的恢复系统，其特征在于，所述语音特征提取模块选取特征向量的方法包括选取时域包络、选取频域能量或者信号离散余弦变换，或选取小波变换后的系数。

8.根据权利要求1所述的非空气传导语音的恢复系统，其特征在于，所述声码器为基于扩散模型的diffwave或基于生成对抗网络的melgan。

9.一种非空气传导语音的恢复方法，基于权利要求1-8所述任一系统实现，所述方法包括：

技术总结本发明提供了一种非空气传导语音的恢复系统及方法，所述系统包括：语音特征提取模块，用于对获得的非空气传导语音信号进行特征提取，输入为非空气传导语音的时域信号，输出为非空气传导语音的低维度特征；语音特征恢复模块，用于输入非空气传导语音的低维度特征，恢复非空气传导语音缺失的高频信息，得到恢复语音的低维度特征；和声码器，用于将恢复语音的低维度特征转换为语音时域波形。本发明的优势在于：本申请所得到的恢复语音具有较高的可懂度和语音质量；本申请所提供的非空气传导语音恢复系统及方法具有很好的泛化能力，针对未知说话人以及不同型号传感器录制得到的非空气传导语音均具有较好的性能。技术研发人员：李长涛,杨飞然,聂浩,杨军受保护的技术使用者：中国科学院声学研究所技术研发日：技术公布日：2024/2/19