技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音处理方法、装置及设备 > 正文

一种语音处理方法、装置及设备

国知局
2024-06-21 11:56:30

本公开属于数字语音信号处理，具体涉及一种语音处理方法、装置及设备。

背景技术：

1、智能家居和物联网设备主要依赖低成本的麦克风或麦克风阵列来感知用户的语音信号。这些传感器对环境噪音高度敏感，无法提供高保真的原始声音复制。

2、毫米波雷达作为一种补充技术被用于语音增强，它已被用于估计音高、检测声音活动、在一定程度上重构语音，以及增强单个说话者的语音识别，特别的对于语音增强，毫米波可以提取声带振动信号。然而，毫米波也存在以下限制：

3、因为毫米波波长微小，毫米波信号对声带振动和动作都非常敏感，容易受到用户体动和周围震动的影响；

4、声带振动信号只包含声音的基频信息。

技术实现思路

1、本公开实施例提出了一种融合语音信号与毫米波雷达信号的语音处理方案，以解决现有的单独基于语音信号或基于毫米波雷达信号的语音处理方案的上述缺陷。

2、本公开实施例的第一方面提供了一种语音处理方法，包括：

3、分别捕获目标区域的语音信号和毫米波雷达中频信号，对所述语音信号和所述中频信号分别进行预处理，生成语音复数频谱和毫米波相位差复数频谱，对所述毫米波相位差复数频谱的幅度谱进行特征提取，生成由毫米波相位差实数特征组成的毫米波频谱掩码；

4、基于所述毫米波频谱掩码分别识别所述毫米波相位差复数频谱和所述语音复数频谱中的关键特征，生成去除噪音后的毫米波相位差复数频谱和去除噪音后的语音复数频谱；

5、将所述去除噪音后的毫米波相位差复数频谱和所述去除噪音后的语音复数频谱输入语音增强神经网络模型，输出增强后的语音复数频谱，再对所述增强后的语音复数频谱利用逆傅里叶变化输出清晰语音，其中，所述语音增强神经网络模型是复数网络，用于对所述毫米波相位差复数频谱和所述语音复数频谱进行跨通道交互融合形成的融合频谱计算复数比值掩码，并基于所述复数比值掩码对所述融合频谱进行掩码操作以重建语音复数频谱的幅度和相位。

6、在一些实施例中，所述对所述语音信号和所述中频信号进行预处理，生成语音复数频谱和毫米波相位差复数频谱包括：

7、从所述中频信号提取毫米波相位差信号；

8、对所述语音信号进行下采样，对所述毫米波相位差信号进行上采样，使两者的采样率都为16khz，并对所述毫米波相位差信号实施带通滤波，提取20hz至1khz的频率范围内的信号；

9、对所述语音信号和所述毫米波相位差信号分别进行短时傅里叶变换，生成所述语音复数频谱和所述毫米波相位差复数频谱。

10、在一些实施例中，所述从所述中频信号提取毫米波相位差信号包括：

11、获取不同时刻的多帧所述中频信号，对每一帧所述中频信号进行距离估计，生成距离时间热图；

12、在所述距离时间热图中，选取能量最强的距离单元，获取所述距离单元对应的目标的毫米波相位信息，对所述毫米波相位信息进行解缠绕，生成所述距离单元的毫米波相位；

13、基于不同时刻的所述距离时间热图中同一所述距离单元的所述毫米波相位的差值生成所述毫米波相位差信号。

14、在一些实施例中，所述对所述毫米波相位差复数频谱的幅度谱进行特征提取，生成由毫米波相位差实数特征组成的毫米波频谱掩码包括：

15、基于恒虚警率算法对所述毫米波相位差复数频谱的幅度谱进行特征提取，生成由毫米波相位差实数特征组成的毫米波频谱掩码。

16、在一些实施例中，基于所述毫米波频谱掩码识别所述毫米波相位差复数频谱中的关键特征，生成去除噪音后的毫米波相位差复数频谱包括：

17、提取所述毫米波频谱掩码中与各个所述毫米波相位差实数特征对应的位置坐标，在所述毫米波相位差复数频谱上保留与所述位置坐标对应的频谱信息，生成去除噪音后的毫米波相位差复数频谱。

18、在一些实施例中，基于所述毫米波频谱掩码识别所述语音复数频谱中的关键特征，生成去除噪音后的语音复数频谱包括：

19、提取所述毫米波频谱掩码中与各个所述毫米波相位差实数特征对应的时间坐标；

20、基于恒虚警率算法对所述语音复数频谱的幅度谱中与各个所述时间坐标对应的部分进行特征提取，生成由各个语音实数特征组成的语音频谱掩码；

21、提取所述语音频谱掩码中与各个所述语音实数特征对应的位置坐标，在所述语音复数频谱上保留所述位置坐标对应的频谱信息，生成去除噪音后的语音复数频谱。

22、在一些实施例中，所述语音增强神经网络模型的神经网络网结构包括串联的特征提取模块、跨模态交互模块、跨模态融合模块，复数编码器模块、复数解码器模块和掩码算子，其中：

23、所述特征提取模块用于通过对输入毫米波通道的所述毫米波相位差复数频谱和输入语音通道的所述语音复数频谱利用复数卷积操作提取特征，再利用空间注意力和通道注意力增强关键特征，并利用残差连接增加学习能力，最终输出毫米波复数特征和语音复数特征；

24、所述跨模态交互模块用于通过空间注意力和通道注意力分别增强毫米波通道和语音通道的特征，计算每个通道特征的加权乘积，再将结果与原始输入相加，实现特征的重新校准，最终输出校准后的所述毫米波复数特征和校准后的所述语音复数特征；

25、所述跨模态融合模块用于对输入的所述毫米波复数特征和所述语音复数特征的实部和虚部使用最大池化和平均池化以提取关键空间信息，并分别输出实部特征和虚部特征，再将所述实部特征和所述虚部特征合并后输入复数卷积层，最终输出融合频谱；

26、所述复数编码器模块用于采用跳跃连接机制，从所述融合频谱中提取关键特征，所述关键特征是复数特征；

27、所述复数解码器用于恢复所述关键特征在融合频谱中的分布，并基于所述分布计算复数比值掩码；

28、所述掩码算子用于基于所述复数比值掩码对所述融合频谱进行掩码操作，以重建语音复数频谱的幅度和相位。

29、在一些实施例中，所述语音增强神经网络模型的训练方法包括：

30、采集不含噪声的语音信号作为真值，对所述语音信号添加各种噪声，分别采集包含所述噪声的语音信号和对应的毫米波雷达中频信号，基于所述包含噪声的语音信号和所述毫米波雷达中频信号生成去除噪音后的语音复数频谱和对应的毫米波相位差复数频谱，将所述语音复数频谱和对应的毫米波相位差复数频谱作为样本；

31、将所述样本和所述真值输入所述的神经网络网络结构，并以比例不变信噪比为损失函数在时域上进行训练，得到所述语音增强神经网络模型。

32、本公开实施例的第二方面提供了一种语音处理装置，包括：

33、掩码生成模块，用于分别捕获目标区域的语音信号和毫米波雷达中频信号，对所述语音信号和所述中频信号分别进行预处理，生成语音复数频谱和毫米波相位差复数频谱，对所述毫米波相位差复数频谱的幅度谱进行特征提取，生成由毫米波相位差实数特征组成的毫米波频谱掩码；

34、特征提取模块，用于基于所述毫米波频谱掩码分别识别所述毫米波相位差复数频谱和所述语音复数频谱中的关键特征，生成去除噪音后的毫米波相位差复数频谱和去除噪音后的语音复数频谱；

35、语音增强模块，用于将所述去除噪音后的毫米波相位差复数频谱和所述去除噪音后的语音复数频谱输入语音增强神经网络模型，输出增强后的语音复数频谱，再对所述增强后的语音复数频谱利用逆傅里叶变化输出清晰语音，其中，所述语音增强神经网络模型是复数网络，用于对所述毫米波相位差复数频谱和所述语音复数频谱进行跨通道交互融合形成的融合频谱计算复数比值掩码，并基于所述复数比值掩码对所述融合频谱进行掩码操作以重建语音复数频谱的幅度和相位。

36、本公开实施例的第三方面提供了一种语音处理设备，包括存储器和处理器：

37、所述存储器，用于存储计算机程序；

38、所述处理器，用于当执行所述计算机程序时，实现根据本公开第一方面所述的方法。

39、综上所述，本公开各实施例提供的融合语音信号与毫米波雷达信号的语音处理方法、装置及设备，首先通过结合语音信号和毫米波雷达信号，可以更加准确地反映实际的声学环境。毫米波雷达在捕获声带振动信号方面的独特性，为语音信号提供了一个新的视角，使得语音增强在面对复杂背景噪声时更为有效；其次通过对毫米波相位差信号和语音信号进行上下采样处理，并对毫米波相位差信号实施带通滤波，进一步细化了信号，有效地突出了人声带振动的关键频率成分，为后续特征提取操作提供了更加精确的输入；再次，通过stft和cfar技术的应用，能够从毫米波和语音信号中提取出有效的特征掩码，从而能够从复杂的信号中提取出关键特征，最后通过复数网络的应用，进一步增强了这些特征的表达能力。由于复数网络能够同时处理信号的幅度和相位信息，从而为语音信号的处理提供了一个更为全面的视角。这种处理方式保留了信号在时域上的完整性，从而直接获取语音信号的真实特性，复数网络的引入使得本发明在语音增强方面具有更高的效率和效果，能够在复杂环境中有效地提升语音信号的质量和可用性。