技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于调制域注意力的混响和噪声鲁棒语音活动检测的制作方法 > 正文

基于调制域注意力的混响和噪声鲁棒语音活动检测的制作方法

国知局
2024-06-21 11:45:16

本申请涉及语音活动检测。更具体地，下文描述的示例实施例涉及基于调制域注意力来解决噪声和混响鲁棒性问题。

背景技术：

1、在本节中描述的方法是可以采用的方法，但不一定是先前已经设想到或采用过的方法。因此，除非另有指示，否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。

2、传统上，并入免提电话、视频会议或助听器中的语音增强系统很难正确管理噪声和混响(其可以被视为噪声，但将在下文中单独提及)。具有鲁棒的语音活动检测(vad)将是有帮助的，所述vad估计关于噪声和混响的信息并减少在语音期间由噪声和混响引起的伪影和感知中断。这种vad对于音频/视频内容记录和回放系统(诸如任何社交联网软件的语音消息传递部件、视频博客(vlog)平台或播客设置)增强语音质量和可理解性特别有帮助。

技术实现思路

1、公开了一种基于调制频域中的数据从混响信号中检测语音的计算机实施的方法。所述方法包括：由处理器接收时域中的新音频数据；由所述处理器将与时间点相对应的一条新音频数据转换成特定频谱时间振幅(sta)作为时频表示；将检测模型应用于所述特定sta以获得对所述新音频数据中的语音程度的估计，包括：从自新音频数据获得的一个或多个sta获得具有声学频带维度和调制频带维度的所述时间点的调制频谱度量(msm)；基于所述msm计算扩散指示符(di)，所述di指示一条新音频数据在调制频域中的扩散程度；生成从所述特定sta中滤除了混响和其他噪声的增强的sta；根据所述增强的sta计算一个或多个特征；使用所述di和所述一个或多个特征创建一个或多个特征向量；以及从所述一个或多个特征向量确定对所述一条新音频数据中的语音程度的估计；以及传输对所述一条新音频数据中的语音程度的估计。

技术特征：

1.一种基于调制频域中的数据从混响信号中检测语音的计算机实施的方法，所述方法包括：

2.如权利要求1所述的计算机实施的方法，所述di是基于调制频带范围和声学频带范围中的msm值的调制频谱的重心。

3.如权利要求1所述的计算机实施的方法，所述di是基于低调制频带范围和声学频带范围中的msm值的低调制部分与基于高调制频带范围和所述声学频带范围中的msm值的高调制部分的能量比。

4.如权利要求1所述的计算机实施的方法，所述di是基于低调制频带范围和声学频带范围中的msm值的低调制部分与基于全部调制频带范围和所述声学频带范围中的msm值的整个调制部分的能量比。

5.如权利要求1所述的计算机实施的方法，所述获得包括利用快速傅里叶变换，使用与所述时间点之前的特定数量的连续时间点相对应的多条新音频数据计算所述msm。

6.如权利要求1至5中任一项所述的计算机实施的方法，生成所述增强的sta包括滤除调制频带排除范围之外的msm值。

7.如权利要求6所述的计算机实施的方法，所述调制频带排除范围为3hz至30hz。

8.如权利要求1至7中任一项所述的计算机实施的方法，生成所述增强的sta包括通过随时间推移进行聚合来计算平滑的频谱时间能量。

9.如权利要求1至8中任一项所述的计算机实施的方法，生成所述增强的sta包括通过跟踪随时间变化的最小频谱时间能量来消除残留噪声。

10.如权利要求1至7中任一项所述的计算机实施的方法，生成增强的sta包括应用机器学习模型，所述机器学习模型用与不同程度的混响和其他噪声相对应的频谱时间振幅数据作为输入数据并且用仅与纯净语音相对应的对应频谱时间振幅数据作为输出数据来进行训练。

11.如权利要求10所述的计算机实施的方法，还包括从所述机器学习模型的应用中提取表征所述纯净语音的特征，包括低截止调制频率和高截止调制频率。

12.如权利要求1至11中任一项所述的计算机实施的方法，所述计算包括使用所述增强的sta计算增强的梅尔频率滤波器倒谱系数(mfcc)。

13.如权利要求1至12中任一项所述的计算机实施的方法，所述计算包括通过使用所述增强的sta而不是所述sta来计算增强的频谱平坦度(sft)，并且在所述sft的计算中随时间推移对值进行求和。

14.如权利要求1至13中任一项所述的计算机实施的方法，所述一个或多个特征包括基于峰值频带与其他频带功率比之和的谱峰、基于峰值与平均值(无峰值频带)功率比的谱峰、相邻谱带功率的方差或标准偏差、相邻频带之间的谱带功率差的总和或最大值、频谱质心周围的频谱延展度或频谱方差、以及谱熵。

15.如权利要求1至14中任一项所述的计算机实施的方法，所述确定包括应用机器学习模型，所述机器学习模型用与纯净语音相对应的频谱时间振幅数据和与不同程度的混响和其他噪声相对应的频谱时间振幅数据的一个或多个特征作为输入数据并且用相对应的语音程度作为输出数据来进行训练。

技术总结公开了一种用于从混响信号中检测语音的系统。所述系统被编程为接收调制频域中的频谱时间振幅数据。所述系统被编程为然后通过基于与所述频谱时间振幅数据相关联的频谱时间谱图的某些性质减少混响和其他噪声并进行平滑来增强所述频谱时间振幅数据。接下来，所述系统被编程为基于增强的频谱时间振幅数据以及所述调制频域或(声学)频域中的其他数据来计算与语音的存在相关的各种特征。所述系统被编程为然后基于所述各种特征确定与接收到的频谱时间振幅数据相对应的音频数据中存在的语音的程度。所述系统可以被编程为将存在的语音的程度传输到输出设备。技术研发人员：杨少凡,李凯受保护的技术使用者：杜比实验室特许公司技术研发日：技术公布日：2024/4/22