用于多通道语音信号的处理方法、装置、设备和存储介质与流程
- 国知局
- 2024-06-21 10:41:16
本公开涉及数据处理领域,更具体地,涉及一种用于多通道语音信号的处理方法、装置、设备和存储介质。
背景技术:
1、多通道语音前处理(multi-channel speech processing,mc-sp)是一种用于增强多通道语音信号质量的技术,其旨在通过利用多通道信息和信号处理技术,提高语音信号的质量和可理解性。在麦克风阵列(即,排列成一定几何结构的多个麦克风)所采集到的多通道语音信号中,来自不同麦克风的信号可以提供更多的空间信息,但也可能受到噪声、回声等干扰。对此,多通道语音前处理模型可以基于麦克风阵列所采集到的多通道语音信号,对其进行目标语音分离、降噪、去混响等操作。
2、多通道语音前处理技术在语音信号处理领域具有重要意义,它能够提高语音信号的质量和可理解性,为后续的语音识别、语音合成等应用提供更好的输入。然而,目前的多通道语音前处理技术仍然存在一些挑战和问题。
3、因此,需要一种改进的多通道语音前处理方法,用于进一步增强多通道语音信号的质量和可理解性。
技术实现思路
1、为了解决上述问题,本公开面向麦克风阵列阵型已知的应用场景,提出了一种可用于任何麦克风阵列结构的多通道语音前处理统一方法,使得同一经训练的多通道语音前处理模型可处理任何麦克风阵列的多通道信号。
2、本公开的实施例提供了一种用于多通道语音信号的处理方法、装置、设备和计算机可读存储介质。
3、本公开的实施例提供了一种用于多通道语音信号的处理方法,包括:获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
4、本公开的实施例提供了一种用于多通道语音信号的处理装置,包括:数据获取模块,被配置为获取多通道语音信号,所述多通道语音信号由第一麦克风阵列采集;特征提取模块,被配置为根据所述第一麦克风阵列的阵型信息,对所述多通道语音信号进行特征提取,以获得所述多通道语音信号中的语音特征,所述语音特征包括与所述第一麦克风阵列的阵型信息相关的语音特征;以及信号处理模块,被配置为利用经训练的多通道语音信号处理模型,基于所述语音特征和所述多通道语音信号,生成经处理的语音信号。
5、本公开的实施例提供了一种用于多通道语音信号的处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的用于多通道语音信号的处理方法。
6、本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的用于多通道语音信号的处理方法。
7、本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的用于多通道语音信号的处理方法。
8、本公开的实施例所提供的方法相比于阵型不可知条件下的多通道语音前处理方法而言,能够利用麦克风阵列的可知的阵型信息,从而可以进行声源定位、定向增强、音区提取等任务。
9、本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。
技术特征:1.一种用于多通道语音信号的处理方法,包括:
2.如权利要求1所述的方法,其中,所述经训练的多通道语音信号处理模型与预定任务相关联,所述预定任务包括定向增强任务、声源定位任务和语音分离任务中的一个或多个。
3.如权利要求1所述的方法,还包括:获取与所述多通道语音信号相关的任务特定信息,所述任务特定信息指示与针对所述多通道语音信号的预定任务相对应的信息;
4.如权利要求3所述的方法,其中,在所述预定任务包括定向增强任务的情况下,
5.如权利要求4所述的方法,其中,基于所述第一麦克风阵列的阵型信息、所述任务特定信息和所述多通道语音信号,确定与所述第一麦克风阵列的阵型信息相关、并且特定于所述预定任务的语音特征包括:
6.如权利要求4或5所述的方法,其中,所述方向特征是基于在时频域中由所述第一麦克风阵列对所述多通道语音信号的观测相位差与理论相位差之间的相似度确定的;
7.如权利要求2所述的方法,其中,所述经训练的多通道语音信号处理模型以所述多通道语音信号的复数频谱和所述语音特征为输入,并且以所述经处理的语音信号为输出;
8.一种用于多通道语音信号的处理装置,包括:
9.如权利要求8所述的装置,其中,所述数据获取模块还被配置为:
10.一种用于多通道语音信号的处理设备,包括:
11.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-7中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-7中任一项所述的方法。
技术总结本公开的实施例提供了一种用于多通道语音信号的处理方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法面向麦克风阵列阵型已知的应用场景,提出了一种适用于任何麦克风阵列阵型的多通道语音前处理框架,其中,通过将麦克风阵列所采集的多通道语音信号中与该麦克风阵列的阵型信息相关的语音特征应用于该多通道语音信号的处理,使得同一经训练的多通道语音信号处理模型可以应用于任何麦克风阵型,而不需要为每种麦克风阵型训练专用的模型。此外,通过本公开的实施例的方法能够利用可知的阵型信息,支持诸如声源定位、定向增强、音区提取等的多种前处理任务。技术研发人员:顾容之,罗艺受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/1/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21214.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。