基于STFT的回声静音器的制作方法
- 国知局
- 2024-06-21 11:48:14
本公开涉及一种基于短时傅里叶变换的回声静音器。
背景技术:
1、语音启用设备能够生成合成的回放音频并将合成的回放音频传送到语音环境内的一个或多个用户。当语音启用设备输出合成的回放音频时,语音启用设备的麦克风可以将合成的回放音频捕获为声学回声,同时主动捕获由用户说出的指向语音启用设备的语音。不幸的是,对于源自合成的回放音频的声学回声,语音识别器可能难以识别在来自合成的回放音频的回声期间发生的由用户说出的语音。
技术实现思路
1、本公开的一个方面提供了一种使用基于stft的回声静音器来执行语音识别的计算机实现的方法。当在数据处理硬件上执行时,该计算机实现的方法使数据处理硬件执行包括接收包括由麦克风捕获的声学回声的麦克风信号的操作。声学回声对应于从声学扬声器回放的音频内容。操作还包括接收参考信号,该参考信号包括表示在声学扬声器回放音频内容之前在参考通道中发射的音频内容的帧序列。对于麦克风信号的帧序列中的每个帧,操作还包括使用被配置为接收参考信号的帧序列中的相应帧作为输入的声学回声消除器来处理麦克风信号的相应帧,以生成从麦克风信号的相应帧消除声学回声的相应输出信号帧。操作还包括使用双端通话检测器(dtd)基于参考信号的相应帧和相应输出信号帧来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧,操作还包括对相应输出信号帧静音。在对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧对相应输出信号帧静音之后,操作还包括对于包括双端通话帧的麦克风信号的所述帧序列中的每个相应帧,对相应输出信号帧执行语音处理。
2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,麦克风信号的一部分进一步包括表示由麦克风捕获的目标语音的音频信号,以及当麦克风信号的相应帧包括表示目标语音的音频信号时,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。这里,目标语音在从声学扬声器回放音频内容时说出。在一些示例中,执行语音处理包括使用自动语音识别(asr)模型执行语音识别。在一些实施方案中,在使用dtd来确定麦克风信号的相应帧是包括所述双端通话帧还是所述仅回声帧之前,操作进一步包括将麦克风信号、参考信号和输出信号的每个相应帧转换到短时傅里叶变换域。
3、在一些示例中,确定所述麦克风信号的相应帧是包括双端通话帧还是仅回声帧包括:使用dtd基于麦克风信号的相应帧与参考信号的相应帧之间的互相关来计算相应第一帧级双端通话指示符;以及使用dtd基于麦克风信号的相应帧与相应输出信号帧之间的互相关来计算相应第二帧级双端通话指示符。这些示例还包括确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值;以及当相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值时,确定麦克风信号的相应帧包括双端通话帧。在这些示例中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧可以进一步包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符两者都未能满足双端通话阈值时,确定麦克风信号的相应帧包括仅回声帧。可以在预定范围的频率子带上计算相应第一帧级双端通话指示符和相应第二帧级双端通话指示符。附加地或替代地,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值可以包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符中的最小值小于双端通话阈值时,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值。
4、在一些实施方式中,对于麦克风信号的帧序列中的每个帧,操作进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的一个之间的互相关来计算相应第一帧级双端通话指示符。这里,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧基于相应第一帧级双端通话指示符。在这些实施方式中,操作可以进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的另一个之间的互相关来计算相应第二帧级双端通话指示符,其中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧进一步基于相应第二帧级双端通话指示符。
5、在一些示例中,声学回声消除器包括线性声学回声消除器。在一些实施方式中,数据处理硬件、麦克风和声学扬声器驻留在用户计算设备上。在一些示例中,对于包括双端通话帧的麦克风信号的序列中的每个相应帧,对相应输出信号帧执行语音处理包括对相应输出信号帧执行语音处理,而不对相应输出信号帧执行声学回声抑制。
6、本公开的另一方面提供了一种用于使用基于stft的回声静音器来执行语音识别的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括接收包括由麦克风捕获的声学回声的麦克风信号。声学回声对应于从声学扬声器回放的音频内容。操作还包括接收参考信号,该参考信号包括表示在声学扬声器回放音频内容之前在参考通道中发射的音频内容的帧序列。对于麦克风信号的帧序列中的每个帧,操作包括使用声学回声消除器处理麦克风信号的相应帧以生成相应输出信号帧,声学回声消除器被配置为接收参考信号的帧序列中的相应帧作为输入,相应输出信号帧从麦克风信号的相应帧消除声学回声。操作还包括使用双端通话检测器(dtd)基于参考信号的相应帧和相应输出信号帧来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧,操作还包括对相应输出信号帧静音。在对于包括仅回声帧的麦克风信号的帧序列中的每个相应帧对相应输出信号帧静音之后,操作包括对于包括双端通话帧的麦克风信号的帧序列中的每个相应帧,对相应输出信号帧执行语音处理。
7、该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,麦克风信号的一部分进一步包括表示由麦克风捕获的目标语音的音频信号,以及当麦克风信号的相应帧包括表示目标语音的音频信号时,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧。这里,目标语音在从声学扬声器回放音频内容时说出。在一些示例中,执行语音处理包括使用自动语音识别(asr)模型执行语音识别。在一些实施方案中,在使用dtd来确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧之前,操作进一步包括将麦克风信号、参考信号和输出信号的每个相应帧转换到短时傅里叶变换域。
8、在一些示例中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧包括:使用dtd基于麦克风信号的相应帧与参考信号的相应帧之间的互相关来计算相应第一帧级双端通话指示符;以及使用dtd基于麦克风信号的相应帧与相应输出信号帧之间的互相关来计算相应第二帧级双端通话指示符。这些示例还包括确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值;以及当相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值时,确定麦克风信号的相应帧包括双端通话帧。在这些示例中,确定麦克风信号的相应帧是包括双端通话帧还是仅回声帧可以进一步包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符两者都未能满足双端通话阈值时,确定麦克风信号的相应帧包括仅回声帧。可以在预定范围的频率子带上计算相应第一帧级双端通话指示符和相应第二帧级双端通话指示符。附加地或替代地,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个是否满足双端通话阈值可以包括:当相应第一帧级双端通话指示符和相应第二帧级双端通话指示符中的最小值小于双端通话阈值时,确定相应第一帧级双端通话指示符或相应第二帧级双端通话指示符中的至少一个满足双端通话阈值。
9、在一些实施方式中,对于麦克风信号的帧序列中的每个帧,操作进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的一个之间的互相关来计算相应第一帧级双端通话指示符。这里,确定麦克风信号的相应帧包括双端通话帧或仅回声帧基于相应第一帧级双端通话指示符。在这些实施方式中,操作可以进一步包括使用dtd,基于麦克风信号的相应帧与参考信号的相应帧或相应输出信号帧中的另一个之间的互相关来计算相应第二帧级双端通话指示符,其中,确定麦克风信号的相应帧包括双端通话帧或仅回声帧进一步基于相应第二帧级双端通话指示符。
10、在一些示例中,声学回声消除器包括线性声学回声消除器。在一些实施方式中,数据处理硬件、麦克风和声学扬声器驻留在用户计算设备上。在一些示例中,对于包括双端通话帧的麦克风信号的序列中的每个相应帧,对相应输出信号帧执行语音处理包括对相应输出信号帧执行语音处理,而不对相应输出信号帧执行声学回声抑制。
11、在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23658.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表