技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于电话语音识别的信息处理方法及装置与流程 > 正文

用于电话语音识别的信息处理方法及装置与流程

国知局
2024-06-21 11:39:29

本申请涉及信号处理，具体而言，涉及一种用于电话语音识别的信息处理方法及装置。

背景技术：

1、出于多样化的信道失真和数据隐私考虑，无法将其直接作为训练样本使用，进而通过模型识别真实电话语音的任务具有挑战性。

2、相关技术中，电话语音识别精度无法达到比较理想的水平。

技术实现思路

1、本申请的主要目的在于提供一种用于电话语音识别的信息处理方法及装置，以克服相关技术存在的缺陷。

2、为了实现上述目的，第一方面，本申请提供了一种用于电话语音识别的信息处理方法，包括：获取非电话信道语音数据，并对所述非电话信道语音数据进行随机速度扰动，得到第一语音数据；对所述第一语音数据添加噪声和混响数据，得到第二语音数据；对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据；基于所述第三语音数据，对预设的声纹识别用模型进行训练，以作为训练样本对所述预设的声纹识别用模型进行训练。

3、在一些实施例中，将降采样后的数据进行电话信道传输模拟包括：基于不同的压缩方式，对所述降采样后的数据进行压缩，得到不同压缩方式下的数据；将所述降采样后的数据、以及所述不同压缩方式下的数据作为所述第三语音数据。

4、在一些实施例中，对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据包括：对所述第二语音数据进行削波模拟，得到第四语音数据；对所述第四语音数据进行音频降采样，并将采样后的数据进行电话信道传输模拟，得到第三语音数据。

5、在一些实施例中，所述将降采样后的数据进行电话信道传输模拟，得到第三语音数据包括：对所述降采样后的数据进行电话信道编码，得到编码后的音频数据；对所述编码后的音频数据进行网络丢包模拟，得到第五语音数据；对所述编码后的音频数据进行包重复模拟，得到第六语音数据；对所述编码后的音频数据进行包损坏模拟，得到第七语音数据；对所述编码后的音频数据进行包乱序模拟，得到第八语音数据；对所述第五语音数据、所述第六语音数据、所述第七语音数据、第八语音数据进行解码，并将所述解码后的数据作为所述第三语音数据。

6、在一些实施例中，对所述第二语音数据进行削波模拟，得到第四语音数据：基于随机掩码确定第二语音数据中特定时间区间中的数据；对所述特定时间区间中的数据进行爆破音模拟，得到第四语音数据。

7、在一些实施例中，所述方法还包括：提取电话语音数据；将所述电话语音数据输入至训练完成的声纹识别用模型中，以确定所述电话语音数据中的声纹特征向量。

8、在一些实施例中，在提取电话语音数据之后，所述方法还对所述电话语音数据进行回声消除，包括：基于高通滤波器对所述电话语音数据中频率低于预设截止频率的数据进行削弱，并传递频率高于或者等于所述预设截止频率的电话语音信号；基于预设的回声消除规则，对存在的频率低于预设截止频率的电话语音信号进行自适应滤波；对自适应滤波后的数据中的预设频带的回声信号进行抑制，得到回声消除后的信号。

9、在一些实施例中，所述基于预设的回声消除规则，对存在的频率低于预设截止频率的数据进行自适应滤波包括：以所述高通滤波器输出的电话语音信号与期望信号之差的均方值最小为目标，对所述高通滤波器的抽头系数进行动态调整。

10、第二方面，本申请还提供了一种用于电话语音识别的信息处理装置，包括第一处理单元，被配置成获取非电话信道语音数据，并对所述非电话信道语音进行随机速度扰动，得到第一语音数据；第二处理单元，被配置成对所述第一语音数据添加噪声和混响数据，得到第二语音数据；第三处理单元，被配置成对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据；训练单元，被配置成基于所述第三语音数据，对预设的声纹识别用模型进行训练，以作为训练样本对所述预设的声纹识别用模型进行训练。

11、在一些实施例中，装置还包括：语音提取单元，被配置成提取电话语音数据；模型识别单元，被配置成将所述电话语音数据输入至训练完成的声纹识别用模型中，以确定所述电话语音数据中的声纹特征向量。

12、第三方面，本申请还提供一种电子设备，包括：存储器，用于存储计算机程序产品；处理器，用于执行存储器中存储的计算机程序产品，且计算机程序产品被执行时，实现上述任一实施例中的方法。

13、第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时，实现上述任一实施例中的方法。

14、本申请提供的用于电话语音识别的信息处理方法及装置，其中方法包括获取非电话信道语音数据，并对所述非电话信道语音进行随机速度扰动，得到第一语音数据；对所述第一语音数据添加噪声和混响数据，得到第二语音数据；对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据；基于所述第三语音数据，对预设的声纹识别用模型进行训练，以作为训练样本对所述预设的声纹识别用模型进行训练。通过特定的数据增强方式得到的数据用于声纹识别系统模型训练，实现少数据量情况下的电话信道声纹识别模型的训练，进而克服了在没有真实的电话数据可用的情况下将难以针对电话数据实施模型的训练的问题。

技术特征：

1.一种用于电话语音识别的信息处理方法，其特征在于，包括：

2.根据权利要求1所述的用于电话语音识别的信息处理方法，其特征在于，所述将降采样后的数据进行电话信道传输模拟包括：

3.根据权利要求1所述的用于电话语音识别的信息处理方法，其特征在于，对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据包括：

4.根据权利要求1或3所述的用于电话语音识别的信息处理方法，其特征在于，所述将降采样后的数据进行电话信道传输模拟，得到第三语音数据包括：

5.根据权利要求3所述的用于电话语音识别的信息处理方法，其特征在于，对所述第二语音数据进行削波模拟，得到第四语音数据：

6.根据权利要求1所述的用于电话语音识别的信息处理方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的用于电话语音识别的信息处理方法，其特征在于，在提取电话语音数据之后，所述方法还对所述电话语音数据进行回声消除，包括：

8.根据权利要求4所述的用于电话语音识别的信息处理方法，其特征在于，所述基于预设的回声消除规则，对所述电话语音信号中存在的频率低于预设截止频率的信号进行自适应滤波包括：

9.一种用于电话语音识别的信息处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：存储器，用于存储计算机程序产品；处理器，用于执行所述存储器中存储的计算机程序产品，且所述计算机程序产品被执行时，实现上述权利要求1-8任一所述的方法。

技术总结本申请公开了一种用于电话语音识别的信息处理方法及装置，其中方法包括获取非电话信道语音数据，并对所述非电话信道语音数据进行随机速度扰动，得到第一语音数据；对所述第一语音数据添加噪声和混响数据，得到第二语音数据；对所述第二语音数据进行音频降采样，并将降采样后的数据进行电话信道传输模拟，得到第三语音数据；基于所述第三语音数据，对预设的声纹识别用模型进行训练，以作为训练样本对所述预设的声纹识别用模型进行训练。通过特定的数据增强方式得到的数据用于声纹识别系统模型训练，实现少数据量情况下的电话信道声纹识别模型的训练，进而克服了在没有真实的电话数据可用的情况下将难以针对电话数据实施模型的训练的问题。技术研发人员：赵胜,丁卓受保护的技术使用者：南京龙垣信息科技有限公司技术研发日：技术公布日：2024/3/27