技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音数据的清洗方法及电子设备与流程 > 正文

语音数据的清洗方法及电子设备与流程

国知局
2024-06-21 10:43:56

本申请涉及音频处理，特别是涉及一种语音数据的清洗方法及电子设备。

背景技术：

1、近年来关于语音处理的人工智能技术发展迅速，基于深度学习的语音智能降噪算法成为人工智能领域的焦点。目前，诸多语音降噪模型已经工程化落地并成功运用在电子产品中。

2、语音降噪模型的性能除了与深度学习架构相关之外，一定程度上还取决于模型训练过程中训练数据集的质量，训练数据集的质量好坏可以直接影响到语音降噪模型性能的优劣。

3、当前的开源以及自行录制的训练数据集质量较难达到语音降噪模型的标准，容易导致语音降噪模型性能偏低，因此，在语音降噪模型训练前，语音训练数据集清洗工作十分重要。

技术实现思路

1、本申请至少提供一种语音数据的清洗方法及电子设备。

2、本申请第一方面提供了一种语音数据的清洗方法，方法包括：获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音。

3、在一实施例中，检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：将各个原始语音片段和各个候选语音片段分别输入至预先训练的语音质量评估模型中，得到语音质量评估模型输出的各个原始语音片段和各个候选语音片段的语音质量；对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段。

4、在一实施例中，对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段，包括：将相互对应的原始语音片段和候选语音片段中，语音质量最高的语音片段作为目标语音片段。

5、在一实施例中，在将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到目标降噪模型输出的候选清洗语音之前，还包括：获取噪音数据；利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型。

6、在一实施例中，利用噪音数据和原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型，包括：对原始语音和噪音数据进行混合，得到第一混合语音；将原始语音作为第一混合语音的样本标签，根据原始语音和第一混合语音对初始神经网络模型进行训练，得到训练完成的初始降噪模型；将原始语音输入至初始降噪模型中进行噪音清洗处理，得到初始清洗语音；对初始清洗语音和噪音数据进行混合，得到第二混合语音；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型。

7、在一实施例中，预设神经网络模型为初始神经网络模型；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始神经网络模型中，得到初始神经网络模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始神经网络模型的模型参数，得到训练完成的目标降噪模型。

8、在一实施例中，预设神经网络模型为初始降噪模型；将初始清洗语音作为第二混合语音的样本标签，根据初始清洗语音和第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：将第二混合语音输入至初始降噪模型中，得到初始降噪模型输出的预测降噪语音；计算预测降噪语音和原始语音对应的期望语音增益之间的损失值；利用损失值更新初始降噪模型的模型参数，得到训练完成的目标降噪模型。

9、在一实施例中，检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：将初始清洗语音划分为多个初始语音片段；获取每个原始语音片段、初始语音片段和候选语音片段的语音质量；从相互对应的原始语音片段、初始语音片段和候选语音片段中，选取出语音质量最高的语音片段作为目标语音片段。

10、在一实施例中，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音，包括：获取目标降噪模型输出的原始语音增益；利用原始语音增益对原始语音进行降噪处理，得到候选清洗语音。

11、本申请第二方面提供了一种语音数据的清洗装置，装置包括：噪音清洗模块，用于获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；划分模块，用于将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；目标片段确定模块，用于检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；片段组合模块，用于对每个目标语音片段进行组合，得到目标清洗语音。

12、本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述语音数据的清洗方法。

13、本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述语音数据的清洗方法。

14、上述方案，通过获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，以进行数据清洗效果的判定，根据语音质量确定要保留的目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除，有效保证数据清洗的准确度。

15、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

技术特征：

1.一种语音数据的清洗方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述对相互对应的原始语音片段和候选语音片段的语音质量进行对比，基于对比结果确定目标语音片段，包括：

4.根据权利要求1所述的方法，其特征在于，将所述原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到所述目标降噪模型输出的候选清洗语音之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述噪音数据和所述原始语音，对初始神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述预设神经网络模型为初始神经网络模型；将所述初始清洗语音作为所述第二混合语音的样本标签，根据所述初始清洗语音和所述第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述预设神经网络模型为初始降噪模型；将所述初始清洗语音作为所述第二混合语音的样本标签，根据所述初始清洗语音和所述第二混合语音对预设神经网络模型进行训练，得到训练完成的目标降噪模型，包括：

8.根据权利要求5所述的方法，其特征在于，所述检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段，包括：

9.根据权利要求1所述的方法，其特征在于，将所述原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音，包括：

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-9任一项所述方法中的步骤。

技术总结本申请公开了一种语音数据的清洗方法及电子设备，该语音数据的清洗方法包括：获取待清洗的原始语音，将原始语音输入至预先训练的目标降噪模型中进行噪音清洗处理，得到候选清洗语音；将原始语音划分为多个原始语音片段，以及将候选清洗语音划分为多个候选语音片段，原始语音片段与候选语音片段一一对应；检测相互对应的原始语音片段和候选语音片段的语音质量，基于质量检测结果确定目标语音片段；对每个目标语音片段进行组合，得到目标清洗语音。通过进行数据清洗效果的判定，根据语音质量确定要保留的目标语音片段，可以在保证语音信息不被损坏的前提下，对语音数据进行噪音清除，有效保证数据清洗的准确度。技术研发人员：李文,沈亚军,洪传荣,杨国全受保护的技术使用者：浙江华创视讯科技有限公司技术研发日：技术公布日：2024/2/1