技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种记者采访语音增强方法 > 正文

一种记者采访语音增强方法

国知局
2024-06-21 11:57:33

本发明属于数字音频处理，具体提供一种记者采访语音增强方法。

背景技术：

1、语音增强是从带有噪声的语音中，去除包括环境和无关人员的噪声，突显目标说话人的语音，从而改善语音的质量。语音增强可分为传统和深度学习两类方法，传统方法主要依赖于信号处理技术，包括频谱减法、维纳滤波和统计模型等；深度学习方法利用大规模数据集进行训练，学习从噪声语音到清晰语音之间复杂的非线性映射。深度学习的语音增强方法又可分为有监督和无监督方法两类，有监督方法需要纯净语音和对应的带噪语音组成的样本对，对模型进行训练，适合应用场景固定的场合；其中，个性化语音增强在训练模型时，除了使用纯净语音和对应的带噪语音的同时，还参考了目标说话人的其他纯净语音，增强了目标说话人的语音质量。相对于有监督学习方法，无监督学习方法则不需要纯净语音，而直接使用带噪语音进行训练；无监督学习方法对环境噪声有更强的鲁棒性，适合应用场景变化较大的场合，但其增强效果不如有监督方法。

2、记者采访常在多变的环境中进行，背景噪声多样，噪声类型不固定，无法提前预知；同时，采访时涉及多个说话人，除记者外，被采访人的纯净语音往往也难以获取，这些原因都限制了有监督方法的使用，而无监督方法的语音增强效果不理想。

技术实现思路

1、本发明的目的在于针对上述现有技术的不足，提供一种记者采访语音增强方法，用以改善背景噪声复杂多变的采访语音的增强效果。

2、为了达到上述目的，本发明采用的技术方案为：

3、一种记者采访语音增强方法，其特征在于，包括以下步骤：

4、a1.语音分段；

5、a1-1.设语音库中包含s个说话人的多条纯净语音，每条纯净语音均为单个说话人的语音，根据语音库中的语音训练得到说话人识别模型；

6、a1-2.将输入语音按固定长度进行分段，得到k个语音段；

7、a1-3.对每一个语音段作：对第k、1≤k≤k个段，将该段的音频数据输入到说话人识别模型中进行说话人识别，得到第k个语音段对应的说话人编号sk及预测概率pk；将预测概率pk与预测阈值p作比较，若pk小于p，则更新说话人编号sk为s+1；

8、a1-4.按时间顺序依次扫描各个语音段对应的说话人编号，将说话人编号相同的连续语音段合并为一段，得到l个语音段；

9、a2.读取语音段；

10、a2-1.初始化i＝1；

11、a2-2.读取第i个语音段的数据xi及其对应的说话人编号si；

12、a3.判断说话人是否在库中：若si≤s，则转到步骤a4进行语音增强，否则转到步骤a6进行语音增强；

13、a4.个性化语音增强：从语音库中取出编号为si的说话人的任意一条纯净语音ri，将语音段xi和纯净语音ri输入到个性化语音增强模型中进行增强，得到增强语音段ei；

14、a5.微调无监督模型；

15、a5-1.构造微调训练样本：计算噪声yi：yi＝xi-ei，从语音库中随机抽取m条纯净语音，将每一条语音与噪声yi相加，生成m条加噪语音，将每条纯净语音与其加噪语音组成一个微调训练样本，共得到m个微调训练样本；

16、a5-2.用微调训练样本对无监督语音增强预训练模型进行微调，得到微调后的无监督语音增强模型，转到步骤a7；

17、a6.无监督增强：将语音段xi输入到无监督语音增强模型中进行增强，得到增强语音段ei；

18、a7.语音段拼接：将增强语音段ei追加到语音序列w中；

19、a8.判断是否处理完语音段：若i小于语音段数目l，则更新i为i+1，转到a2-2，否则输出语音序列w。

20、基于上述技术方案，本发明的有益效果在于：

21、本发明提供一种记者采访语音增强方法，该方法通过说话人识别将输入语音按说话人类别进行分段，在此基础上，对属于语音库中说话人的语音采用个性化语音增强方法进行增强，对不属于语音库中说话人的语音采用无监督语音增强方法进行增强，从而结合了有监督和无监督两类语音增强方法的优点，达到了更好的语音增强效果；同时，在个性化语音增强处理后，利用提取的背景噪声信息对无监督语音增强预训练模型进行微调，提高了无监督语音增强模型的性能，增强了该方法对复杂噪声环境的适应性。

技术特征：

1.一种记者采访语音增强方法，其特征在于，包括以下步骤：

技术总结本发明属于数字音频处理技术领域，具体提供一种记者采访语音增强方法，用以改善背景噪声复杂多变的采访语音的增强效果。本发明提供的记者采访语音增强方法中，通过说话人识别将输入语音按说话人类别进行分段，在此基础上，对属于语音库中说话人的语音采用个性化语音增强方法进行增强，对不属于语音库中说话人的语音采用无监督语音增强方法进行增强，从而结合了有监督和无监督两类语音增强方法的优点，达到了更好的语音增强效果；同时，在个性化语音增强处理后，利用提取的背景噪声信息对无监督语音增强预训练模型进行微调，提高了无监督语音增强模型的性能，增强了该方法对复杂噪声环境的适应性。技术研发人员：甘涛,吴嘉鑫,罗瑜,何艳敏受保护的技术使用者：电子科技大学技术研发日：技术公布日：2024/6/11