一种基于气流量估计的语音分离方法
- 国知局
- 2024-06-21 10:40:27
本发明属于数字音频处理,具体提供一种基于气流量估计的语音分离方法。
背景技术:
1、在电话、视频会议中常常出现有多个讲话人同时发声的情况,语音分离的目标是从同时有多个人讲话的语音音频中分离出单个讲话人的音频,语音分离通常用于提高语音识别、情感分析等任务的性能。
2、目前,语音分离方法主要分为传统方法和深度学习方法,传统方法依赖于声源定位和波束形成等技术进行分离,深度学习方法分为基于频谱图的方法和基于音频时间序列的方法两类。深度学习方法较传统方法在分离效果上有了较大的提升,然而,无论是传统、还是深度学习的语音分离方法都针对讲话人正常发声的一般场景进行设计;语音分离方法均基于语音中的谐波成分进行分析和建模,在某些特殊场景,比如讲话人有意压低声音或在气喘,语音中的谐波成分偏低时,现有的方法的音频表征能力不足,分离准确性明显下降。因此,需要研究在谐波成分偏低的场景下,提高语音分离准确性的方法。
技术实现思路
1、本发明的目的在于提供一种基于气流量估计的语音分离方法,用以解决现有方法在低谐波成分场景下的分离准确度降低的问题。
2、为实现上述目的,本发明采用的技术方案为:
3、一种基于气流量估计的语音分离方法,包括:模型构建与语音分离,其特征在于:
4、所述模型构建包括以下步骤:
5、a1.构建气流量特征:设共有m个音频参与训练,每个音频均包含单个讲话人的声音,且具有相同的音频样点数k,对每一个音频作如下处理:
6、a1-1.估计气流量:将输入音频c输入到声门气流量估计模型中,得到该音频对应的气流量估计序列w;
7、a1-2.估计谐波成分:
8、将音频数据按固定长度划分为各音频帧,相邻帧部分重叠,得到i个音频帧;
9、定义长度为i的谐波成分数组h,对音频的每一个音频帧作:将音频帧i输入到基频估计算法中,得到该音频帧的基频成分;若该音频帧不存在基频成分,则置h的第i个元素h[i]为1,否则,置h的第i个元素h[i]为0,1≤i≤i;
10、a1-3.生成气流量特征:
11、定义长度为k的气流量特征数组f,计算气流量特征:
12、f[k]=w[k]·h[z],1≤k≤k
13、其中,f[k]表示第k个音频样点的气流量特征,w[k]表示第k个音频样点对应的气流量估计值,z为第k个音频样点对应的帧编号,h[z]表示谐波成分数组h的第z个元素值;
14、a2.生成训练样本:
15、a2-1.从训练音频中一次随机选择n个音频组成一组,共选择p次,形成p组音频;
16、a2-2.对每一组音频作如下处理:
17、对音频组第n个音频的数据进行归一化,得到归一化的音频数据序列cn,1≤n≤n;
18、对音频组第n个音频的气流量特征数组f的元素进行归一化,得到归一化的气流量特征数据序列fn;
19、将fn与cn拼接得到组合特征tn,tn=[cn fn];
20、将组内所有音频的组合特征tn进行矢量相加,得到该音频组p对应的训练样本xp:
21、xp=t1+t2+……+tn,1≤p≤p
22、a3.训练语音分离模型:将生成的训练样本xp输入到语音分离模型中进行训练,采用反向传播算法完成训练;
23、所述语音分离包括以下步骤:
24、b1.构建气流量特征:设测试音频c'为包含n个讲话人的混合声音,音频样点数为k;根据测试音频生成气流量特征:
25、b1-1.估计气流量:按步骤a1-1,得到测试音频c'对应的气流量估计序列w';
26、b1-2.估计谐波成分:按步骤a1-2,得到测试音频c'的谐波成分数组h';
27、b1-3.生成气流量特征:按步骤a1-3,得到测试音频c'的气流量特征数组f';
28、b2.生成测试样本:
29、b2-1.对测试音频c'的数据进行归一化,得到归一化的音频数据序列c';
30、b2-2.对测试音频c'的气流量特征数组f'的元素进行归一化,得到归一化的气流量特征数据序列f';
31、b2-3.将f'与c'拼接得到测试样本x',x'=[c'f'];
32、b3.语音分离:将测试样本x'输入到语音分离模型中进行分离,得到n个讲话人各自的单独语音。
33、基于上述技术方案,本发明的有益效果在于:
34、本发明提供一种基于气流量估计的语音分离方法,该方法对讲话人的声门气流量和语音谐波成分进行估计,在此基础上,以帧为单位对谐波帧的气流量进行抑制,从而生成气流量特征,弥补了低谐波成分场景下传统方法在音频表征能力上的不足,将气流量特征和原音频数据进行拼接,形成新的训练和测试样本,从而在提高非谐波语音分离准确性的同时,也保持了传统方法对正常语音的分离效果。
技术特征:1.一种基于气流量估计的语音分离方法,包括:模型构建与语音分离,其特征在于:
技术总结本发明属于数字音频处理技术领域,具体提供一种基于气流量估计的语音分离方法,用以解决现有方法在低谐波成分场景下的分离准确度降低的问题。本发明对讲话人的声门气流量和语音谐波成分进行估计,在此基础上,以帧为单位对谐波帧的气流量进行抑制,从而生成气流量特征,弥补了低谐波成分场景下传统方法在音频表征能力上的不足,将气流量特征和原音频数据进行拼接,形成新的训练和测试样本,从而在提高非谐波语音分离准确性的同时,也保持了传统方法对正常语音的分离效果。技术研发人员:甘涛,吴嘉鑫,罗瑜,何艳敏受保护的技术使用者:电子科技大学技术研发日:技术公布日:2024/1/22本文地址:https://www.jishuxx.com/zhuanli/20240618/21104.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。