一种噪声环境下耳机通话语音增强方法及系统与流程
- 国知局
- 2024-06-21 10:44:13
本发明涉及耳机语音增强,更具体的,涉及一种噪声环境下耳机通话语音增强方法及系统。
背景技术:
1、近年来,随着人工智能与移动通信技术的高速发展,可穿戴式设备的研究成为了炙手可热的领域。可穿戴式设备主要有无线蓝牙耳机、手环等种类。人们通过可穿戴式设备可实现人机交互和人际通话。耳机设备接收外界发出的语音信号,并将由耳机设备接收的语音信号进行一定的信号处理后再传输到人耳中,从而实现语音传输。通常佩戴者所处的声场环境中存在大量的噪声、人声等干扰,这会严重影响佩戴者的语音体验感。
2、目前,耳机语音增强主要是采用自动音量控制技术及物理降噪方式,自动音量控制外界噪声高的时候自动提高输出给扬声器单元的功率,长期会对佩戴者的听力造成损伤,而物理降噪的耳塞型耳机一般采用皮套和人耳进行密封性的耦合形式,一方面通过材料的吸声和隔声来降低中、高频噪声,另一方面通过主动噪声控制技术有效的降低低频(主要在300hz以下)噪声,从而实现在全频带对外界噪声较好的控制效果,可以较有效的提升通信耳机受话端语音的信噪比,但是长期佩戴密封式的耳塞型通信耳机,使用者会有耳道内外气压不均衡的感觉,使得舒适度降低。因此,如何在复杂的噪声环境下对构建通用的耳机通话语音增强的方法是需要解决的问题。
技术实现思路
1、为了解决上述技术问题,本发明提出了一种噪声环境下耳机通话语音增强方法及系统。
2、本发明第一方面提供了一种噪声环境下耳机通话语音增强方法,包括:
3、通过获取耳机佩戴用户的反馈信息提取预选使用场景,获取耳机佩戴用户的历史通话语音序列,将所述历史通话语音序列进行聚类,利用聚类结果对所述预选使用场景进行调整;
4、利用不同使用场景的历史通话语音序列提取用户语音特征,根据所述用户语音特征及预设声学特征构建语音识别增强模型;
5、在当前使用场景中获取含有环境噪声的通话语音序列,根据所述语音识别增强模型分离通话语音序列中佩戴用户的语音子序列;
6、获取语音子序列中的噪声分布,根据所述噪声分布调用当前使用场景对应的噪声衰减及滤波,利用线性编码对滤波后的语音子序列进行线性预测,获取连续的通话语音序列。
7、本方案中,通过获取耳机佩戴用户的反馈信息提取预选使用场景,获取耳机佩戴用户的历史通话语音序列,将所述历史通话语音序列进行聚类,具体为:
8、根据耳机佩戴用户的反馈信息获取用户的高频使用场景,根据大数据手段获取不同高频使用场景下常见的噪声特征,通过时间卷积网络获取不同场景下噪声特征的时序变化,并与高频使用场景进行关联;
9、获取耳机佩戴用户脱敏后的历史通话语音序列,将所述历史通话语音序列进行预处理提取预设声学特征,构建声学特征序列,根据所述高频使用场景设置初始聚类中心,利用动态时间规整将噪声时序特征序列及声学特征序列匹配;
10、读取声学特征序列与不同聚类中心对应噪声时序特征的动态时间规整距离,将不同的历史通话语音序列对应的声学特征归于距离最近的初始聚类中心;
11、通过迭代聚类更新不同类簇的聚类中心,获取聚类结果获取历史通话语音序列对应的使用场景,筛选无使用场景标注的历史通话语音序列,若数据量大于预设阈值,则根据大数据获取对应使用场景标签,对预选使用场景进行调整。
12、本方案中,利用不同使用场景的历史通话语音序列提取用户语音特征,具体为:
13、获取带有使用场景标签的历史通话序列,将所述历史通话序列利用小波变换进行初始滤波,获取预处理后的历史通话序列;
14、通过遗传算法对变分模态分解进行优化,产生初始种群,在种群个体中包含分解层数及惩罚因子两个参数,并给定个体范围,对初始种群进行交叉变异操作;
15、根据最小包络熵作为目标函数求解目标函数值,通过更新迭代至达到最大迭代次数后输出最优的分解层数及惩罚因子,根据分解层数及惩罚因子配置优化后的变分模态分解;
16、利用优化后的变分模态分解将预处理后的历史通话序列分解为若干模态分量,计算各模态分量的能量熵,根据所述能量熵将重构后的模态分量划分为高频分量及中低频分量;
17、获取当前语言的标准语调信息,利用多头注意力构建提取高频分量中的语调数据,构建语调数据及标准语调信息的映射关系,提取映射偏差获取语调特征;
18、通过所述语调特征在中低频分量中筛选语音帧,将筛选的语音帧对高频分量进行数据插值补充,构建bi-lstm网络获取数据补充后高频分量中语音数据空间时序关系,并结合所述语调特征获取用户语音特征。
19、本方案中,根据所述用户语音特征及预设声学特征构建语音识别增强模型,具体为:
20、利用大数据方法获取通话语音识别增强实例,提取实例中所使用的声学特征,基于预设数量筛选识别率符合阈值标准的声学特征,根据预设数量的声学特征及用户语音特征构建特征子集;
21、基于u-net网络构建语音识别增强模型,根据所述特征子集训练编码器模块,获取特征输出进行位置编码,将位置编码后的特征导入多头注意力模块,学习不同特征的权重信息对特征进行加权,并对加权后的特征进行非线性变换获取编码器输出;
22、将编码器输出导入解码器进行解码,获得通话语音序列的掩膜,在当前使用场景中获取含有环境噪声的通话语音序列,导入语音识别增强模型获取佩戴用户初步增强后的语音子序列。
23、本方案中,获取语音子序列中的噪声分布,具体为:
24、获取语音子序列中各语音信号帧的最大幅度值,构建预设大小的窗口进行噪声密度判定,在窗口获取大于最大幅度值阈值的语音信号帧进行标记,将标记的语音信号帧与窗口内语音信号帧总数对比获取噪声序列密度;
25、利用所述窗口遍历语音序列,获取语音子序列中各帧对应的噪声序列密度,生成噪声分布,并根据所述噪声分布对语音子序列进行分割。
26、本方案中,根据所述噪声分布调用当前使用场景对应的噪声衰减及滤波,具体为:
27、通过含有环境噪声的通话语音序列,获取对应的噪声特征序列,利用所述噪声特征序列进行相似度计算获取当前的使用场景,根据所述使用场景调用历史通话语音序列的纯净语音序列;
28、获取分割后语音子序列的密集噪声段及稀疏噪声段,对密集噪声段及稀疏噪声段分配不同的权重信息,利用所述纯净语音序列为基准根据权重信息进行噪声衰减及局部滤波,并进行声段拼接,输出滤波后的语音子序列实现再次增强。
29、本发明第二方面还提供了一种噪声环境下耳机通话语音增强系统,该系统包括:存储器、处理器,所述存储器中包括噪声环境下耳机通话语音增强方法程序,所述噪声环境下耳机通话语音增强方法程序被所述处理器执行时实现如下步骤:
30、通过获取耳机佩戴用户的反馈信息提取预选使用场景,获取耳机佩戴用户的历史通话语音序列,将所述历史通话语音序列进行聚类,利用聚类结果对所述预选使用场景进行调整;
31、利用不同使用场景的历史通话语音序列提取用户语音特征,根据所述用户语音特征及预设声学特征构建语音识别增强模型;
32、在当前使用场景中获取含有环境噪声的通话语音序列,根据所述语音识别增强模型分离通话语音序列中佩戴用户的语音子序列;
33、获取语音子序列中的噪声分布,根据所述噪声分布调用当前使用场景对应的噪声衰减及滤波,利用线性编码对滤波后的语音子序列进行线性预测,获取连续的通话语音序列。
34、本发明公开了一种噪声环境下耳机通话语音增强方法及系统,包括通过获取耳机佩戴用户的反馈信息提取预选使用场景,将历史通话语音序列根据使用场景进行聚类,提取用户语音特征,根据所述语音特征及预设声学特征构建语音识别增强模型;在当前使用场景中获取含有环境噪声的通话语音序列,分离通话语音序列中佩戴用户的语音子序列;获取语音子序列中的噪声分布,调用当前使用场景对应的噪声衰减及滤波,利用线性编码对滤波后的语音子序列进行线性预测,获取连续的通话语音序列。本发明对不同场景下的声场环境进行语音增益,大大提高了耳机通话质量,并且考虑耳机佩戴用户的用户语音特征,提供个性化降噪效果,提高了耳机佩戴用户的通话舒适度。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21433.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。