技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于智能办公的语音数据增强优化方法与流程  >  正文

用于智能办公的语音数据增强优化方法与流程

  • 国知局
  • 2024-06-21 11:48:26

本技术涉及语音增强,具体涉及用于智能办公的语音数据增强优化方法。

背景技术:

1、随着语音识别技术的发展,以及语音识别技术的便捷性,由语音助手等语音识别软件辅助控制的软件、设备逐渐在多种办公场景中使用。例如,使用语音助手进行日程管理,使用语音助手进行文本翻译、语言翻译等;具有语音转写、语音识别等功能的智能办公本、智能录音笔等设备极大地提高了办公效率。

2、智能办公的场景中对语音信号的接收和处理至关重要,因为办公场景中除去用于沟通和控制的语音外,还包括设备移动、背景音、环境噪声等多种声音,这些会影响智能办公设备对说话人发出的语音指令的接收效果,因此在智能办公中涉及到语音信号处理时通常需要对语音信号进行增强。而传统的语音增强方法一般是对含噪语音进行处理,逼近干净语音,这类方法在会由于对语音的过抑制从而引入额外的失真,导致复杂环境中增强效果大幅度降低。例如,加权预测误差wpe(weighted prediction error)算法是一种用于自适应滤波和信号处理的算法。它在最小均方误差mmse(minimum mean square error)准则下,通过加权的方式来优化预测误差,实现对语音信号的滤波增强。而wpe算法在处理语音信号时,通常将加权因子设置为固定的值,没有考虑到办公场景下语音信号的动态变化,导致滤波效果较差,影响后续智能控制的有效性。

技术实现思路

1、本技术提供用于智能办公的语音数据增强优化方法,以解决wpe算法在处理语音信号时,通常将加权因子设置为固定的值,没有考虑到办公场景下语音信号的动态变化导致滤波效果较差的问题,所采用的技术方案具体如下:

2、本技术一个实施例提供了用于智能办公的语音数据增强优化方法,该方法包括以下步骤:

3、获取内置麦克风阵列中每个阵元采集的语音信号;

4、基于每个阵元采集的语音信号的mel谱图上所有点能量值的聚类结果确定每帧语音信号的谱图覆盖模糊评估因子;

5、基于每个阵元采集的语音信号中每帧语音信号包络的波动特征确定每帧语音信号的包络受噪随机影响系数;

6、基于每帧语音信号的谱图覆盖模糊评估因子、包络受噪随机影响系数确定每帧语音信号的声纹模糊均衡系数;

7、基于工作人员发出语音指令时说话人情绪稳定性对语音信号的影响程度以及每个周期内语音信号韵律特征的分析结果确定每帧语音信号的控制发音行为约束因子;

8、基于每帧语音信号的声纹模糊均衡系数、控制发音行为约束因子确定每帧语音信号的动态优化因子;采用wpe算法基于所述动态优化因子得到语音信号的增强结果。

9、优选的,所述基于每个阵元采集的语音信号的mel谱图上所有点能量值的聚类结果确定每帧语音信号的谱图覆盖模糊评估因子的方法为:

10、将每个阵元采集的语音信号的mel谱图上所有点的能量值作为输入,采用fcm算法将所述所有点的能量值划分到预设数量个聚类簇中;

11、对每个阵元采集的语音信号进行分帧处理,将每帧语音信号上所有点的能量值与每个聚类中心之间隶属度的分布方差在所有聚类中心上累加结果作为第一累加值;

12、将每帧语音信号上每个点的能量值与所有聚类中心之间隶属度的分布方差在每帧语音信号上所有点上的累加结果作为第二累计值;

13、将第一累加值与第二累计值的和作为每帧语音信号的谱图覆盖模糊评估因子。

14、优选的,所述基于每个阵元采集的语音信号中每帧语音信号包络的波动特征确定每帧语音信号的包络受噪随机影响系数的方法为:

15、基于每帧语音信号的包络上所有峰值点所确定的水平线获取每帧语音信号上每条水平线的波动区间统计序列;

16、将每个阵元采集的语音信号分帧结果中每帧语音信号与其余帧语音信号在同一条水平线的波动区间统计序列之间的相似性度量结果在所述分帧结果中所有帧的所有水平线上的二次累加结果作为第一度量值;

17、计算每个阵元采集的语音信号分帧结果中所有帧语音信号包络的动态范围组成序列的赫斯特指数与0.5之间差值的绝对值,将所述绝对值与第一度量值的乘积作为分子;

18、将每帧语音信号包络的动态范围与所有帧语音信号包络的动态范围的均值之间差值的绝对值与0.01的和作为分母;

19、将分子与分母的比值作为每帧语音信号的包络受噪随机影响系数。

20、优选的,所述基于每帧语音信号的包络上所有峰值点所确定的水平线获取每帧语音信号上每条水平线的波动区间统计序列的方法为:

21、计算每帧语音信号的包络上所有峰值点组成集合的四分位数,在每帧语音信号的频谱图中过每个四分位数作一条水平线,将每条水平线与每帧语音信号包络的任意两个相邻交点的横坐标之间差值的绝对值作为一个波动范围;

22、将每帧语音信号频谱图上每条水平线对应的所有波动范围组成的序列作为每帧语音信号上每条水平线的波动区间统计序列。

23、优选的,所述基于每帧语音信号的谱图覆盖模糊评估因子、包络受噪随机影响系数确定每帧语音信号的声纹模糊均衡系数的方法为:

24、计算以自然常数为底数,以每帧语音信号的包络受噪随机影响系数为指数的计算结果,将所述计算结果与每帧语音信号的谱图覆盖模糊评估因子的乘积作为每帧语音信号的声纹模糊均衡系数。

25、优选的,所述基于工作人员发出语音指令时说话人情绪稳定性对语音信号的影响程度以及每个周期内语音信号韵律特征的分析结果确定每帧语音信号的控制发音行为约束因子的方法为:

26、将每帧语音信号中所有时刻的短时平均能量按照时间顺序组成的序列作为每帧语音信号的短时能量序列;

27、计算每帧语音信号与每帧语音信号所在周期内其余所有帧语音信号的短时能量序列之间dtw距离的第一四分位数,将每帧语音信号所在周期内每个dtw距离小于所述第一四分位数的帧作为每帧语音信号的发声动作相似帧;

28、基于每个阵元采集的语音信号的基频将每个阵元采集的语音信号划分成预设数量个周期,基于每个周期内每帧语音信号的谱图覆盖模糊评估因子以及韵律特征的分析结果确定每个周期的指令周期情绪平稳度;

29、基于每帧语音信号与每帧语音信号的发声动作相似帧之间第二共振峰、声纹模糊均衡系数之间的差异确定每帧语音信号的指令发音情绪突显系数;

30、将每帧语音信号所在周期的指令周期情绪平稳度与0.01的和作为分母;将以自然常数为底数,以每帧语音信号的包络受噪随机影响系数的相反数为指数的计算结果与分母的比值作为第一组成因子;

31、统计每帧语音信号与每帧语音信号的所有发声动作相似帧之间的时间间隔之和,将每帧语音信号的指令发音情绪突显系数与所述时间间隔之和的比值作为第二组成因子;

32、每帧语音信号的控制发音行为约束因子由第一组成因子、第二组成因子两部分组成,其中,所述控制发音行为约束因子分别与第一组成因子、第二组成因子成正比关系。

33、优选的,所述基于每个周期内每帧语音信号的谱图覆盖模糊评估因子以及韵律特征的分析结果确定每个周期的指令周期情绪平稳度的方法为:

34、将每帧语音信号与每帧语音信号所在周期内语音信号的第二共振峰之间差值的绝对值与所述周期内语音信号中所有时刻的短时平均能量的均值的乘积作为第一差异值,将每帧语音信号所在周期内所有帧语音信号的谱图覆盖模糊评估因子组成集合的变异系数与第一差异值的乘积与0.01的和作为分母;

35、将每帧语音信号所在周期内每帧语音信号的发声动作相似帧的数量与分母的比值作为每帧语音信号所在周期的指令周期情绪平稳度。

36、优选的,所述基于每帧语音信号与每帧语音信号的发声动作相似帧之间第二共振峰、声纹模糊均衡系数之间的差异确定每帧语音信号的指令发音情绪突显系数的方法为:

37、将每帧语音信号与每帧语音信号的任意一个发声动作相似帧之间第二共振峰的差值作为第一差值;

38、计算每帧语音信号与每帧语音信号的任意一个发声动作相似帧声纹模糊均衡系数的均值,计算每帧语音信号与每帧语音信号的任意一个发声动作相似帧声纹模糊均衡系数之间差值的绝对值,将所述均值与所述绝对值的乘积作为第二差异值;

39、将第一差值与第二差异值之和在每帧语音信号的所有发声动作相似帧上的累加结果作为每帧语音信号的指令发音情绪突显系数。

40、优选的,所述基于每帧语音信号的声纹模糊均衡系数、控制发音行为约束因子确定每帧语音信号的动态优化因子的方法为:

41、计算每帧语音信号的声纹模糊均衡系数与每帧语音信号的控制发音行为约束因子的比值,将以自然常数为底数,以所述比值为幂的对数函数的结算结果与wpe算法中优化因子的估计值的乘积作为每帧语音信号的动态优化因子。

42、优选的,所述采用wpe算法基于所述动态优化因子得到语音信号的增强结果的方法为:

43、将内置麦克风阵列采集的语音信号作为输入,采用wpe算法基于所述语音信号中每一帧语音信号的动态优化因子得到增强语音信号。

44、本技术的有益效果是:本技术通过分析语音信号时频域上是否存在噪声成分的分析结果确定每一帧的声纹模糊均衡系数,声纹模糊均衡系数综合考虑了噪声对内置麦克风阵元接收语音信号在时频域上的影响特征,相较于单一声学特征能够更准确的评估每一帧信号的含噪可能性;其次基于工作人员发出语音指令时的说话人行为特征对语音信号的影响分析确定每一帧语音信号的控制发音行为约束因子,控制发音行为约束因子利用工作人员发出语音指令时的情绪特征区分说话人行为与噪声对语音信号的动态干扰,并通过声纹模糊均衡系数、控制发音行为约束因子自适应确定wpe算法中的动态优化因子,能够更好的考虑语音信号中的动态变化,提高混响中噪声的消除效果,使得内置麦克风阵列最终得到增强语音信号的质量更好。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23677.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。