技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于声音识别的智能办公语音控制方法及系统与流程 > 正文

基于声音识别的智能办公语音控制方法及系统与流程

国知局
2024-06-21 11:50:17

本技术涉及语音处理，具体涉及基于声音识别的智能办公语音控制方法及系统。

背景技术：

1、随着语音识别技术的发展，以及语音识别技术的便捷性，由语音助手等语音识别软件辅助控制的软件、设备逐渐在多种办公场景中使用。例如，使用语音助手进行日程管理，使用语音助手进行文本翻译、语言翻译等；具有语音转写、语音识别等功能的智能办公本、智能录音笔等设备极大地提高了办公效率。

2、由于办公场景中除去用于沟通和控制的语音外，还包括设备移动、背景音、环境噪声等多种声音，这些会影响智能办公设备对说话人发出的语音指令的接收效果，因此在智能办公中涉及到语音信号处理时通常需要对混响环节下的语音信号进行滤波增强。在工作人员对智能办公本发出语音指令后，智能办公本接收到的语音信号中还会包含一定分量的反射信号，此类反射信号是由于办公场景中具有反射能力的物体对语音指令反射形成的，例如智能办公本的外壳，工作人员附近的墙体等。且由于办公环境通常是封闭式空间，反射和混响会产生较多噪声源，此时利用广义旁瓣消除波束形成gsc(general sidelobecanceller)算法对智能办公本接收到的语音信号进行增强时的去噪能力有限，无法去除非相干噪声，影响语音指令对智能办公设备的控制效果。

技术实现思路

1、本技术提供基于声音识别的智能办公语音控制方法及系统，以解决gsc算法对智能办公本接收到的语音信号进行增强时无法去除非相干噪声的问题，所采用的技术方案具体如下：

2、第一方面，本技术一个实施例提供基于声音识别的智能办公语音控制方法，该方法包括以下步骤：

3、获取内置麦克风阵列中每个阵元采集的语音信号；

4、基于每个阵元采集的语音信号中每帧语音信号在时频域上受到噪声的影响情况确定每帧语音信号的声纹模糊均衡系数；

5、基于工作人员发出语音指令时的情绪特征对韵律特征的影响程度以及每帧语音信号的声纹模糊均衡系数确定每帧语音信号的控制发音行为约束因子；

6、基于智能办公场景下声波反射现象对每帧语音信号进行滤波时稳态情况的影响以及每帧语音信号的控制发音行为约束因子确定每帧语音信号的反射减迟特征契合度；

7、基于每帧语音信号的反射减迟特征契合度确定nlsm算法中每帧语音信号的自适应步长因子，将改进后的nlsm算法作为gsc算法的辅助通道中的自适应算法完成对语音信号的单通道语音增强，基于所述单通道语音增强所得语音信号完成对智能办公设备的语音控制。

8、优选的，所述基于每个阵元采集的语音信号中每帧语音信号在时频域上受到噪声的影响情况确定每帧语音信号的声纹模糊均衡系数的方法为：

9、将每个阵元采集的语音信号的mel谱图上所有点的能量值作为输入，采用fcm算法将所述所有点的能量值划分到预设数量个聚类簇中；

10、对每个阵元采集的语音信号进行分帧处理，将每帧语音信号上所有点的能量值与每个聚类中心之间隶属度的分布方差在所有聚类中心上累加结果作为第一累加值；

11、将每帧语音信号上每个点的能量值与所有聚类中心之间隶属度的分布方差在每帧语音信号上所有点上的累加结果作为第二累计值，将第一累加值与第二累计值的和作为每帧语音信号的谱图覆盖模糊评估因子；

12、基于每个阵元采集的语音信号中每帧语音信号包络的波动特征确定每帧语音信号的包络受噪随机影响系数；

13、计算以自然常数为底数，以每帧语音信号的包络受噪随机影响系数为指数的计算结果，将所述计算结果与每帧语音信号的谱图覆盖模糊评估因子的乘积作为每帧语音信号的声纹模糊均衡系数。

14、优选的，所述基于每个阵元采集的语音信号中每帧语音信号包络的波动特征确定每帧语音信号的包络受噪随机影响系数的方法为：

15、利用每帧语音信号的频谱图确定每帧语音信号的包络，计算每帧语音信号的包络上所有峰值点组成集合的四分位数，在每帧语音信号的频谱图中过每个四分位数作一条水平线，将每条水平线与每帧语音信号包络的任意两个相邻交点的横坐标之间差值的绝对值作为一个波动范围；

16、将每帧语音信号频谱图上每条水平线对应的所有波动范围组成的序列作为每帧语音信号上每条水平线的波动区间统计序列；

17、将每个阵元采集的语音信号分帧结果中每帧语音信号与其余帧语音信号在同一条水平线的波动区间统计序列之间的相似性度量结果在所述分帧结果中所有帧的所有水平线上的二次累加结果作为第一度量值；

18、计算每个阵元采集的语音信号分帧结果中所有帧语音信号包络的动态范围组成序列的赫斯特指数与0.5之间差值的绝对值，将所述绝对值与第一度量值的乘积作为分子；

19、将每帧语音信号包络的动态范围与所有帧语音信号包络的动态范围的均值之间差值的绝对值与0.01的和作为分母；

20、将分子与分母的比值作为每帧语音信号的包络受噪随机影响系数。

21、优选的，所述基于工作人员发出语音指令时的情绪特征对韵律特征的影响程度以及每帧语音信号的声纹模糊均衡系数确定每帧语音信号的控制发音行为约束因子的方法为：

22、将每帧语音信号中所有时刻的短时平均能量按照时间顺序组成的序列作为每帧语音信号的短时能量序列；

23、计算每帧语音信号与每帧语音信号所在周期内其余所有帧语音信号的短时能量序列之间dtw距离的第一四分位数，将每帧语音信号所在周期内每个dtw距离小于所述第一四分位数的帧作为每帧语音信号的发声动作相似帧；

24、基于每个阵元采集的语音信号的基频将每个阵元采集的语音信号划分成预设数量个周期，将每帧语音信号与每帧语音信号所在周期内语音信号的第二共振峰之间差值的绝对值与所述周期内语音信号中所有时刻的短时平均能量的均值的乘积作为第一差异值，将每帧语音信号所在周期内所有帧语音信号的谱图覆盖模糊评估因子组成集合的变异系数与第一差异值的乘积与0.01的和作为分母；

25、将每帧语音信号所在周期内每帧语音信号的发声动作相似帧的数量与分母的比值作为每帧语音信号所在周期的指令周期情绪平稳度；

26、基于每帧语音信号与每帧语音信号的发声动作相似帧之间第二共振峰、声纹模糊均衡系数之间的差异确定每帧语音信号的指令发音情绪突显系数；

27、将每帧语音信号所在周期的指令周期情绪平稳度与0.01的和作为分母；将以自然常数为底数，以每帧语音信号的包络受噪随机影响系数的相反数为指数的计算结果与分母的比值作为第一组成因子；

28、统计每帧语音信号与每帧语音信号的所有发声动作相似帧之间的时间间隔之和，将每帧语音信号的指令发音情绪突显系数与所述时间间隔之和的比值作为第二组成因子；

29、每帧语音信号的控制发音行为约束因子由第一组成因子、第二组成因子两部分组成，其中，所述控制发音行为约束因子分别与第一组成因子、第二组成因子成正比关系。

30、优选的，所述基于每帧语音信号与每帧语音信号的发声动作相似帧之间第二共振峰、声纹模糊均衡系数之间的差异确定每帧语音信号的指令发音情绪突显系数的方法为：

31、将每帧语音信号与每帧语音信号的任意一个发声动作相似帧之间第二共振峰的差值作为第一差值；

32、计算每帧语音信号与每帧语音信号的任意一个发声动作相似帧声纹模糊均衡系数的均值，计算每帧语音信号与每帧语音信号的任意一个发声动作相似帧声纹模糊均衡系数之间差值的绝对值，将所述均值与所述绝对值的乘积作为第二差异值；

33、将第一差值与第二差异值之和在每帧语音信号的所有发声动作相似帧上的累加结果作为每帧语音信号的指令发音情绪突显系数。

34、优选的，所述基于智能办公场景下声波反射现象对每帧语音信号进行滤波时稳态情况的影响以及每帧语音信号的控制发音行为约束因子确定每帧语音信号的反射减迟特征契合度的方法为：

35、基于每个阵元采集的语音信号的基频对每个阵元采集的语音信号进行周期划分；

36、基于每个周期内对应能量曲线上每个点的能量相关曲线对整体能量衰减特征的分析结果确定每帧语音信号的单帧曲线减迟显著度；

37、将每帧语音信号与其左右相邻两帧语音信号的单帧曲线减迟显著度之间的差值绝对值中的最小值作为第一特征值，将以自然常数为底数，以第一特征值的相反数为指数的计算结果作为分子；

38、将内置麦克风阵列中所有阵元采集语音信号中同一次序帧语音信号的单帧曲线减迟显著度的分布方差与0.01的和作为分母；

39、将分子与分母的比值作为每帧语音信号的反射因素长时稳定值；

40、确定以自然常数为底数，以每帧语音信号的控制发音行为约束因子与声纹模糊均衡系数的比值为幂的对数函数的计算结果，将所述计算结果与每帧语音信号的反射因素长时稳定值的乘积作为每帧语音信号的反射减迟特征契合度。

41、优选的，所述基于每个周期内对应能量曲线上每个点的能量相关曲线对整体能量衰减特征的分析结果确定每帧语音信号的单帧曲线减迟显著度的方法为：

42、获取每个周期内语音信号上每个时刻的短时平均能量，将每个周期内所有时刻的时刻值以及短时平均能量作为输入，采用最小二乘拟合算法获取每个周期内语音信号的能量曲线；

43、计算每个周期内语音信号的频谱图中任意两个相邻共振峰之间的时间间隔，将所有所述时间间隔的最大值作为每个周期的最大时延长度；

44、分别以每个周期内语音信号的能量曲线中每个点为起始点，沿着所述能量曲线取点直至数量达到所述周期的最大时延长度，将所得曲线线段分别作为每个点的能量相关曲线；

45、将每帧语音信号上任意两个相邻点的能量相关曲线上所有相同次序下能量值之间差值的分布方差与0.01的和作为分母；

46、将每帧语音信号上任意两个相邻点的能量相关曲线之间的相似度度量结果与分母的比值在每帧语音信号上所有点上的累加结果作为每帧语音信号的单帧曲线减迟显著度。

47、优选的，所述基于每帧语音信号的反射减迟特征契合度确定nlsm算法中每帧语音信号的自适应步长因子的方法为：

48、将每帧语音信号的反射减迟特征契合度与nlsm算法中预设步长因子的乘积作为每帧语音信号的自适应步长因子。

49、优选的，所述将改进后的nlsm算法作为gsc算法的辅助通道中的自适应算法完成对语音信号的单通道语音增强的方法为：

50、将所有阵元采集的语音信号作为输入，将自适应步长因子的nlms算法作为gsc算法的辅助通道中的自适应算法，得到gsc算法处理后的语音信号；

51、将所述处理后的语音信号输入至智能办公语音控制系统中的维纳滤波器，将维纳滤波器的输出信号作为智能办公语音控制系统的实际接收信号。

52、第二方面，本技术实施例还提供了基于声音识别的智能办公语音控制系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

53、本技术的有益效果是：本技术通过分析噪声对语音信号时频域上的影响确定每一帧的声纹模糊均衡系数；其次基于工作人员发出语音指令时的说话人行为特征对语音信号的影响分析确定每一帧语音信号的控制发音行为约束因子，控制发音行为约束因子利用工作人员发出语音指令时的情绪特征区分说话人行为与噪声对语音信号的动态干扰；其次通过分析通过语音指令控制智能办公设备进行相关操作时，语音信号在办公环境下受到的反射影响构建了反射减迟特征契合度，反射减迟特征契合度通过分析相邻时刻的能量相关曲线判断每帧语音信号是否契合整体能量衰减和局部延迟相似的反射特征，并基于反射减迟特征契合度确定每帧信号的自适应步长因子，自适应步长因子考虑了智能办公时语音信号受到的反射因素，其益效果在于利用自适应步长的自适应算法调整gsc算法的辅助通道中自适应权能够在增强非相干噪声抑制效果的同时，提高残余相干噪声的抑制能力，使得语音指令的控制效果更好。