技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于自然语言处理的智能机器人语音交互方法与流程 > 正文

一种基于自然语言处理的智能机器人语音交互方法与流程

国知局
2024-06-21 11:50:54

本发明涉及语音处理，具体涉及一种基于自然语言处理的智能机器人语音交互方法。

背景技术：

1、在建筑施工过程中可利用语音指令控制智能机器人辅助施工，故语音交互能力对于智能机器人在施工现场的应用非常重要。语音交互能力很大程度上取决于自然语言处理过程中对语音指令的精准识别，但在语音交互过程中，施工环境中往往存在较多噪声影响语音交互效果，因此对混合交互语音去噪，以获取精准语音交互指令至关重要。

2、现有技术中采用谱减法对混合交互语音进行去噪，以降低环境噪声对人员语音指令的影响；利用谱减法对混合交互语音去噪通常是对非交互过程中的一段环境噪声做平均处理进行噪声估计，进而滤除环境噪声；但语音交互数据中人员语音指令随着时间的推移通常会呈现出阶段性的短时谱特征，而噪声也存在一定的短时随机性，噪声对不同声帧的影响程度可能不同，利用单一的噪声估计往往可能导致在不同声帧中无法准确估计或抑制噪声，从而出现噪声残留，影响语音指令的识别与交互效果。

技术实现思路

1、为了解决现有频谱法无法准确估计或抑制噪声导致去噪效果不佳进而导致语音交互效果差的技术问题，本发明的目的在于提供一种基于自然语言处理的智能机器人语音交互方法，所采用的技术方案具体如下：

2、获取语音交互数据的所有交互声帧并获取所有待处理声帧序列；获取与交互声帧的帧长一致的纯噪声帧；

3、获取每个待处理声帧序列中每个交互声帧的所有语谱频率分块，根据每个交互声帧中语谱频率分块的频率关联情况筛选出所述语谱频率分块中的所有疑似含噪分块；在每个待处理声帧序列中，根据所述疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的所述语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个所述疑似含噪分块的噪声影响度；

4、根据所述噪声影响度在每个待处理声帧序列中筛选出所有含噪分块；在每个待处理声帧序列中，根据每个所述含噪分块的所述噪声影响度及所述含噪分块所属交互声帧的相对受噪水平，结合所述含噪分块所属交互声帧与其他交互声帧间，相同频率范围的所述含噪分块间的灰度信息，得到每个所述含噪分块的噪声增益值；

5、在每个待处理声帧序列中，根据所述纯噪声帧及每个交互声帧的灰度信息，结合交互声帧中含噪分块的所述噪声增益值，获取每个交互声帧的参考噪声帧；根据所述参考噪声帧对对应待处理声帧序列降噪；

6、根据降噪结果进行语音交互。

7、进一步地，所述疑似含噪分块的获取方法包括：

8、在每个待处理声帧序列的每个所述交互声帧中，根据每个所述语谱频率分块与其他所述语谱频率分块的灰度分布相似情况，获取每个所述语谱频率分块的频率关联度；将所述频率关联度小于预设关联度阈值的所有所述语谱频率分块，作为疑似含噪分块。

9、进一步地，所述频率关联度的获取方法包括：

10、获取每个待处理声帧序列中每个所述交互声帧的每个所述语谱频率分块的灰度均值；在每个待处理声帧序列的每个所述交互声帧中，根据每个所述语谱频率分块对应频率范围的最高频率将所有所述语谱频率分块进行降序或者升序排序，得到每个所述语谱频率分块的排序序号，以任一所述语谱频率分块为目标分块；

11、在所有排序序号小于所述目标分块的所述语谱频率分块的灰度均值与所述目标分块的灰度均值的灰度差异中，将最大灰度差异作为第一灰度差异；在所有排序序号大于所述目标分块的所述语谱频率分块的灰度均值与所述目标分块的灰度均值的灰度差异中，将最大灰度差异作为第二灰度差异；将所述第一灰度差异与所述第二灰度差异的差值绝对值负相关映射并归一化，得到所述目标分块的频率关联度；

12、其中，当所述目标分块在所述交互声帧的所有所述语谱频率分块中排序序号最低时，将所述第二灰度差异负相关映射并归一化作为所述目标分块的频率关联度；当所述目标分块在所述交互声帧的所有所述语谱频率分块中排序序号最高时，将所述第一灰度差异负相关映射并归一化作为所述目标分块的频率关联度。

13、进一步地，所述噪声影响度的计算公式包括：

14、；其中，为待处理声帧序列中第个交互声帧中第个疑似含噪分块的噪声影响度；为待处理声帧序列中第个交互声帧的预设邻域内交互声帧的总帧数；为待处理声帧序列中第个交互声帧的预设邻域内，除第个交互声帧外的第个交互声帧的声帧序号；为待处理声帧序列中第个交互声帧中第个疑似含噪分块的语谱频率分块；为第个交互声帧中与第个交互声帧的第个疑似含噪分块的频率范围相同的语谱频率分块；为取二维信息熵函数；为待处理声帧序列中第个交互声帧中第个疑似含噪分块的频率关联度；为第个交互声帧中与第个交互声帧的第个疑似含噪分块的频率范围相同的语谱频率分块的频率关联度；为待处理声帧序列中第个交互声帧与第个交互声帧之间的帧间时长；为预设第一正常数。

15、进一步地，所述噪声增益值的计算公式包括：

16、；其中，为待处理声帧序列中第个交互声帧中第个含噪分块的噪声增益值；为标准归一化函数；为第个交互声帧中第个含噪分块内的像素点总数量；为待处理声帧序列中第个交互声帧相对其他交互声帧的相对受噪水平系数；为待处理声帧序列中第个交互声帧中第个含噪分块的噪声影响度；为待处理声帧序列中第个交互声帧的第个含噪分块中第个像素点的灰度值；为待处理声帧序列中与第个交互声帧的第个含噪分块的频率范围相同的所有含噪分块中，第个像素点的灰度值的灰度均值；为预设第二正常数。

17、进一步地，所述相对受噪水平系数的获取方法包括：

18、在每个待处理声帧序列中，获取每个所述交互声帧中所述含噪分块的数量，将每个所述交互声帧中所述含噪分块的数量除以对应待处理声帧序列中所有所述交互声帧中所述含噪分块的数量的所有数量中的最大值进行归一化，得到每个所述交互声帧相对其他交互声帧的相对受噪水平系数。

19、进一步地，所述参考噪声帧的获取方法包括：

20、将所述纯噪声帧作为每个待处理声帧序列中每个所述交互声帧的初始参考噪声帧，获取所述纯噪声帧的所有噪声语谱频率分块；

21、在每个待处理声帧序列的每个所述交互声帧的初始参考噪声帧中，将与对应所述交互声帧中的所述含噪分块的频率范围相同的所述噪声语谱频率分块作为待调整分块；在每个所述待调整分块中，根据所述待调整分块及对应所述含噪分块的相同位置像素点的灰度信息，结合所述含噪分块的所述噪声增益值，对所述待调整分块内每个像素点的灰度值进行调整，获取所述待调整分块内每个像素点的调整灰度值；

22、将每个所述初始参考噪声帧的所述待调整分块中像素点的灰度值调整为调整灰度值，得到每个待处理声帧序列中每个所述交互声帧的参考噪声帧。

23、进一步地，所述调整灰度值的计算公式包括：

24、；其中，为待处理声帧序列中第个交互声帧的初始参考噪声帧中第个待调整分块的第个像素点的调整灰度值；为待处理声帧序列中第个交互声帧的初始参考噪声帧中第个待调整分块的第个像素点的灰度值；为待处理声帧序列中与第个交互声帧的初始参考噪声帧中第个待调整分块的频率范围相同的含噪分块的总数量；为待处理声帧序列中第个交互声帧中第个含噪分块的噪声增益值；为待处理声帧序列中与第个交互声帧的初始参考噪声帧中第个待调整分块的频率范围相同的所有含噪分块中的第个含噪分块中第个像素点的灰度值。

25、进一步地，对所述待处理声帧序列降噪的降噪方法包括：

26、将每个待处理声帧序列中每个所述交互声帧与对应所述参考噪声帧利用谱减法进行降噪。

27、进一步地，所述待处理声帧序列的获取方法包括：

28、在每次与智能机器人的语音交互过程中，将语音交互数据中的首帧交互声帧作为起点，沿交互时序方向获取预设数量帧的交互声帧作为第一个待处理声帧序列，以第一个待处理声帧序列中尾帧的相邻下一帧交互声帧为新的起点，获取第二个待处理声帧序列，直至获取所有待处理声帧序列，每个所述待处理声帧序列的序列长度相同，其中当最后一个待处理声帧序列不足预设数量帧时，在最后一个待处理声帧序列的尾帧后补入空帧直至达到预设数量帧。

29、本发明具有如下有益效果：

30、本发明首先获取所有交互声帧及所有待处理声帧序列，并获取纯噪声帧用于后续调整并降噪；然后在获取的每个交互声帧的所有语谱频率分块中，根据语谱频率分块的频率关联情况筛选出所有疑似含噪分块，频率关联情况反映了每个语谱频率分块相对其他不同频率范围的语谱频率分块的共振峰过渡变化情况，根据共振峰变化情况可以判断出可能存在噪声的语谱频率分块；然后在每个待处理声帧序列中，根据疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个疑似含噪分块的噪声影响度，进而筛选出所有含噪分块，噪声影响度反映了噪声对短时帧的局部频率范围的干扰，影响程度越大，后续降噪对纯噪声帧的调整越大，频率关联情况差异及帧间时序差异在一定程度上调整了语谱差异的影响权重以更综合准确地获取噪声影响度；然后在待处理声帧序列中，根据每个含噪分块的噪声影响度及含噪分块所属交互声帧的相对受噪水平，结合含噪分块所属交互声帧与其他交互声帧间，相同频率范围的含噪分块间的灰度信息，得到每个含噪分块的噪声增益值，噪声增益值考虑了噪声的短时随机性及整体稳定性特征，及交互声帧的整体受噪影响，准确获取了噪声调整权重，然后结合纯噪声帧及每个交互声帧的灰度信息，获取每个交互声帧的参考噪声帧，参考噪声帧是基于噪声影响度对纯噪声帧调整后的结果，根据参考噪声帧可以更准确的对对应待处理声帧序列降噪，进而进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性，分析噪声对不同声帧的不同频率范围的噪声影响度，进而对用于对比谱减的纯噪声进行精准调整以提高降噪效果，从而提高进行语音交互效果。