技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音数据处理方法、装置、设备及介质与流程 > 正文

语音数据处理方法、装置、设备及介质与流程

国知局
2024-06-21 11:27:17

本技术涉及计算机，具体涉及一种语音数据处理方法、装置、设备及介质。

背景技术：

1、语音唤醒（wake-up-word detection）作为语音关键词检出任务中的一项重要应用场景，其是指通过用户说出预设的唤醒词来激活语音交互设备（诸如智能机器人、智能手环、车载设备等）以便于进行后续的语音交互流程。

2、一般情况下，由于设备需要随时能够被唤醒，因此语音唤醒系统需要一直处于工作状态，这会大量消耗语音唤醒系统的设备功耗。另外，对于多数语音唤醒算法而言，较好的唤醒准确率意味着更为复杂的模型和更大的参数量，也意味着功耗会较高，在设备上长时间开启会导致设备续航明显降低，影响用户使用，而功耗较低的小模型则准确率会受到限制。

技术实现思路

1、本技术实施例提出了一种语音数据处理方法、装置、设备及介质，能够基于一级唤醒模型实现唤醒词检测处理，并基于二级唤醒模型实现二次校验处理，能够提高唤醒识别的准确性。

2、一方面，本技术实施例提供了一种语音数据处理方法，该方法包括：

3、从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据；

4、通过一级唤醒模型，对语音唤醒数据进行唤醒词检测处理；

5、在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下，通过二级唤醒模型对目标数据进行识别处理，目标数据为语音数据流中包含语音唤醒数据的部分；

6、在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下，确定对第一对象唤醒成功，以控制第一对象进入工作状态。

7、一方面，本技术实施例提供了一种语音数据处理装置，该装置包括：

8、获取单元，用于从针对第一对象的语音数据流中获取目标帧长的语音唤醒数据；

9、处理单元，用于通过一级唤醒模型，对语音唤醒数据进行唤醒词检测处理；

10、处理单元，还用于在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下，通过二级唤醒模型对目标数据进行识别处理，目标数据为语音数据流中包含语音唤醒数据的部分；

11、处理单元，还用于在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下，确定对第一对象唤醒成功，以控制第一对象进入工作状态。

12、在一种可能的实现方式中，第一对象中部署有语音队列，语音队列用于存储实时语音数据流；在通过二级唤醒模型对目标数据进行识别处理之前，处理单元还用于执行以下操作：

13、根据语音唤醒数据、且按照先入先出的方式更新语音队列，语音队列中存储有目标数据；其中，语音队列的长度大于语音唤醒数据的长度。

14、在一种可能的实现方式中，一级唤醒模型中配置有语音活动检测模块；从针对第一对象的语音唤醒数据中获取目标帧长的语音唤醒数据之后，处理单元还用于执行以下操作：

15、通过语音活动检测模块，对语音唤醒数据进行语音活动检测处理，语音活动检测处理用于检测语音唤醒数据中是否包含活性语音信号；

16、若语音唤醒数据中不包含活性语音信号，则确定对第一对象唤醒失败，并控制第一对象的状态维持在休眠状态下。

17、在一种可能的实现方式中，一级唤醒模型中还配置有第一识别模块；处理单元通过一级唤醒模型，对语音唤醒数据进行唤醒词检测处理，用于执行以下操作：

18、对语音唤醒数据进行频域特征提取处理，得到语音唤醒数据的频域语音特征；其中，频域语音特征包括：梅尔倒谱系数、线性预测系数、线性预测倒谱系数、离散小波变换特征中的任一种或多种特征；

19、通过第一识别模块对频域语音特征进行一级识别处理，得到语音唤醒数据唤醒第一对象的第一概率。

20、在一种可能的实现方式中，一级唤醒模型中还配置有降噪模块；对语音唤醒数据进行频域特征提取处理，得到语音唤醒数据的频域语音特征之后，处理单元还用于执行以下操作：

21、对语音唤醒数据的频域语音特征进行分析处理，以从频域语音特征中确定出语音唤醒数据的噪声谱特征；

22、通过降噪模块，对语音唤醒数据的噪声谱特征进行降噪处理，得到降噪后的频域语音特征。

23、在一种可能的实现方式中，第一识别模块为时延神经网络模块，时延神经网络模块包括n个时延层及一个分类层，任一个时延层包括：一维因果空洞卷积层、批归一化层以及激活函数层，n为正整数；处理单元通过第一识别模块对频域语音特征进行一级识别处理，得到语音唤醒数据唤醒第一对象的第一概率，用于执行以下操作：

24、通过一维因果空洞卷积层，对降噪后的频域语音特征进行因果卷积处理，得到卷积语音特征；

25、采用批归一化层对卷积语音特征进行归一化处理，得到归一化语音特征，并采用激活函数层对归一化语音特征进行激活处理，得到处理后的语音特征；

26、基于分类层对将处理后的语音特征进行分类识别，得到语音唤醒数据唤醒第一对象的第一概率。

27、在一种可能的实现方式中，处理单元还用于执行以下操作：

28、按照预设方式运行第一对象，预设方式用于指示：在第一对象的预设功耗状态下运行一级唤醒模型及二级唤醒模型；

29、其中，预设方式包括以下任一种：

30、按照第一预设频率所指示的第一运行状态运行所述一级唤醒模型，以及，按照第二预设频率所指示的第二运行状态运行二级唤醒模型；第二预设频率高于第一预设频率；

31、在第一对象的指定类型芯片中运行一级唤醒模型，并在第一对象的核心芯片中运行二级唤醒模型；其中，在二级唤醒模型对语音唤醒数据识别完成后，将核心芯片设置为关闭状态。

32、在一种可能的实现方式中，二级唤醒模型中配置有特征提取模块及第二识别模块；处理单元通过二级唤醒模型对目标数据进行识别处理，用于执行以下操作：

33、通过特征提取模块，对目标数据进行特征提取处理，得到目标数据的高维隐层特征；

34、通过第二识别模块，对目标数据的高维隐层特征进行二级识别处理，得到目标数据唤醒第一对象的第二概率。

35、在一种可能的实现方式中，特征提取模块包括第一特征提取子模块及第二特征提取子模块；处理单元通过特征提取模块，对目标数据进行特征提取处理，得到目标数据的高维隐层特征，用于执行以下操作：

36、通过第一特征提取子模块，对目标数据进行特征提取处理，得到目标数据的第一语音特征；以及，

37、通过第二特征提取子模块，对目标数据进行特征提取处理，得到目标数据的第二语音特征；

38、对第一语音特征及第二语音特征进行特征融合处理，得到目标数据的高维隐层特征；其中，特征融合处理包括：平均运算处理、特征加权处理、特征拼接处理中的任一种或多种。

39、在一种可能的实现方式中，第二识别模块为深层前馈序列记忆神经网络，深层前馈序列记忆神经网络包括：序列记忆层、线性映射层、以及隐藏层；处理单元通过第二识别模块，对目标数据的高维隐层特征进行二级识别处理，得到目标数据唤醒第一对象的第二概率，用于执行以下操作：

40、采用序列记忆层，对目标数据的高维隐层特征进行识别分析，得到目标数据的语音记忆特征；

41、通过线性映射层，对目标数据的语音记忆特征进行矩阵映射处理，得到映射结果；

42、基于隐藏层对映射结果进行二级识别处理，得到目标数据唤醒第一对象的第二概率。

43、在一种可能的实现方式中，处理单元控制第一对象的状态由休眠状态切换至工作状态之后，还用于执行以下操作：

44、接收第二对象针对工作状态下的第一对象发出的任务指令；

45、对任务指令进行识别分析，得到任务分析结果，任务分析结果用于指示任务指令所指示的目标任务；

46、执行任务分析结果所指示的目标任务，并输出与目标任务相匹配的关联内容。

47、一方面，本技术实施例提供了一种计算机设备，该计算机设备包括处理器、输入设备、输出设备和存储器；该存储器中存储有计算机程序；该计算机程序被处理器执行时，执行上述语音数据处理方法。

48、一方面，本技术实施例提供了一种计算机可读存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行时，执行上述语音数据处理方法。

49、一方面，本技术实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序被处理器执行时，执行上述语音数据处理方法。

50、本技术实施例中，可以从针对第一对象的语音唤醒数据中获取音频帧，并通过一级唤醒模型对该音频帧进行唤醒词检测处理；在唤醒词检测处理的结果指示语音唤醒数据唤醒第一对象的第一概率高于第一预设阈值的情况下，通过二级唤醒模型对语音唤醒数据中包含上述音频帧的目标数据进行识别处理；在识别处理的结果指示语音唤醒数据唤醒第一对象的第二概率高于第二预设阈值的情况下，即可确定对第一对象唤醒成功，以控制第一对象进入工作状态。由此可见，本技术在接收到一段实时的语音数据流后，首先可以获取语音唤醒数据，并按照一级唤醒模型对该语音唤醒数据进行唤醒词检测处理；进一步地，在通过一级唤醒模型的唤醒词检测处理后语音唤醒数据能够被二级唤醒模型进行再次识别处理，由于语音唤醒数据先后经过两个不同唤醒模型的识别处理，这种方式能够提高针对当前语音唤醒数据的语音识别的准确性。