技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法和装置与流程 > 正文

音频处理方法和装置与流程

国知局
2024-06-21 11:40:57

本申请涉及音频处理，尤其涉及一种音频处理方法和装置。

背景技术：

1、在用户需要通过语音控制电子设备执行某些操作的情况下，用户需要先向电子设备输入唤醒该电子设备的唤醒词，然后电子设备才能对用户在唤醒词之后输入的音频信号进行意图识别。

2、但是，目前电子设备在利用唤醒词识别模型对语音信号进行唤醒词识别时，对于唤醒词在语音信号中的相对位置的要求较高，如，需要唤醒词处于语音信号的中间位置等，很容易出现由于唤醒词在语音信号中的位置不满足唤醒词识别模型对应的固定格式要求，而导致无法准确地识别出唤醒词，导致唤醒词识别出现延误，从而无法及时响应用于指示控制命令的音频信号。

技术实现思路

1、本申请提供了一种音频处理方法，包括：

2、获得待识别的目标音频信号；

3、基于唤醒词识别模型，确定所述目标音频信号的唤醒词识别结果，所述唤醒词识别结果包括：多个唤醒概率，所述多个唤醒概率用于表征所述目标音频信号中多个不同音频段各自存在唤醒词的唤醒概率，其中，不同唤醒概率对应不同的音频段，所述音频段属于所述目标音频信号的至少部分；

4、如果所述多个唤醒概率表明所述目标音频信号的至少一个所述音频段中存在唤醒词，确定进入唤醒状态。

5、在一种可能的实现方式中，所述多个音频段的音频长度不完全相同。

6、在又一种可能的实现方式中，所述基于唤醒词识别模型，确定所述目标音频信号的唤醒词识别结果，包括：

7、基于所述唤醒词识别模型，确定所述目标音频信号的目标音频特征，从所述目标音频特征中提取出与所述目标音频信号中多个不同音频段对应的子音频特征，基于所述音频段的子音频特征确定所述音频段中包含唤醒词的唤醒概率，得到所述多个不同音频段各自对应的唤醒概率。

8、在又一种可能的实现方式中，基于唤醒词识别模型，从所述目标音频特征中提取出与所述目标音频信号中多个不同音频段对应的子音频特征，包括：

9、基于唤醒词识别模型，按照用于提取音频段的多种不同窗口尺寸以及每种窗口尺寸的滑动步长，确定出所述目标音频信号能够提取出的多个不同音频段，从所述目标音频特征中提取出多个不同音频段各自对应的子音频特征。

10、在又一种可能的实现方式中，所述多个唤醒概率表明所述目标音频信号的至少一个所述音频段中存在唤醒词，包括如下至少一种：

11、如果所述多个唤醒概率中的最大值大于第一设定阈值，表明所述目标音频信号中至少一个音频段中存在唤醒词；

12、在所述目标音频信号中多个音频段对应多种音频长度的情况下，确定每种音频长度对应的各音频段的唤醒概率中的最大值，如果各种音频长度对应的最大值的平均值大于第二设定阈值，表明所述目标音频信号中至少一个音频段中存在唤醒词。

13、在又一种可能的实现方式中，所述唤醒词识别模型为利用多个标注有标签的音频样本训练得到的，所述音频样本的标签包括所述音频样本中多个不同音频样本段各自包含唤醒词的唤醒概率。

14、在又一种可能的实现方式中，所述音频样本中多个不同音频样本段的音频长度不完全相同；

15、且，音频样本中多个不同音频样本段为基于不同尺寸的滑动窗口以及所述滑动窗口的滑动步长，从所述音频样本中确定出的多个音频段。

16、在又一种可能的实现方式中，所述音频样本段的唤醒概率为：基于所述音频样本段与所述音频样本中基准音频段之间的重叠长度确定的，所述基准音频段为所述音频样本中包含唤醒词的最短音频段。

17、在又一种可能的实现方式中，还包括：

18、在处于唤醒状态下，对所述目标音频信号之后采集到的音频信号进行语义意图识别。

19、又一方面，本申请还提供了一种音频处理装置，包括：

20、信号获得单元，用于获得待识别的目标音频信号；

21、识别处理单元，用于基于唤醒词识别模型，确定所述目标音频信号的唤醒词识别结果，所述唤醒词识别结果包括：多个唤醒概率，所述多个唤醒概率用于表征所述目标音频信号中多个不同音频段各自存在唤醒词的唤醒概率，其中，不同唤醒概率对应不同的音频段，所述音频段属于所述目标音频信号的至少部分；

22、唤醒处理单元，用于如果所述多个唤醒概率表明所述目标音频信号的至少一个所述音频段中存在唤醒词，确定进入唤醒状态。

技术特征：

1.一种音频处理方法，包括：

2.根据权利要求1所述的音频处理方法，所述多个音频段的音频长度不完全相同。

3.根据权利要求1或2所述的音频处理方法，所述基于唤醒词识别模型，确定所述目标音频信号的唤醒词识别结果，包括：

4.根据权利要求3所述的音频处理方法，基于唤醒词识别模型，从所述目标音频特征中提取出与所述目标音频信号中多个不同音频段对应的子音频特征，包括：

5.根据权利要求1或2所述的音频处理方法，所述多个唤醒概率表明所述目标音频信号的至少一个所述音频段中存在唤醒词，包括如下至少一种：

6.根据权利要求1所述的音频处理方法，所述唤醒词识别模型为利用多个标注有标签的音频样本训练得到的，所述音频样本的标签包括所述音频样本中多个不同音频样本段各自包含唤醒词的唤醒概率。

7.根据权利要求6所述的音频处理方法，所述音频样本中多个不同音频样本段的音频长度不完全相同；

8.根据权利要求6所述的音频处理方法，所述音频样本段的唤醒概率为：基于所述音频样本段与所述音频样本中基准音频段之间的重叠长度确定的，所述基准音频段为所述音频样本中包含唤醒词的最短音频段。

9.根据权利要求1所述的音频处理方法，还包括：

10.一种音频处理装置，包括：

技术总结本申请提供了一种音频处理方法和装置，该方法包括：获得待识别的目标音频信号；基于唤醒词识别模型，确定目标音频信号的唤醒词识别结果，唤醒词识别结果包括：多个唤醒概率，多个唤醒概率用于表征目标音频信号中多个不同音频段各自存在唤醒词的唤醒概率，其中，不同唤醒概率对应不同的音频段，音频段属于目标音频信号的至少部分；如果多个唤醒概率表明目标音频信号的至少一个音频段中存在唤醒词，确定进入唤醒状态。技术研发人员：张银平,杨琳,汪俊杰受保护的技术使用者：联想（北京）有限公司技术研发日：技术公布日：2024/3/31