技术新讯 > 乐器声学设备的制造及制作,分析技术 > 电子设备及电子设备的音频数据处理方法与流程 > 正文

电子设备及电子设备的音频数据处理方法与流程

国知局
2024-06-21 11:41:28

本公开涉及音频处理，尤其涉及一种电子设备及电子设备的音频数据处理方法。

背景技术：

1、语音唤醒(keyword spotting，kws)系统持续处理音频流来检测关键词。然而，音频流中大部分音频包含非关键词语音或非语音(又称为“噪声”)，因此在大部分时间里，kws系统处理的是包含非关键词语音或非语音(也称为噪声)的音频，使得kws系统容易误报。在家具环境中，当用户在观看电视(电器)或者进行语音交互时，若kws系统误报，则可能导致电视被误唤醒，这样会影响用户的使用体验。

2、现有技术中，可以将训练的数据分成两个类别：包含关键词的标签(正样本)和不包含关键词的标签(负样本)，之后加入尽量多的负样本来降低语音唤醒模块(kws系统)的误唤醒的概率，但是因为训练的数据量远小于真实环境的数据量，因此导致对语音唤醒模块误唤醒的改善效果有限；还可以采用分时间段唤醒开关来控制误唤醒的比率；比如，对于晚上或者休息时间关掉语音唤醒模块。但这样无法实现全天候实时的检测环境是否会有唤醒词，从而影响用户使用语音唤醒模块的体验。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种电子设备及电子设备的音频数据处理方法，能够通过比对前后段缓存的音频数据，根据比对结果对前后段音频数据进行调整，并得到目标音频数据；如此，目标音频数据中前后段音频数据过渡平滑，能够提升用户的观影体验。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种电子设备，包括：

4、通信器，被配置为接收用户输入的待识别音频信号；

5、控制器，与所述通信器耦接，且被配置为：

6、基于目标语音处理模型中的目标语音识别子模型对所述待识别音频信号进行处理，得到目标语音信号；

7、基于所述目标语音处理模型中的目标关键词获取子模型对所述目标语音信号进行处理，得到关键词语音信号；

8、基于所述目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对所述关键词语音进行分类处理，得到目标关键词。

9、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

10、基于所述目标语音识别子模型，对所述待识别音频信号中的音频帧进行识别，并将所述待识别音频信号中包含语音的音频帧确定为所述目标语音信号。

11、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

12、基于所述目标关键词获取子模型，对所述目标语音信号中的音频帧进行识别，并将所述语音信号中包含关键词语音的音频帧确定为所述关键词语音信号。

13、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

14、基于所述目标关键词分类子模型，对所述关键词语音与所述关键词集中各关键词进行匹配处理，并将所述关键词集中与所述关键词语音匹配度最高的所述关键词确定为所述目标关键词。

15、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

16、获取样本音频信号和样本输出数据；所述样本音频输出数据包括样本语音信号、样本关键词语音信号和样本关键词；

17、基于所述初始语音处理模型对所述样本音频信号进行处理，得到预测输出数据；所述预测输出数据包括预测语音信号、预测关键词语音信号和预测关键词；

18、以所述预测输出数据作为所述初始语音处理模型的初始训练输出，所述样本输出数据作为监督信息，迭代训练所述初始语音处理模型得到所述目标语音处理模型。

19、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，还被配置为：

20、基于所述初始语音处理模型中的初始语音识别子模型，对所述样本音频信号进行处理，得到所述预测语音信号；

21、基于所述初始语音处理模型中的初始关键词获取子模型，对所述预测语音信号进行处理，得到所述预测关键词语音信号；

22、基于所述初始语音处理模型中的初始关键词分类子模型，对所述预测关键词语音信号进行处理，得到所述预测关键词。

23、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

24、基于第一损失函数，以及所述预测语音信号和所述样本语音信号，确定第一损失值；

25、基于第二损失函数，以及所述预测关键词语音信号和所述样本关键词语音信号，确定第二损失值；

26、基于第三损失函数，以及所述预测关键词和所述样本关键词，确定第三损失函数；

27、根据所述第一损失值、所述第二损失值和所述第三损失值，迭代更新所述初始语音处理模型，得到所述目标语音处理模型。

28、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

29、对初始音频信号进行特征提取，得到所述初始音频信号对应的初始音频特征；

30、对所述音频特征进行卷积处理，得到所述样本音频信号。

31、第二方面，本公开提供一种电子设备的音频数据处理方法，其特征在于，包括：

32、接收用户输入的待识别音频信号；

33、基于目标语音处理模型中的目标语音识别子模型对所述待识别音频信号进行处理，得到目标语音信号；

34、基于所述目标语音处理模型中的目标关键词获取子模型对所述语音信号进行处理，得到关键词语音信号；

35、基于所述目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对所述关键词语音进行分类处理，得到目标关键词。

36、结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述方法还包括：

37、获取样本音频信号和样本输出数据；所述样本音频输出数据包括样本语音信号、样本关键词语音信号和样本关键词；

38、基于所述初始语音处理模型对所述样本音频信号进行处理，得到预测输出数据；所述预测输出数据包括预测语音信号、预测关键词语音信号和预测关键词；

39、以所述预测输出数据作为所述初始语音处理模型的初始训练输出，所述样本输出数据作为监督信息，迭代训练所述初始语音处理模型得到所述目标语音处理模型。

40、第三方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第二方面提供的方法步骤。

41、第四方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面提供的任一项的方法步骤。

42、本技术实施例提供一种电子设备及电子设备的音频数据处理方法，电子设备的音频数据处理方法包括：接收用户输入的待识别音频信号；之后，基于目标语音处理模型中的目标语音识别子模型对所述待识别音频信号进行处理，得到目标语音信号；再之后，基于所述目标语音处理模型中的目标关键词获取子模型对所述语音信号进行处理，得到关键词语音信号；最后，基于所述目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对所述关键词语音进行分类处理，得到目标关键词；如此，通过目标语音处理模型对待识别音频信号进行多级判别，即从是否是语音，是否含有关键词语音和含有哪个关键词三个分支进行音频处理，以获取目标关键词；这样能够提高关键词的识别精度，降低语音唤醒模块的误唤醒概率，保证用户使用语音唤醒模块的体验。