技术新讯 > 乐器声学设备的制造及制作,分析技术 > 服务器、语音唤醒方法及介质与流程 > 正文

服务器、语音唤醒方法及介质与流程

国知局
2024-06-21 11:41:47

本公开涉及语音识别，尤其涉及一种服务器、语音唤醒方法及介质。

背景技术：

1、目前，用户通过终端设备进行语音交互已经非常普遍，主要是利用语音助手实现用户与终端设备之间的语音交互，具体的，用户与终端设备之间进行语音交互过程中，能够根据唤醒词唤醒终端设备的语音助手，即唤醒终端设备，在确定唤醒终端设备之后，实现用户与终端设备之间的语音交互功能。

2、现有技术中，对于根据唤醒词唤醒终端设备是基于语音音频片段分类的方法实现的，即通过该方法检测用户的语音片段中是否存在唤醒词，依次确定是否进行语音唤醒。

3、然而，采用现有技术，存在唤醒词在未完全出现时，执行唤醒任务，导致误唤醒的问题，影响用户体验。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种服务器、语音唤醒方法及介质，能够通过训练好的唤醒词概率预测模型来预测待检测语音流中各个关键词如唤醒词、非唤醒词以及中间词分别对应的概率值，确定概率值大于预设概率值的关键词为唤醒词，由于唤醒词概率预测模型是根据样本训练集训练得到的，该样本训练集中包括包含唤醒词的训练语音、包含非唤醒词的训练语音、包含中间词的训练语音、唤醒词对应的第一标签、非唤醒词对应的第二标签及中间词对应的第三标签；其中，对于中间词是根据唤醒词确定的，即，利用包含中间词的训练语音以及中间词对应的第三标签增强样本训练集，以此提高唤醒词概率预测模型预测唤醒词的准确性，避免现有技术中唤醒词在未完全出现时，执行唤醒任务，导致误唤醒的问题，提升了用户的体验。

2、第一方面，本公开提供了一种服务器，该服务器包括：控制器，被配置为：

3、获取待检测语音流，所述待检测语音流是根据多个关键词组成的，所述关键词包括唤醒词、非唤醒词以及中间词中的一种或多种；

4、将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，所述唤醒词概率预测模型是基于样本训练集训练得到的，所述样本训练集包括：多个训练语音及所述训练语音对应的标签，所述训练语音包括：包含所述唤醒词的所述训练语音、包含所述非唤醒词的所述训练语音及包含所述中间词的所述训练语音，所述中间词是根据所述唤醒词确定的，所述标签包括：所述唤醒词对应的第一标签、所述非唤醒词对应的第二标签及所述中间词对应的第三标签；

5、当存在所述概率值大于预设概率值时，确定在所述待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使所述终端设备进行语音唤醒。

6、作为本公开实施例一种可选的实施方式，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；

7、所述控制器，具体被配置为：

8、将所述待检测语音流输入至所述语音特征提取模块中，获取所述待检测语音流对应的语音特征矩阵；

9、将所述语音特征矩阵输入至所述概率预测模块中，获取所述待检测语音流中各个关键词的概率值。

10、作为本公开实施例一种可选的实施方式，所述控制器，具体还被配置为：

11、将所述待检测语音流进行分帧处理，得到所述待检测语音流对应的多个具有相同预设长度的待检测语音片段；

12、将多个所述待检测语音片段依次输入至所述语音特征提取模块中，确定所述待检测语音流对应的语音特征矩阵。

13、作为本公开实施例一种可选的实施方式，所述控制器，还被配置为：

14、根据初始样本训练集，构建所述样本训练集，其中，所述初始样本训练集包括：多个初始训练语音及所述初始训练语音对应的初始标签，所述初始训练语音包括：包含唤醒词的所述初始训练语音及包含非唤醒词的所述初始训练语音，所述初始标签包括：所述唤醒词对应的第一初始标签以及所述非唤醒词对应的第二初始标签；

15、将所述样本训练集输入至所述唤醒词概率预测模型中，利用所述训练语音对应的标签对所述唤醒词概率预测模型进行监督训练，根据预设多分类损失函数，调整所述唤醒词概率预测模型的权值参数，直至所述唤醒词概率预测模型收敛。

16、作为本公开实施例一种可选的实施方式，所述控制器，具体被配置为：

17、根据所述初始样本训练集，确定包含所述中间词的所述训练语音及所述中间词对应的所述第三标签；

18、基于所述初始样本训练集、包含所述中间词的所述训练语音及所述中间词对应的所述第三标签，构建所述样本训练集。

19、作为本公开实施例一种可选的实施方式，所述控制器，具体还被配置为：

20、在所述初始样本训练集中包括的多个所述初始训练语音中，确定包含所述唤醒词的所述初始训练语音；

21、根据包含所述唤醒词的所述初始训练语音，确定多个所述唤醒词；

22、根据各个所述唤醒词，确定对应的多个所述中间词及包含所述中间词的所述训练语音；

23、根据所述中间词对应的预设参数，确定所述中间词对应的所述第三标签，其中，所述第三标签为预设范围内的概率值。

24、作为本公开实施例一种可选的实施方式，所述控制器，还被配置为：

25、根据所述中间词对应的预设参数，确定所述预设多分类损失函数。

26、第二方面，本公开提供一种语音唤醒方法，包括：

27、获取待检测语音流，所述待检测语音流是根据多个关键词组成的，所述关键词包括唤醒词、非唤醒词以及中间词中的一种或多种；

28、将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，所述唤醒词概率预测模型是基于样本训练集训练得到的，所述样本训练集包括：多个训练语音及所述训练语音对应的标签，所述训练语音包括：包含所述唤醒词的所述训练语音、包含所述非唤醒词的所述训练语音及包含所述中间词的所述训练语音，所述中间词是根据所述唤醒词确定的，所述标签包括：所述唤醒词对应的第一标签、所述非唤醒词对应的第二标签及所述中间词对应的第三标签；

29、当存在所述概率值大于预设概率值时，确定在所述待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使所述终端设备进行语音唤醒。

30、作为本公开实施例一种可选的实施方式，所述唤醒词概率预测模型包括语音特征提取模块和概率预测模块；所述将所述待检测语音流输入至唤醒词概率预测模型中，获取各个所述关键词的概率值，包括：

31、将所述待检测语音流输入至所述语音特征提取模块中，获取所述待检测语音流对应的语音特征矩阵；

32、将所述语音特征矩阵输入至所述概率预测模块中，获取所述待检测语音流中各个关键词的概率值。

33、第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第二方面所述的语音唤醒方法。

34、本公开实施例提供的技术方案与现有技术相比具有如下优点：

35、服务器的控制器获取待检测语音流，待检测语音流是根据多个关键词组成的，关键词包括唤醒词、非唤醒词以及中间词中的一种或多种；将待检测语音流输入至唤醒词概率预测模型中，获取各个关键词的概率值，唤醒词概率预测模型是基于样本训练集训练得到的，样本训练集包括：多个训练语音及训练语音对应的标签，训练语音包括：包含唤醒词的训练语音、包含非唤醒词的训练语音及包含中间词的训练语音，中间词是根据唤醒词确定的，标签包括：唤醒词对应的第一标签、非唤醒词对应的第二标签及中间词对应的第三标签；当存在概率值大于预设概率值时，确定在待检测语音流中检测到所述唤醒词，将检测结果发送给终端设备，以使终端设备进行语音唤醒。上述技术方案中，能够通过训练好的唤醒词概率预测模型来预测待检测语音流中各个关键词如唤醒词、非唤醒词以及中间词分别对应的概率值，确定概率值大于预设概率值的关键词为唤醒词，由于唤醒词概率预测模型是根据样本训练集训练得到的，该样本训练集中包括包含唤醒词的训练语音、包含非唤醒词的训练语音、包含中间词的训练语音、唤醒词对应的第一标签、非唤醒词对应的第二标签及中间词对应的第三标签；其中，对于中间词是根据唤醒词确定的，即，利用包含中间词的训练语音以及中间词对应的第三标签增强样本训练集，以此提高唤醒词概率预测模型预测唤醒词的准确性，避免现有技术中唤醒词在未完全出现时，执行唤醒任务，导致误唤醒的问题，提升了用户的体验。