技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种电子设备及语音唤醒方法与流程 > 正文

一种电子设备及语音唤醒方法与流程

国知局
2024-06-21 11:41:51

本技术涉及语音处理，尤其涉及一种电子设备及语音唤醒方法。

背景技术：

1、电子设备一般配置有用于语音控制的应用(以下简称：语音应用)，语音应用可以包括休眠状态和清醒状态，休眠状态下语音应用不响应及不执行用户输入的语音指令，清醒状态下可以响应输入的语音指令以执行指令指示的动作/程序。因此，在语音应用处于休眠状态时，用户需要先唤醒语音应用，再通过与语音应用的交互实现语音控制。

2、语音唤醒方式包括固定唤醒方式和自定义唤醒方式。其中，固定唤醒方式是利用固定唤醒词唤醒语音应用，固定唤醒词通常为电子设备预置的语音产品名称，例如“小x”。固定唤醒方式无法兼容不同用户的使用习惯和偏好，并且先唤醒后语音交互也会导致语音控制效率低，甚至有些用户不清楚或忘记默认的唤醒词，导致无法有效使用语音控制功能。

3、自定义唤醒方式可以支持用户使用多样性的唤醒词唤醒语音应用，自定义唤醒词主要为用户高频使用的语音指令，例如“打开空调”、“播放歌曲”等，不再拘泥于单一的固定唤醒词。但自定义唤醒方式容易产生误唤醒和唤醒率下降等问题。

技术实现思路

1、本技术一些实施例提供了一种电子设备及语音唤醒方法，实现电子设备端侧执行自定义唤醒任务时，降低漏唤醒和误唤醒，提高自定义唤醒的唤醒率和唤醒准确性。

2、第一方面，本技术一些实施例提供一种电子设备，包括：

3、声音采集器，用于采集用户输入的语音数据；

4、控制器，用于执行：

5、接收所述声音采集器采集并传输的语音数据；

6、对所述语音数据进行语音处理，得到语音数据转换的文本信息；

7、按照预设长度对所述文本信息进行截取以获得备选文本；

8、对自定义唤醒词和所述备选文本进行基于滑窗的动态匹配，获得自定义唤醒词和所述备选文本之间的最小编辑距离；

9、根据所述最小编辑距离，计算置信度；

10、如果所述置信度大于阈值，唤醒语音应用，所述语音应用用于响应用户输入的语音指令；

11、如果所述置信度不大于所述阈值，不唤醒所述语音应用。

12、在一些实施例中，在对自定义唤醒词和所述备选文本进行基于滑窗的动态匹配之前，所述控制器还用于执行：将所述自定义唤醒词和所述备选文本统一转换为目标格式；对格式转换后的所述自定义唤醒词进行拼音转换，获得第一拼音；格式转换后的所述备选文本进行拼音转换，获得第二拼音。

13、在一些实施例中，所述控制器对自定义唤醒词和所述备选文本进行基于滑窗的动态匹配，包括：根据所述第一拼音的长度生成滑窗；在所述滑窗按照预设步长和目标方向沿所述第二拼音移动时，利用所述滑窗截取所述第二拼音，获得所述滑窗当前截取的拼音串；计算第一拼音与所述滑窗移动k步后截取的拼音串之间的最小编辑距离di[h][h]k，其中k表示滑窗的移动步数，h表示所述第一拼音的长度；计算所述第一拼音与所述第二拼音之间的最小编辑距离d，d＝min{di[h][h]k∣k＝0,1,…q}，其中，q表示所述滑窗完整遍历第二拼音时移动的总步数。

14、在一些实施例中，所述控制器按照如下方式计算所述置信度：

15、

16、其中，c表示所述置信度。

17、在一些实施例中，所述控制器计算第一拼音与所述滑窗移动k步后截取的拼音串之间的最小编辑距离di[h][h]k，包括：创建维度为[h+1,h+1]的矩阵di，所述矩阵di用于计算编辑距离di[i][j]x，其中，i表示所述第一拼音中字母的序号，j表示所述滑窗移动k步后截取的拼音串中字母的序号，1≤i≤h，1≤j≤h，x表示编辑操作的类型序号，di[i][j]x表示将所述第一拼音的前i个字母转换为所述拼音串的前j个字母所需执行的第x种编辑操作的最小次数；以i＝0和j＝0为起始，遍历i和j，并计算编辑距离di[i][j]，直至i＝j＝h，得到最小编辑距离di[h][h]k；其中，di[i][j]＝min{di[i][j]x∣x＝1,2,…,r}，r表示所述编辑操作包括的类型总数。

18、在一些实施例中，所述编辑操作的类型包括插入、替换和删除，则有：

19、x＝1:di[i][j]1＝di[i][j-1]+1；

20、x＝2:di[i][j]2＝di[i-1][j-1]+1；

21、x＝3:di[i][j]3＝di[i-1][j]+1；

22、其中，x＝1对应插入操作，di[i][j]1表示在所述第一拼音的第i个字母后插入所述拼音串的第j个字母，使得所述第一拼音的前i个字母与所述拼音串的前j+1个字母相同时的编辑距离；

23、x＝2对应交换操作，di[i][j]2表示将所述第一拼音的第i个字母替换为所述拼音串的第j个字母时的编辑距离；

24、x＝3对应删除操作，di[i][j]3表示删除所述第一拼音的第i个字母，使得所述第一拼音的前i-1个字母与所述拼音串的前j个字母相同时的编辑距离。

25、在一些实施例中，如果所述第一拼音的第i个字母与所述拼音串的第j个字母相同，则有di[i][j]＝di[i-1][j-1]。

26、在一些实施例中，所述电子设备配置有语音识别模型，所述语音识别模型包括编码器、解码器、联合器和分类器，所述编码器和所述解码器的输出端均连接所述联合器的输入端，所述联合器的输出端连接所述分类器，则所述控制器对所述语音数据进行语音处理，包括：将所述声音采集器采集的语音帧输入至所述编码器；将所述语音识别模型的历史输出数据输入至所述解码器；将所述编码器和所述解码器的输出结果输入至所述联合器；将所述联合器的输出结果输入至所述分类器，以使所述分类器输出至少一个所述文本信息及其概率。

27、在一些实施例中，在唤醒语音应用之后，所述控制器还用于执行：控制所述语音应用根据所述文本信息包含的非唤醒意图，生成语音控制指令；将所述语音控制指令发送给执行对象，以使所述执行对象执行所述语音控制指令指示的程序，所述执行对象为所述电子设备的软件或硬件。

28、第二方面，本技术一些实施例还提供一种语音唤醒方法，包括：

29、接收用户输入的语音数据；

30、对所述语音数据进行语音处理，得到语音数据转换的文本信息；

31、按照预设长度对所述文本信息进行截取以获得备选文本；

32、对自定义唤醒词和所述备选文本进行基于滑窗的动态匹配，获得自定义唤醒词和所述备选文本之间的最小编辑距离；

33、根据所述最小编辑距离，计算置信度；

34、如果所述置信度大于阈值，唤醒语音应用，所述语音应用用于响应用户输入的语音指令；

35、如果所述置信度不大于所述阈值，不唤醒所述语音应用。

36、第三方面，本技术一些实施例还提供一种计算机存储介质，该计算机存储介质中存储有程序指令，当程序指令在计算机上运行时，使得计算机执行以上各方面及其各个实现方式中涉及的方法。

37、电子设备在对用户输入的语音数据进行语音处理后，将音频转换为文本，为便于后续动态匹配自定义唤醒词和文本信息，提升匹配效率，可以按照预设长度截取文本信息，该预设长度例如可参照自定义唤醒词常规的最大长度来设定，这样可以得到截取的备选文本。本技术实施例在语音识别后，为了进一步提升识别的准确性，避免误唤醒或漏唤醒等情况，采用文本动态匹配算法，计算自定义唤醒词与备选文本之间的最小编辑距离，最小编辑距离可以评估自定义唤醒词与备选文本之间的相似度/匹配度，基于该最小编辑距离计算置信度，并比较置信度与阈值，从而决策是否唤醒语音应用，从而提升语音识别和唤醒的准确性，避免因用户误唤醒语音应用导致的语音控制指令的错误响应和执行，降低误唤醒和漏唤醒，提升唤醒率和唤醒准确率，提升语音控制功能和用户语音使用体验。