技术新讯 > 乐器声学设备的制造及制作,分析技术 > 显示设备、服务器及唤醒词检测方法与流程  >  正文

显示设备、服务器及唤醒词检测方法与流程

  • 国知局
  • 2024-10-09 15:52:00

本申请涉及显示设备,尤其涉及一种显示设备、服务器及唤醒词检测方法。

背景技术:

1、显示设备是能够呈现用户界面,并支持用户交互的智能设备。以智能电视为例,智能电视是基于internet应用技术,具备开放式操作系统与芯片,拥有开放式应用平台,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体的电视产品,用于满足用户多样化和个性化需求。显示设备通过语音唤醒、远程遥控、触摸控制等方式实现人机交互功能。

2、语音唤醒方式基于语音识别系统,即采用唤醒词检测技术识别固定唤醒词,由于唤醒词检测技术基于深度学习和大模型技术,因此,通过复杂的模型结构和高维度的隐藏层,可以提高识别准确率。

3、然而,在复杂环境下,如存在人声干扰、背景噪音时,唤醒词检测技术的识别准确率低、唤醒率差,且由于唤醒词检测技术基于复杂的模型结构和高维度的隐藏层,难以在算力低的平台进行部署。

技术实现思路

1、本申请提供一种显示设备、服务器及唤醒词检测方法,以解决唤醒词检测技术的识别准确率低、唤醒率差且难以在算力低的平台上部署的问题。

2、第一方面,本申请一些实施例提供一种显示设备,包括:显示器、存储器、音频输入接口以及控制器。其中,所述显示器被配置为显示用户界面;所述存储器被配置为存储声学模型和第一分类模型;所述音频输入接口被配置为获取音频数据;所述控制器被配置为:

3、响应于用户输入的语音唤醒指令,通过所述音频输入接口获取连续多帧音频数据;

4、对多帧所述音频数据执行第一特征提取,以得到第一声学特征;

5、将所述第一声学特征输入至所述声学模型,以得到第一概率值;其中,所述第一概率值为通过所述声学模型预测的所述音频数据包含唤醒词的分类概率的中位数;

6、若所述第一概率值大于第一阈值,则对所述音频数据执行第二特征提取,以得到第二声学特征;

7、将所述第二声学特征输入至所述第一分类模型,以得到所述音频数据包含唤醒词的第一分类概率和所述音频数据包含常规词的第二分类概率;

8、若所述第一分类概率大于所述第二分类概率,则生成唤醒指令,以及响应于所述唤醒指令,唤醒语音助手。

9、第二方面,本申请一些实施例还提供一种服务器,包括:存储模块、通信模块和处理器。其中,所述存储模块被配置为存储声学模型和第一分类模型;所述通信模块被配置为与显示设备建立通信连接;所述处理器被配置为:

10、接收显示设备发送的连续多帧音频数据,所述音频数据为显示设备响应于用户输入的语音唤醒指令,并通过音频输入接口获取的音频数据;

11、对多帧所述音频数据执行第一特征提取,以得到第一声学特征;

12、将所述第一声学特征输入至所述声学模型,以得到第一概率值;其中,所述第一概率值为通过所述声学模型预测的所述音频数据包含唤醒词的分类概率的中位数;

13、若所述第一概率值大于第一阈值,则对所述音频数据执行第二特征提取,以得到第二声学特征;

14、将所述第二声学特征输入至所述第一分类模型,以得到所述音频数据包含唤醒词的第一分类概率和所述音频数据包含常规词的第二分类概率;

15、若所述第一分类概率大于所述第二分类概率,则生成唤醒指令;

16、将所述唤醒指令发送给所述显示设备,以使所述显示设备响应于所述唤醒指令,唤醒语音助手。

17、第三方面,本申请一些实施例还提供一种唤醒词检测方法,应用于第一方面提供的显示设备,所述显示设备包括:显示器、存储器、音频输入接口以及控制器,所述方法包括:

18、响应于用户输入的语音唤醒指令,通过音频输入接口获取连续多帧音频数据;

19、对多帧所述音频数据执行第一特征提取,以得到第一声学特征;

20、将所述第一声学特征输入至声学模型,以得到第一概率值;其中,所述第一概率值为通过所述声学模型预测的所述音频数据包含唤醒词的分类概率的中位数;

21、若所述第一概率值大于第一阈值,则对所述音频数据执行第二特征提取,以得到第二声学特征;

22、将所述第二声学特征输入至第一分类模型,以得到所述音频数据包含唤醒词的第一分类概率和所述音频数据包含常规词的第二分类概率;

23、若所述第一分类概率大于所述第二分类概率,则生成唤醒指令,以及响应于所述唤醒指令,唤醒语音助手。

24、第四方面,本申请一些实施例还提供一种唤醒词检测方法,应用于第二方面提供的服务器,所述服务器包括:

25、接收显示设备发送的连续多帧音频数据,所述音频数据为显示设备响应于用户输入的语音唤醒指令,并通过音频输入接口获取的音频数据;

26、对多帧所述音频数据执行第一特征提取,以得到第一声学特征;

27、将所述第一声学特征输入至声学模型,以得到第一概率值;其中,所述第一概率值为通过所述声学模型预测的所述音频数据包含唤醒词的分类概率的中位数;

28、若所述第一概率值大于第一阈值,则对所述音频数据执行第二特征提取,以得到第二声学特征;

29、将所述第二声学特征输入至第一分类模型,以得到所述音频数据包含唤醒词的第一分类概率和所述音频数据包含常规词的第二分类概率;

30、若所述第一分类概率大于所述第二分类概率,则生成唤醒指令;

31、将所述唤醒指令发送给所述显示设备,以使所述显示设备响应于所述唤醒指令,唤醒语音助手。

32、由以上技术方案可知,本申请一些实施例提供一种显示设备、服务器及唤醒词检测方法,所述方法可以响应于语音唤醒指令,获取连续多帧音频数据。并对多帧音频数据执行第一特征提取,以及将第一声学特征输入至声学模型,以得到第一概率值。若第一概率值大于第一阈值,则对音频数据执行第二特征提取,以及将第二声学特征输入至第一分类模型,以得到音频数据包含唤醒词的第一分类概率和音频数据包含常规词的第二分类概率。若第一分类概率大于第二分类概率,则生成唤醒指令,以及响应于唤醒指令,控制显示设备唤醒语音助手。所述方法采用多个模型对音频数据进行多次唤醒词检测,可以解决唤醒词检测技术的识别准确率低、唤醒率差且难以在算力低的平台上部署的问题。

技术特征:

1.一种显示设备,其特征在于,包括:

2.根据权利要求1所述的显示设备,其特征在于,所述存储器还被配置为存储第二分类模型,所述控制器还被配置为:

3.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:

4.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:

5.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:

6.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:

7.根据权利要求2所述的显示设备,其特征在于,所述控制器还被配置为:

8.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:

9.一种服务器,其特征在于,包括:

10.一种唤醒词检测方法,其特征在于,应用于权利要求1-8任一项所述的显示设备;所述方法包括:

技术总结本申请一些实施例提供一种显示设备、服务器及唤醒词检测方法,所述方法可以响应于语音唤醒指令,获取连续多帧音频数据。并对多帧音频数据执行第一特征提取,以及将第一声学特征输入至声学模型,以得到第一概率值。若第一概率值大于第一阈值,则对音频数据执行第二特征提取,以及将第二声学特征输入至第一分类模型,以得到音频数据包含唤醒词的第一分类概率和音频数据包含常规词的第二分类概率。若第一分类概率大于第二分类概率,则生成唤醒指令,以及响应于唤醒指令,唤醒语音助手。所述方法采用多个模型对音频数据进行多次唤醒词检测,可以解决唤醒词检测技术的识别准确率低、唤醒率差且难以在算力低的平台上部署的问题。技术研发人员:葛绪泽,季云云,刘柏姣,张均耀受保护的技术使用者:海信电子科技(深圳)有限公司技术研发日:技术公布日:2024/9/26

本文地址:https://www.jishuxx.com/zhuanli/20240929/310523.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。