显示设备、语音唤醒方法及存储介质与流程
- 国知局
- 2024-06-21 11:41:27
本公开涉及电视画质处理,尤其涉及一种显示设备、语音唤醒方法及存储介质。
背景技术:
1、语音交互前,设备需要先被唤醒,从休眠状态进入工作状态,才能正常的处理用户的指令。语音唤醒,即,通过语音的方式将设备从休眠状态切换到工作状态。语音唤醒能力主要依赖于语音唤醒模型,例如,通过模型训练实现语音唤醒。
2、相关技术中,远场语音唤醒模型,通过对用户唤醒音频进行信号处理以及声学打分,只有打分值满足预设阈值的才可以响应唤醒,未达到阈值的直接静默。而且,目前,主要依赖实际数据对语音唤醒模型进行训练,训练数据主要为常规语速人群,对快语速、慢语速、方言等边缘用户的覆盖率较低。如果增加对快语速、慢语速、方言等语料的训练,会导致模型训练顾此失彼,例如,加大长尾人群语料、会影响非长尾人群的唤醒;而加大方言语料,则会影响普通话唤醒。因此,如何在不影响当前唤醒能力的前提下,提高快语速、慢语速、方言等边缘用户的唤醒率,是当前亟需解决的问题。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种显示设备和语音唤醒方法,可以在不影响常规语速人群唤醒的前提下,通过非传统模型训练方式提高边缘用户的唤醒率。
2、第一方面,本公开提供了一种显示设备,包括:
3、控制器,被配置为:
4、获取待识别音频片段的唤醒可信度;所述待识别音频片段包括唤醒词;
5、在所述待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒所述显示设备;
6、在待识别音频片段的唤醒可信度满足预设检测条件的情况下,获取所述待识别音频片段的语料类型、以及语速分类结果;
7、基于所述待识别音频片段的语料类型、以及所述语速分类结果,确定用户画像类型;
8、根据所述用户画像类型,显示目标提示信息;所述目标提示信息用于提示用户基于所述目标提示信息的建议唤醒所述显示设备;每种用户画像类型对应一种提示信息。
9、作为本公开实施例一种可选的实施方式,所述控制器,具体被配置为:
10、所述在待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒所述显示设备,包括:
11、判断所述唤醒可信度是否大于等于第一唤醒阈值;
12、若所述唤醒可信度大于等于所述第一唤醒阈值,则基于所述待识别音频片段,唤醒所述显示设备。
13、作为本公开实施例一种可选的实施方式,所述控制器,具体被配置为:
14、所述在待识别音频片段的唤醒可信度满足预设检测条件的情况下,获取所述待识别音频片段的语料类型、以及语速分类结果,包括:
15、若所述唤醒可信度小于所述第一唤醒阈值,且,所述唤醒可信度大于等于第二唤醒阈值,则确定所述待识别音频片段的唤醒可信度满足预设检测条件;
16、获取所述待识别音频片段的文本识别结果、拼音识别结果、以及实际语速;
17、将所述文本识别结果、所述拼音识别结果分别与预设唤醒词的文本、以及所述预设唤醒词的拼音进行对比,确定所述待识别音频片段的语料类型;所述语料类型包括:普通话、非普通话、以及噪声;
18、基于预设语速分类规则,对所述待识别音频片段的实际语速进行分类,获取语速分类结果。
19、作为本公开实施例一种可选的实施方式,所述控制器,具体被配置为:
20、所述将所述文本识别结果、所述拼音识别结果分别与预设唤醒词的文本、以及所述预设唤醒词的拼音进行对比,确定所述待识别音频片段的语料类型,包括:
21、若所述文本识别结果与所述预设唤醒词的文本相同、且所述拼音识别结果与所述预设唤醒词的拼音相同,则确定所述待识别音频片段的语料类型为普通话;
22、若所述文本识别结果与所述预设唤醒词的文本不同、且所述拼音识别结果与所述预设唤醒词的拼音相同,则确定所述待识别音频片段的语料类型为非普通话;
23、若所述文本识别结果与所述预设唤醒词的文本不同、且所述拼音识别结果与所述预设唤醒词的拼音不相同,则确定所述待识别音频片段的语料类型为噪声。
24、作为本公开实施例一种可选的实施方式,所述控制器,具体被配置为:
25、所述基于预设语速分类规则,对所述待识别音频片段的实际语速进行分类,获取语速分类结果,包括:
26、若所述待识别音频片段的实际语速大于等于第一语速,则确定所述待识别音频片段对应的用户为第一语速类型用户;
27、若所述待识别音频片段的实际语速小于所述第一语速,且所述待识别音频片段的实际语速大于等于第二语速,则确定所述待识别音频片段对应的用户为第二语速类型用户;
28、若所述待识别音频片段的实际语速小于所述第二语速,则确定所述待识别音频片段对应的用户为第三语速类型用户。
29、作为本公开实施例一种可选的实施方式,所述控制器,具体被配置为:
30、所述基于所述待识别音频片段的语料类型、以及所述语速分类结果,确定用户画像类型,包括:
31、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第一语速类型用户时,确定所述用户画像类型为第一类型用户;
32、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第二语速类型用户时,确定所述用户画像类型为第二类型用户;
33、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第三语速类型用户时,确定所述用户画像类型为第三类型用户;
34、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第一语速类型用户时,确定所述用户画像类型为第四类型用户;
35、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第二语速类型用户时,确定所述用户画像类型为第五类型用户;
36、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第三语速类型用户时,确定所述用户画像类型为第六类型用户。
37、作为本公开实施例一种可选的实施方式,所述控制器,还被配置为:
38、所述根据所述用户画像类型,显示目标提示信息之后,还包括:
39、若在第一预设时间内再次检测到第一待识别音频片段、且所述第一待识别音频片段的第一用户画像类型与所述待识别音频片段的用户画像类型一致,则间隔第二预设时间再次检测到第二待识别音频片段时,显示所述目标提示信息;所述第一预设时间小于所述第二预设时间;
40、若在第一预设时间内再次检测到第一待识别音频片段、且所述第一待识别音频片段的第一用户画像类型与所述待识别音频片段的用户画像类型不一致,则基于所述第一用户画像类型确定第一目标提示信息,并显示所述第一目标提示信息。
41、第二方面,提供一种语音唤醒方法,所述方法包括:
42、获取待识别音频片段的唤醒可信度;所述待识别音频片段包括唤醒词;
43、在所述待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒所述显示设备;
44、在待识别音频片段的唤醒可信度满足预设检测条件的情况下,获取所述待识别音频片段的语料类型、以及语速分类结果;
45、基于所述待识别音频片段的语料类型、以及所述语速分类结果,确定用户画像类型;
46、根据所述用户画像类型,显示目标提示信息;所述目标提示信息用于提示用户基于所述目标提示信息的建议唤醒所述显示设备;每种用户画像类型对应一种提示信息。
47、作为本公开实施例一种可选的实施方式,所述在待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒所述显示设备,包括:
48、判断所述唤醒可信度是否大于等于第一唤醒阈值;
49、若所述唤醒可信度大于等于所述第一唤醒阈值,则基于所述待识别音频片段,唤醒所述显示设备。
50、作为本公开实施例一种可选的实施方式,所述在待识别音频片段的唤醒可信度满足预设检测条件的情况下,获取所述待识别音频片段的语料类型、以及语速分类结果,包括:
51、若所述唤醒可信度小于所述第一唤醒阈值,且,所述唤醒可信度大于等于第二唤醒阈值,则确定所述待识别音频片段的唤醒可信度满足预设检测条件;
52、获取所述待识别音频片段的文本识别结果、拼音识别结果、以及实际语速;
53、将所述文本识别结果、所述拼音识别结果分别与预设唤醒词的文本、以及所述预设唤醒词的拼音进行对比,确定所述待识别音频片段的语料类型;所述语料类型包括:普通话、非普通话、以及噪声;
54、基于预设语速分类规则,对所述待识别音频片段的实际语速进行分类,获取语速分类结果。
55、作为本公开实施例一种可选的实施方式,所述将所述文本识别结果、所述拼音识别结果分别与预设唤醒词的文本、以及所述预设唤醒词的拼音进行对比,确定所述待识别音频片段的语料类型,包括:
56、若所述文本识别结果与所述预设唤醒词的文本相同、且所述拼音识别结果与所述预设唤醒词的拼音相同,则确定所述待识别音频片段的语料类型为普通话;
57、若所述文本识别结果与所述预设唤醒词的文本不同、且所述拼音识别结果与所述预设唤醒词的拼音相同,则确定所述待识别音频片段的语料类型为非普通话;
58、若所述文本识别结果与所述预设唤醒词的文本不同、且所述拼音识别结果与所述预设唤醒词的拼音不相同,则确定所述待识别音频片段的语料类型为噪声。
59、作为本公开实施例一种可选的实施方式,所述基于预设语速分类规则,对所述待识别音频片段的实际语速进行分类,获取语速分类结果,包括:
60、若所述待识别音频片段的实际语速大于等于第一语速,则确定所述待识别音频片段对应的用户为第一语速类型用户;
61、若所述待识别音频片段的实际语速小于所述第一语速,且所述待识别音频片段的实际语速大于等于第二语速,则确定所述待识别音频片段对应的用户为第二语速类型用户;
62、若所述待识别音频片段的实际语速小于所述第二语速,则确定所述待识别音频片段对应的用户为第三语速类型用户。
63、作为本公开实施例一种可选的实施方式,所述基于所述待识别音频片段的语料类型、以及所述语速分类结果,确定用户画像类型,包括:
64、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第一语速类型用户时,确定所述用户画像类型为第一类型用户;
65、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第二语速类型用户时,确定所述用户画像类型为第二类型用户;
66、当所述待识别音频片段的语料类型为普通话、且所述待识别音频片段对应的用户为第三语速类型用户时,确定所述用户画像类型为第三类型用户;
67、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第一语速类型用户时,确定所述用户画像类型为第四类型用户;
68、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第二语速类型用户时,确定所述用户画像类型为第五类型用户;
69、当所述待识别音频片段的语料类型为非普通话、且所述待识别音频片段对应的用户为第三语速类型用户时,确定所述用户画像类型为第六类型用户。
70、作为本公开实施例一种可选的实施方式,所述根据所述用户画像类型,显示目标提示信息之后,还包括:
71、若在第一预设时间内再次检测到第一待识别音频片段、且所述第一待识别音频片段的第一用户画像类型与所述待识别音频片段的用户画像类型一致,则间隔第二预设时间再次检测到第二待识别音频片段时,显示所述目标提示信息;所述第一预设时间小于所述第二预设时间;
72、若在第一预设时间内再次检测到第一待识别音频片段、且所述第一待识别音频片段的第一用户画像类型与所述待识别音频片段的用户画像类型不一致,则基于所述第一用户画像类型确定第一目标提示信息,并显示所述第一目标提示信息。
73、第三方面,提供一种计算机可读存储介质,包括:计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第二方面所示的语音唤醒方法。
74、本公开实施例提供的技术方案与现有技术相比具有如下优点:获取待识别音频片段的唤醒可信度;待识别音频片段包括唤醒词;在待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒显示设备;在待识别音频片段的唤醒可信度满足预设检测条件的情况下,获取待识别音频片段的语料类型、以及语速分类结果;基于待识别音频片段的语料类型、以及语速分类结果,确定用户画像类型;根据用户画像类型,显示目标提示信息;其中,目标提示信息用于提示用户基于目标提示信息的建议唤醒显示设备;每种用户画像类型对应一种提示信息。通过获取待识别音频片段的唤醒可信度,在待识别音频片段的唤醒可信度满足预设唤醒条件的情况下,唤醒显示设备;在待识别音频片段的唤醒可信度满足预设检测条件的情况下,即,此时不满足唤醒条件,但是满足检测条件,可以进一步获取待识别音频片段的语料类型、以及语速分类结果,根据待识别音频片段的语料类型、以及语速分类结果确定用户画像类型,由于每种用户画像类型对应一种提示信息,所以,根据用户画像显示对应的目标提示信息,以使用户基于目标提示信息的建议唤醒显示设备,从而,在不影响常规语速人群唤醒的前提下,提高了边缘用户的唤醒率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22941.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表