技术新讯 > 乐器声学设备的制造及制作,分析技术 > 显示设备、服务器及其各自对应的语音键盘输入识别方法与流程 > 正文

显示设备、服务器及其各自对应的语音键盘输入识别方法与流程

国知局
2024-06-21 11:41:40

本公开涉及语音识别，尤其涉及一种显示设备、服务器及其各自对应的语音键盘输入识别方法。

背景技术：

1、随着移动互联网的发展，账号、密码输入场景几乎无处不在。而对于电视等大屏幕显示设备，由于屏幕一般距离用户较远，且屏幕一般不具备触摸屏功能。使得用户在进行账号、密码等输入时；通常需要先拉起虚拟文本键盘，之后，通过遥控器在文本键盘上下左右移动，以定位并选择对应的字母、数字和符号，实现账号、密码的输入。但是上述输入方式效率较低，因此，目前可以通过语音输入的方式代替遥控器操作。

2、但是在实际应用中，由于账号、密码中包含的字符种类(如，大小写字母，特殊字符等)越来越多，而目前的语音识别方案主要针对全垂域连续语音的识别。使得目前的语音识别方案应用于账号、密码的输入场景时，识别效果较差；即目前的语音识别方案不适用于账号、密码的输入场景。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种显示设备、服务器及其各自对应的语音键盘输入识别方法，能够将用户输入的整段语音切分为一个一个单词片段后进行语音识别，得到账号密码，提高账号密码场景下的识别准确率，使得语音键盘输入识别方案能够适用于账号密码的输入场景。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种显示设备，包括：

4、显示器，被配置为显示用户界面；

5、通信器，被配置为接收用户输入的语音数据；

6、控制器，与通信器耦接，且被配置为：

7、响应于用户输入的语音输入操作，在显示器显示的用户界面包括键盘组件，且显示设备的语音服务可用的情况下，基于用户输入的待识别语音，得到识别结果。

8、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

9、向服务器发送用户输入的待识别语音，以使服务器根据待识别语音确定识别结果；

10、获取识别结果。

11、结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，还被配置为：

12、控制显示器在键盘组件上显示识别结果。

13、第二方面，本公开提供一种服务器，服务器被配置为：

14、接收显示设备发送的待识别语音；

15、对待识别语音进行语音活动性检测，得到至少一个目标语音片段；

16、通过语音识别模型对各目标语音片段进行特征提取，得到各语音片段对应的特征向量；

17、通过分类模块基于特征向量和预设字符集，得到语音数据对应的识别结果，并发送至显示设备。

18、结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，服务器，具体被配置为：

19、将待识别语音添加至至少一个检测队列中，并确定待识别语音中各帧的语音类型；其中，检测队列对应的帧数为帧数阈值，语音类型包括用户语音和噪声；

20、基于预设帧数和各帧的语音类型，确定各检测队列中语音类型为用户语音的占比；

21、将用户语音的占比大于占比阈值的检测队列中的语音片段确定为目标语音片段。

22、结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，服务器，还被配置为：

23、按照待识别语音中各帧的接收顺序，依次将待识别语音中的各帧添加至检测队列；

24、其中，检测队列中包括的待识别语音的帧数小于或等于帧数阈值。

25、结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，服务器，还被配置为：

26、在至少一个检测队列中用户语音的占比小于占比阈值的情况下，将检测队列中的语音片段删除。

27、结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，服务器，具体被配置为：

28、通过分类模块中的至少一个处理单元对特征向量进行卷积处理和归一化处理，得到处理后的特征向量；

29、通过分类模块中的激活单元基于预设字符集和处理后的特征向量，确定处理后的特征向量为预设字符集中各字符的预测概率；

30、将预设字符集中最大预测概率对应的字符确定为目标字符，从而得到识别结果。

31、第三方面，本公开提供一种语音键盘输入识别方法，应用于显示设备，方法包括：

32、响应于用户输入的语音输入操作，在显示器显示的用户界面包括键盘组件，且显示设备的语音服务可用的情况下，基于用户输入的待识别语音，得到识别结果。

33、结合第三方面和上述可能的实现方式，在另一种可能的实现方式中，基于待识别语音，得到识别结果，包括：

34、向服务器发送用户输入的待识别语音，以使服务器根据待识别语音确定识别结果；

35、获取识别结果。

36、第四方面，本公开提供一种服务器的语音键盘输入识别方法，应用于服务器，方法包括：

37、接收显示设备发送的待识别语音；

38、对待识别语音进行语音活动性检测，得到至少一个目标语音片段；

39、通过语音识别模型对各目标语音片段进行特征提取，得到各语音片段对应的特征向量；

40、通过分类模块基于特征向量和预设字符集，得到语音数据对应的识别结果，并发送至显示设备。

41、结合第四方面和上述可能的实现方式，在另一种可能的实现方式中，对待识别语音进行语音活动性检测，得到至少一个目标语音片段，包括：

42、按照待识别语音中各帧的接收顺序，依次将待识别语音中的各帧添加至检测队列；

43、其中，检测队列中包括的待识别语音的帧数小于或等于帧数阈值。

44、结合第四方面和上述可能的实现方式，在另一种可能的实现方式中，通过分类模块基于特征向量和预设字符集，得到语音数据对应的识别结果，包括：

45、通过分类模块中的至少一个处理单元对特征向量进行卷积处理和归一化处理，得到处理后的特征向量；

46、通过分类模块中的激活单元基于预设字符集和处理后的特征向量，确定处理后的特征向量为预设字符集中各字符的预测概率；

47、将预设字符集中最大预测概率对应的字符确定为目标字符，从而得到识别结果。

48、第五方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第三方面和/或第四方面提供的任一项的方法步骤。

49、第六方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第三方面和/或第四方面提供的任一项的方法步骤。

50、本技术实施例提供一种显示设备、服务器及其各自对应的语音键盘输入识别方法，其中，应用于服务器的语音键盘输入识别方法包括：先接收显示设备发送的待识别语音；之后，对所述待识别语音进行语音活动性检测，得到至少一个目标语音片段；再之后，通过语音识别模型对各所述目标语音片段进行特征提取，得到各所述语音片段对应的特征向量；最后，通过分类模块基于所述特征向量和预设字符集，得到所述语音数据对应的识别结果，并发送至所述显示设备；如此，能够通过语音活动性检测，将用户输入的整段语音切分为一个一个单词片段(目标语音片段)；之后，通过分类模块对一个一个单词片段进行语音识别，以代替在全垂域字符上面进行识别的相关方案；这样能够提高账号密码的识别准确率，使得语音键盘输入识别方案能够适用于账号密码的输入场景。