技术新讯 > 乐器声学设备的制造及制作,分析技术 > 显示设备和语音识别方法与流程 > 正文

显示设备和语音识别方法与流程

国知局
2024-06-21 11:41:53

本申请涉及显示设备，尤其涉及一种显示设备和语音识别方法。

背景技术：

1、显示设备是指能够输出具体显示画面的终端设备，随着显示设备的快速发展，显示设备的功能将越来越丰富，性能也越来越强大，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，用于满足用户多样化和个性化需求。

2、显示设备可以具有语音交互功能。人们可以可利用语音交互功能，实现语音控制显示设备，例如看视频、听音乐、查天气、设备控制等一系列操作。在实现语音交互功能的过程中，显示设备可以将用户输入的语音指令识别为文本，之后对该文本进行词法句法和语义的分析，从而分析出用户指令，并进行相应的操作。

3、用户在语音控制显示设备的过程中，可能具有文本输入的需求，例如通过语音输入搜索词，也可以输入账号和密码等信息。对于不同的文本，其中的语音单元类型是不同的。搜索词需要显示设备能够识别单词的级别类型，账号和密码则需要显示设备能够识别出字符数字的级别类型。然而，显示设备在识别语音时，无法识别出特定类型的语音单元，可能会将字符等信息识别成单词，导致语音识别的准确率较低，降低用户的使用体验。

技术实现思路

1、本申请提供一种显示设备和语音识别方法，以解决相关技术中，显示设备在识别语音时，无法识别出特定类型的语音单元，可能会将字符等信息识别成单词，导致语音识别的准确率较低，降低用户的使用体验的问题。

2、第一方面，本申请一些实施例提供一种显示设备，包括显示器、音频输入接口和控制器。其中，音频输入接口被配置为连接声音采集器，所述声音采集器用于采集用户语音。控制器被配置为：

3、响应于指示将语音转换为文本的指令，获取目标语音单元类型；

4、控制所述声音采集器采集语音音频数据；

5、将所述语音音频数据转换为语谱图；

6、基于所述目标语音单元类型，获取所述语谱图的语音单元预测数据；

7、基于所述语音单元预测数据，获取所述语音音频数据对应的语音文本，并控制显示器显示所述语音文本。

8、第二方面，本申请一些实施例提供一种语音识别方法，应用于显示设备，包括：

9、响应于指示将语音转换为文本的指令，获取目标语音单元类型；

10、控制声音采集器采集语音音频数据；

11、将所述语音音频数据转换为语谱图；

12、基于所述目标语音单元类型，获取所述语谱图的语音单元预测数据；

13、基于所述语音单元预测数据，获取所述语音音频数据对应的语音文本，并控制显示器显示所述语音文本。

14、由以上技术方案可以看出，本申请一些实施例提供一种显示设备和语音识别方法。用户指示将语音转换为文本后，显示设备获取目标语音单元类型。显示设备可以控制声音采集器采集语音音频数据，并将语音音频数据转换为语谱图。基于目标语音单元类型，显示设备获取语谱图的语音单元预测数据。基于语音单元预测数据，显示设备获取语音音频数据对应的语音文本，并显示语音文本。显示设备可以获取用户需要识别的语音单元类型，从而将用户语音转化为相应类型的文本，提高语音识别的准确率，给用户的使用体验较高。

技术特征：

1.一种显示设备，其特征在于，包括：

2.根据权利要求1所述的显示设备，其特征在于，所述控制器执行获取目标语音单元类型，还被配置为：

3.根据权利要求1所述的显示设备，其特征在于，所述控制器执行将所述语音音频数据转换为语谱图，还被配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制器执行对所述语音音频数据进行音频拼接处理，还被配置为：

5.根据权利要求3所述的显示设备，其特征在于，所述控制器执行将所述目标语音音频数据转换为语谱图，还被配置为：

6.根据权利要求1所述的显示设备，其特征在于，所述控制器执行基于所述目标语音单元类型，获取所述语谱图的语音单元预测数据，还被配置为：

7.根据权利要求4所述的显示设备，其特征在于，所述控制器执行基于所述语音单元预测数据，获取所述语音音频数据对应的语音文本，还被配置为：

8.根据权利要求7所述的显示设备，其特征在于，所述控制器执行将所述语音单元预测数据拼接到所述第一预测数据之后，得到目标预测数据后，还被配置为：

9.根据权利要求1所述的显示设备，其特征在于，所述控制器执行基于所述语音单元预测数据，获取所述语音音频数据对应的语音文本后，还被配置为：

10.一种语音识别方法，应用于显示设备，其特征在于，所述方法包括：

技术总结本申请一些实施例提供一种显示设备和语音识别方法。用户指示将语音转换为文本后，显示设备获取目标语音单元类型。显示设备可以控制声音采集器采集语音音频数据，并将语音音频数据转换为语谱图。基于目标语音单元类型，显示设备获取语谱图的语音单元预测数据。基于语音单元预测数据，显示设备获取语音音频数据对应的语音文本，并显示语音文本。显示设备可以获取用户需要识别的语音单元类型，从而将用户语音转化为相应类型的文本，提高语音识别的准确率。技术研发人员：陈楚林,朱飞受保护的技术使用者：VIDAA国际控股（荷兰）公司技术研发日：技术公布日：2024/4/7