技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种显示设备及语音识别方法与流程  >  正文

一种显示设备及语音识别方法与流程

  • 国知局
  • 2024-06-21 11:41:54

本申请涉及语音识别,尤其涉及一种显示设备及语音识别方法。

背景技术:

1、显示设备不仅可以输出电影、电视、图片等各种媒资,还可以具备语音识别的功能。语音识别也可以称作自动语音识别(automatic speech recognition,asr),其目标是将包含在语音信号中的内容转换为计算机可读的输入,例如文本序列等。

2、在执行语音识别时,可以包括混合语音识别方法,该方法中,整个语音识别系统可以分为很多小的模块,例如,可以包括深度神经网络(deep neural networks,dnn)的声学模型、状态树、发音词典、语言模型等,这些模块可以通过有限加权状态转换机(weightedfinite state transducers,wfst)形成的wfst图的形式组合在一起。其中,wfst图可以称为解码搜索图,

3、但是,在组合的过程中会存在数十个不能通过模型训练得到的参数,例如可以将其称为超参数,这些超参数设置起来较复杂,且设置不当会影响语音识别的准确率,因此,在执行语音识别时,存在语音识别结果准确率低的问题。

技术实现思路

1、本申请一些实施例提供一种显示设备及语音识别方法,以解决在执行语音识别时,语音识别结果准确率低的问题。

2、第一方面,本申请一些实施例提供一种显示设备,包括:

3、显示器,被配置为显示用户界面;

4、控制器,被配置为:

5、获取声学训练语料,所述声学训练语料包括音频以及为所述音频标注的声学文本信息;

6、基于发音词典和所述声学文本信息构建所述声学训练语料的候选音节序列;

7、根据所述候选音节序列中音节出现的时间戳和所述候选音节序列的置信度从所述候选音节序列中确定出目标音节序列;

8、通过所述音频和所述目标音节序列生成声学模型;所述声学模型是通过训练端到端语音识别模型得到的;

9、获取文本训练语料,以及将所述文本训练语料输入至混合语音识别模型中的语言模型中,以得到概率统计文件;

10、将所述概率统计文件转换为解码搜索图;

11、获取用户输入的待识别语音,并将所述待识别语音输入到所述声学模型和所述解码搜索图,以及输出对所述待识别语音的语音识别结果。

12、第二方面,本申请一些实施例提供一种语音识别方法,可以应用于第一方面的显示设备,所述语音识别方法包括:

13、获取声学训练语料,所述声学训练语料包括音频以及为所述音频标注的声学文本信息;

14、基于发音词典和所述声学文本信息构建所述声学训练语料的候选音节序列;

15、根据所述候选音节序列中音节出现的时间戳和所述候选音节序列的置信度从所述候选音节序列中确定出目标音节序列;

16、通过所述音频和所述目标音节序列生成声学模型;所述声学模型是通过训练端到端语音识别模型得到的;

17、获取文本训练语料,以及将所述文本训练语料输入至混合语音识别模型中的语言模型中,以得到概率统计文件;

18、将所述概率统计文件转换为解码搜索图;

19、获取用户输入的待识别语音,并将所述待识别语音输入到所述声学模型和所述解码搜索图,以及输出对所述待识别语音的语音识别结果。

20、由以上技术方案可知,本申请一些实施例提供一种显示设备及语音识别方法,方法包括:获取声学训练语料,基于发音词典和声学文本信息构建声学训练语料的候选音节序列;根据候选音节序列中音节出现的时间戳和候选音节序列的置信度从候选音节序列中确定出目标音节序列;通过音频和目标音节序列生成声学模型;声学模型是通过训练端到端语音识别模型得到的;获取文本训练语料以及将文本训练语料输入至混合语音识别模型中的语言模型中,以得到概率统计文件;将概率统计文件转换为解码搜索图;获取用户输入的待识别语音,并将待识别语音输入到声学模型和解码搜索图,以及输出对待识别语音的语音识别结果。所述方法通过结合端到端语音识别方法以及解码搜索图综合确定待识别语音对应的语音识别结果,可以提升语音识别结果的准确率。

技术特征:

1.一种显示设备,其特征在于,包括:

2.根据权利要求1所述的显示设备,其特征在于,所述控制器执行基于发音词典和所述声学文本信息构建所述声学训练语料的候选音节序列的步骤,进一步被配置为:

3.根据权利要求2所述的显示设备,其特征在于,所述控制器执行对所述声学文本信息执行分词,得到文本分词的步骤,进一步被配置为:

4.根据权利要求1所述的显示设备,其特征在于,所述控制器执行根据所述候选音节序列中音节出现的时间戳和所述候选音节序列的置信度从所述候选音节序列中确定出目标音节序列的步骤,进一步被配置为:

5.根据权利要求4所述的显示设备,其特征在于,所述控制器执行通过所述音频和所述目标音节序列生成声学模型的步骤,进一步被配置为:

6.根据权利要求5所述的显示设备,其特征在于,所述控制器进一步被配置为:

7.根据权利要求5所述的显示设备,其特征在于,所述控制器进一步被配置为:

8.根据权利要求1所述的显示设备,其特征在于,所述控制器执行将所述文本训练语料输入至混合语音识别模型中的语言模型中,以得到概率统计文件的步骤,进一步被配置为:

9.根据权利要求1所述的显示设备,其特征在于,所述控制器执行输出对所述待识别语音的语音识别结果的步骤,进一步被配置为:

10.一种语音识别方法,应用于权利要求1-9任一项所述的显示设备,所述显示设备包括显示器和控制器,其特征在于,所述语音识别方法包括:

技术总结本申请提供一种显示设备及语音识别方法,方法包括:获取声学训练语料;基于发音词典和声学文本信息构建声学训练语料的候选音节序列;根据候选音节序列中音节出现的时间戳和候选音节序列的置信度从候选音节序列中确定出目标音节序列;通过音频和目标音节序列生成声学模型;获取文本训练语料以及将文本训练语料输入至混合语音识别模型中的语言模型中,以得到概率统计文件;将概率统计文件转换为解码搜索图;获取用户输入的待识别语音,并将待识别语音输入到声学模型和解码搜索图,以及输出对待识别语音的语音识别结果。所述方法通过结合端到端语音识别方法以及解码搜索图综合确定待识别语音对应的语音识别结果,可以提升语音识别结果的准确率。技术研发人员:张晓明,穆聪聪受保护的技术使用者:海信电子科技(武汉)有限公司技术研发日:技术公布日:2024/4/7

本文地址:https://www.jishuxx.com/zhuanli/20240618/22988.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。