技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音识别方法及系统与流程  >  正文

一种语音识别方法及系统与流程

  • 国知局
  • 2024-06-21 10:44:04

本发明涉及语音识别,尤其涉及一种语音识别方法及系统。

背景技术:

1、随着语音识别技术的发展和进步,基于语音识别的应用也越来越广泛,已经逐步覆盖到家庭生活、办公领域、娱乐等方面。通过对手机、智能计算机、笔记本电脑、学习机、智能家居等终端上外接或内置的麦克风来输入语音,再通过其内部嵌入的语音识别模型完成语音-文字的转换。

2、目前,语音识别模型的语音识别准确率是重点的关注方向,特别是在某些日常的语音场景中,如健身房、美容院、厨房、学校等,不具备实时性的网络连接,往往有着特殊的离线语音识别的需求。对于这些离线语音识别的场景,若不能提供高精度的语音识别结果,会对用户的使用场所进行干扰,且大大降低用户的交互使用体验。

技术实现思路

1、本发明所要解决的技术问题在于,提供一种语音识别方法及系统,能够在多个不同的语音场景中进行高精度的语音识别,克服了现有的语音识别模型的识别精度差、鲁棒性低、用户体验感差的问题。

2、为了解决上述技术问题,本发明第一方面公开了一种语音识别方法,所述方法包括:采集多个目标场景的训练语音数据,基于每个目标场景的环境特征对所述训练语音数据进行预处理生成至少一个离线指令训练集;通过扩展baum-welch算法对所述离线指令训练集进行训练构建多个场景的离线语音识别模型;基于预置的精度评价体系对所述多个场景的离线语音识别模型进行评价确定最优离线语音识别模型;响应于多个场景的语音识别指令,匹配关联的最优离线语音识别模型输出场景语音识别结果。

3、在一些实施方式中,所述通过扩展baum-welch算法对所述离线指令训练集进行训练构建多个场景的离线语音识别模型,其中:拓展baum-welch算法为基于训练语音数据的相邻的m个语音信号帧之间的相关性扩展baum-welch算法,m为自然数;通过对离线指令训练集进行解析,生成语音信号序列;将经过所述baum-welch算法处理的所述语音信号序列作为初始训练参数,构建多个场景的离线语音识别模型。

4、在一些实施方式中,将经过所述baum-welch算法处理的所述语音信号序列作为模型初始参数,构建多个场景的离线语音识别模型,包括:计算训练语音数据的相邻的m个语音信号帧的语音特征值之间的m-1个距离值;在m-1个距离值中提取n个最大值,将最大值对应的语音信号帧作为分界点,n为各个场景的离线语音识别模型的隐藏状态的数目;将每n段语音信号和各个场景的离线语音识别模型的一个训练状态对应生成多个隐藏状态序列,利用所述隐藏状态序列进行迭代训练构建多个场景的离线语音识别模型。

5、在一些实施方式中,各个场景的语音识别模型的隐藏状态的数目不同。

6、在一些实施方式中,通过扩展baum-welch算法对所述离线指令训练集进行训练构建多个场景的离线语音识别模型,之前包括:对各个离线指令训练集进行解码生成语音点,利用最大互信息估计对语音点进行后验概率的点阵修剪生成剔除的离线指令训练集。

7、在一些实施方式中,基于预置的精度评价体系对所述多个场景的离线语音识别模型进行评价确定最优离线语音识别模型,其中,预置的精度评价体系实现为:计算各个目标场景的离线指令训练集中的每一语音数据的靶心语音词的命中概率;计算每一语音数据的靶心语音词的命中概率的交叉熵,基于所述交叉熵确定各个目标场景的离线指令训练集的模糊度;根据每一语音数据的靶心语音词的命中概率和各个目标场景的离线指令训练集的模糊度形成精度评价体系。

8、本发明第二方面公开了一种语音识别系统,所述系统包括:预处理模块,用于采集多个目标场景的训练语音数据,基于每个目标场景的环境特征对所述训练语音数据进行预处理生成至少一个离线指令训练集;多个场景的离线语音识别模型,基于扩展baum-welch算法对所述离线指令训练集进行训练构建生成;最优离线语音识别模型,基于预置的精度评价体系对所述多个场景的离线语音识别模型进行评价确定;语音识别输出模块,用于响应多个场景的语音识别指令,匹配关联的最优离线语音识别模型输出场景语音识别结果。

9、在一些实施方式中,多个场景的离线语音识别模型中:拓展baum-welch算法为基于训练语音数据的相邻的m个语音信号帧之间的相关性扩展baum-welch算法,m为自然数;通过对离线指令训练集进行解析,生成语音信号序列;将经过所述baum-welch算法处理的所述语音信号序列作为初始训练参数,构建多个场景的离线语音识别模型。

10、在一些实施方式中,多个场景的离线语音识别模型实现为:计算训练语音数据的相邻的m个语音信号帧的语音特征值之间的m-1个距离值;在m-1个距离值中提取n个最大值,将最大值对应的语音信号帧作为分界点,n为各个场景的离线语音识别模型的隐藏状态的数目;将每n段语音信号和各个场景的离线语音识别模型的一个训练状态对应生成多个隐藏状态序列,利用所述隐藏状态序列进行迭代训练构建多个场景的离线语音识别模型。

11、在一些实施方式中,各个场景的语音识别模型的隐藏状态的数目不同。

12、在一些实施方式中,最优离线语音识别模型中,预置的精度评价体系实现为:计算各个目标场景的离线指令训练集中的每一语音数据的靶心语音词的命中概率;计算每一语音数据的靶心语音词的命中概率的交叉熵,基于所述交叉熵确定各个目标场景的离线指令训练集的模糊度;根据每一语音数据的靶心语音词的命中概率和各个目标场景的离线指令训练集的模糊度形成精度评价体系。

13、本发明第三方面公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如所述的语音识别方法中的步骤。

14、本发明第四方面公开了一种语音识别装置,所述装置包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,执行所述的语音识别方法。

15、与现有技术相比,本发明的有益效果在于:

16、实施本发明能够以不同的离线语音场景为前提,构建满足不同环境下的语音识别模型,并且对现有的baum-welch算法进行改进,以不同的离线语音场景特征下的训练数据集进行精度处理后再作为baum-welch算法的初始训练参数,使得语音识别模型在训练初期就进行严格的精度把控,有利于后续在进行真实场景下的离线语音识别结果的准确度。此外,本发明为了进一步的控制离线状态下的不同场景的语音识别精度,还基于预置的精度评价体系对多个场景的离线语音识别模型进行评价从而确定出最优选的离线语音识别模型。可见,本发明不仅在语音识别模型的训练前期进行精度控制,还在生成语音识别模型后再次进行筛选剔除干扰因素,由此能够大大的提高不同目标场景下的离线语音识别模型的精度和鲁棒性,大大的提高用户的交互体验感。

技术特征:

1.一种语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述通过扩展baum-welch算法对所述离线指令训练集进行训练构建多个场景的离线语音识别模型,其中:

3.根据权利要求2所述的语音识别方法,其特征在于,将经过所述baum-welch算法处理的所述语音信号序列作为模型初始参数,构建多个场景的离线语音识别模型,包括:

4.根据权利要求3所述的语音识别方法,其特征在于,各个场景的语音识别模型的隐藏状态的数目不同。

5.根据权利要求1-4任一项所述的语音识别方法,其特征在于,通过扩展baum-welch算法对所述离线指令训练集进行训练构建多个场景的离线语音识别模型,之前包括:

6.根据权利要求1所述的语音识别方法,其特征在于,基于预置的精度评价体系对所述多个场景的离线语音识别模型进行评价确定最优离线语音识别模型,其中,预置的精度评价体系实现为:

7.一种语音识别系统,其特征在于,所述系统包括:

8.根据权利要求7所述的语音识别系统,其特征在于,多个场景的离线语音识别模型中:

9.根据权利要求8所述的语音识别系统,其特征在于,多个场景的离线语音识别模型实现为:

10.根据权利要求8所述的语音识别系统,其特征在于,各个场景的语音识别模型的隐藏状态的数目不同。

11.根据权利要求7所述的语音识别系统,其特征在于,最优离线语音识别模型中,预置的精度评价体系实现为:

技术总结本发明公开了一种语音识别方法,该方法包括:采集多个目标场景的训练语音数据,基于每个目标场景的环境特征对所述训练语音数据进行预处理生成至少一个离线指令训练集;通过扩展Baum‑Welch算法对离线指令训练集进行训练构建多个场景的离线语音识别模型;基于预置的精度评价体系对多个场景的离线语音识别模型进行评价确定最优离线语音识别模型;响应于多个场景的语音识别指令,匹配关联的最优离线语音识别模型输出场景语音识别结果。通过本发明公开的方法和系统能够在多个不同的语音场景中进行高精度的语音识别,克服了现有的语音识别模型的识别精度差、鲁棒性低、用户体验感差的问题。技术研发人员:李伟,邓宝玉受保护的技术使用者:深圳市品生科技有限公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21408.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。