技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别的方法、装置及电子设备与流程  >  正文

语音识别的方法、装置及电子设备与流程

  • 国知局
  • 2024-06-21 11:36:21

本申请涉及语音识别领域,具体而言,涉及一种语音识别的方法、装置及电子设备。

背景技术:

1、客服场景的多方言语音一般会有一对一的客服和客户交流,客服一般说普通话,客户说方言居多,所以会存在普通话和方言频繁切换的情况,这就要求模型能够同时识别普通话和方言语音,并且在流式情况下可以做到快速切换。相关技术中的多语音识别方法基于基础模型叠加方言分类器判断选择具体方言模型,降低了流式语音识别的体验。

2、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音识别的方法、装置及电子设备,以至少解决相关技术中的多语音识别方法基于基础模型叠加方言分类器判断选择具体方言模型,降低流式语音识别的体验的技术问题。

2、根据本申请实施例的一个方面,提供了一种语音识别的方法,包括:获取流式语音场景中的语音信息,其中,语音信息包括普通话和方言;采用训练好的声学模型对语音信息进行识别,得到识别结果,其中,识别结果包括方言分类结果和语音识别结果;依据方言分类结果确定语言模型,并依据语言模型对语音识别结果进行识别,得到语言模型概率,其中,语言模型概率用于确定语音识别结果中的词序出现的概率;依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果。

3、可选地,方言对应的语言模型通过以下方式训练得到:将普通话语料转换成的方言语料确定为训练方言对应的语言模型所需的训练语料;依据训练语料对方言对应的语言模型进行训练,得到方言模型。

4、可选地,声学模型通过以下方式训练得到:获取用于训练声学模型的训练音频信息,并提取训练音频信息中的训练音频特征;将训练音频特征输入待训练的声学模型进行训练,得到训练好的声学模型,其中,声学模型包括两个输出层,一个输出层用于通过方言分类器进行方言分类,另一个输出层用于通过语音识别模型进行语音识别。

5、可选地,方言分类器所使用的交叉熵损失函数由类别数量、二元指示器和方言分类器输出的分类预测概率确定,其中,类别数量为方言分类器所能划分的语言的数量,二元指示器用于表示方言分类器的划分结果是否正确。

6、可选地,语音识别模型所使用的损失函数由在向语音识别模型输入语音序列时所有对齐方式出现的概率确定,其中,损失函数为所有有效对齐方式概率的负对数似然。

7、可选地,依据方言分类结果确定语言模型,包括:在方言分类结果为普通话的情况下,确定语言模型为普通话模型,其中,普通话模型用于将普通话识别成文字;在方言分类结果为方言的情况下,确定语言模型为方言模型,其中,方言模型用于将方言识别成文字。

8、可选地,依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果,包括:将后验概率取对数后得到第一概率值;将语言模型概率取对数后得到第二概率值;将第一概率值和第二概率值相加后得到语音信息的目标识别结果。

9、根据本申请实施例的另一方面,还提供了一种语音识别的装置,包括:获取模块,用于获取流式语音场景中的语音信息,其中,语音信息包括普通话和方言;第一识别模块,用于采用训练好的声学模型对语音信息进行识别,得到识别结果,其中,识别结果包括方言分类结果和语音识别结果;第二识别模块,用于依据方言分类结果确定语言模型,并依据语言模型对语音识别结果进行识别,得到语言模型概率,其中,语言模型概率用于确定语音识别结果中的词序出现的概率;确定模块,用于依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果。

10、根据本申请实施例的又一方面,还提供了一种电子设备,包括:存储器,用于存储程序指令;存储器,与存储器连接,用于执行实现以下功能的程序指令:获取流式语音场景中的语音信息,其中,语音信息包括普通话和方言;采用训练好的声学模型对语音信息进行识别,得到识别结果,其中,识别结果包括方言分类结果和语音识别结果;依据方言分类结果确定语言模型,并依据语言模型对语音识别结果进行识别,得到语言模型概率,其中,语言模型概率用于确定语音识别结果中的词序出现的概率;依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果。

11、根据本申请实施例的再一方面,还提供了一种非易失性存储介质,该非易失性存储包括存储的计算机程序,其中,该非易失性存储介质所在设备通过运行计算机程序执行上述语音识别的方法。

12、在本申请实施例中,通过获取流式语音场景中的语音信息,其中,语音信息包括普通话和方言;采用训练好的声学模型对语音信息进行识别,得到识别结果,其中,识别结果包括方言分类结果和语音识别结果;依据方言分类结果确定语言模型,并依据语言模型对语音识别结果进行识别,得到语言模型概率,其中,语言模型概率用于确定语音识别结果中的词序出现的概率;依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果,达到了在流式语音场景下实现普通话和方言之间的快速切换并识别语音的目的,从而实现了提高识别准确性以及增加流式语音识别用户体验的技术效果,进而解决了相关技术中的多语音识别方法基于基础模型叠加方言分类器判断选择具体方言模型,降低流式语音识别的体验的技术问题。

技术特征:

1.一种语音识别的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,方言对应的语言模型通过以下方式训练得到:

3.根据权利要求1所述的方法,其特征在于,所述声学模型通过以下方式训练得到:

4.根据权利要求3所述的方法,其特征在于,所述方言分类器所使用的交叉熵损失函数由类别数量、二元指示器和所述方言分类器输出的分类预测概率确定,其中,所述类别数量为所述方言分类器所能划分的语言的数量,所述二元指示器用于表示所述方言分类器的划分结果是否正确。

5.根据权利要求3所述的方法,其特征在于,所述语音识别模型所使用的损失函数由在向所述语音识别模型输入语音序列时所有对齐方式出现的概率确定,其中,所述损失函数为所有有效对齐方式概率的负对数似然。

6.根据权利要求1所述的方法,其特征在于,依据所述方言分类结果确定语言模型,包括:

7.根据权利要求1所述的方法,其特征在于,依据所述声学模型对所述语音信息进行识别得到的后验概率和所述语言模型概率,确定所述语音信息的目标识别结果,包括:

8.一种语音识别的装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的语音识别的方法。

技术总结本申请公开了一种语音识别的方法、装置及电子设备。其中,该方法包括:获取流式语音场景中的语音信息,其中,语音信息包括普通话和方言;采用训练好的声学模型对语音信息进行识别,得到识别结果,其中,识别结果包括方言分类结果和语音识别结果;依据方言分类结果确定语言模型,并依据语言模型对语音识别结果进行识别,得到语言模型概率,其中,语言模型概率用于确定语音识别结果中的词序出现的概率;依据声学模型对语音信息进行识别得到的后验概率和语言模型概率,确定语音信息的目标识别结果。本申请解决了相关技术中的多语音识别方法基于基础模型叠加方言分类器判断选择具体方言模型,降低流式语音识别的体验的技术问题。技术研发人员:夏光敏,康健,李杰受保护的技术使用者:中国电信股份有限公司技术研发日:技术公布日:2024/3/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/22339.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。