技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程  >  正文

语音识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:39:51

本公开涉及计算机,具体地,涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术:

1、随着人工智能技术的发展,出现了许多不同功能的智能机器人,其中,用于语音交互的机器人应用广泛,但语音交互机器人可能会面临比较复杂的使用场景,大多数用户可以使用普通话与机器人进行交互,但是目前仍然存在大量群体讲方言,对机器人识别语言,进行语音交互带来了困难。

技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种语音识别方法、装置、电子设备及存储介质。

2、根据本公开实施例的第一方面,提供一种语音识别方法,所述方法包括:

3、将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本;

4、根据所述普通话文本生成对应的回复文本;

5、根据所述回复文本合成普通话回复语音,并输出所述普通话回复语音。

6、可选地,在所述将获取到的目标语音利用训练好的语音识别模型转换为文本结果之前,所述方法还包括:

7、从数据集中获取样本语音数据;其中,所述数据集中包括多个样本语音数据以及对应的标签,所述标签中包含对应样本语音数据的实际文本;

8、根据所述样本语音数据和预设的语音识别模型,得到所述样本语音数据的识别文本;

9、根据所述识别文本和所述实际文本确定损失值;

10、当所述损失值小于预设阈值时,得到训练好的语音识别模型;

11、当所述损失值大于或等于所述预设阈值时,调整所述预设的语音识别模型的参数,并在调整所述参数后,再次执行所述根据所述样本语音数据和预设的语音识别模型,得到所述样本语音数据的识别文本,至所述根据所述识别文本和所述实际文本确定损失值的步骤,直至所述损失值小于所述预设阈值。

12、可选地,所述预设的语音识别模型包括编码器和解码器,所述根据所述样本语音数据和预设的语音识别模型,得到所述样本语音数据的识别文本,包括:

13、对所述样本语音数据进行特征提取,得到声音特征;

14、通过所述编码器得到所述声音特征的编码结果;

15、通过所述解码器将所述编码结果进行解码,得到所述识别文本。

16、可选地,所述根据所述识别文本和所述实际文本确定损失值,包括:

17、将所述识别文本和所述实际文本输入损失计算模型,以通过所述损失计算模型计算得到所述损失值。

18、可选地,所述预设的语音识别模型包括编码器和解码器,所述当所述损失值大于或等于所述预设阈值时,调整所述预设的语音识别模型的参数,包括:

19、当所述损失值大于或等于所述预设阈值时,根据所述损失值更新所述编码器和所述解码器的参数。

20、可选地,所述根据所述损失值更新所述编码器和所述解码器的参数,包括:

21、根据所述损失值,利用优化器更新所述编码器和所述解码器的参数。

22、可选地,所述训练好的语音识别模型包括训练好的编码器和训练好的解码器,所述将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本,包括:

23、对所述目标语音进行特征提取,得到目标特征;

24、通过所述训练好的编码器得到所述目标特征的编码结果;

25、通过所述训练好的解码器将所述目标特征的编码结果进行解码,得到所述普通话文本。

26、根据本公开实施例的第二方面,提供一种语音识别装置,所述装置包括:

27、文本转换模块,用于将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本;

28、文本生成模块,用于根据所述普通话文本生成对应的回复文本;

29、语音输出模块,用于根据所述回复文本合成普通话回复语音,并输出所述普通话回复语音。

30、根据本公开实施例的第三方面,提供一种语音识别装置,包括:处理器;用于存储处理器可执行指令的存储器;

31、其中,所述处理器被配置为:执行所述可执行指令以实现上述第一方面中的任一实施方式所述的语音识别方法的步骤。

32、根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时实现本公开第一方面所述的语音识别方法的步骤。

33、本公开的实施例提供的技术方案可以包括以下有益效果:

34、在上述技术方案中,将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本;根据该普通话文本生成对应的回复文本;根据回复文本合成普通话回复语音,并输出普通话回复语音。通过上述技术方案,利用训练好的语音识别模型对方言语音进行识别,并转换成普通话文本,以使机器人通过识别普通话文本,从而识别方言语音,并根据普通话文本生成对应的普通话回复语音,从而解决了方言难以识别给语音交互机器人带来的问题。

35、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

技术特征:

1.一种语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述将获取到的目标语音利用训练好的语音识别模型转换为文本结果之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述预设的语音识别模型包括编码器和解码器,所述根据所述样本语音数据和预设的语音识别模型,得到所述样本语音数据的识别文本,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述识别文本和所述实际文本确定损失值,包括:

5.根据权利要求2所述的方法,其特征在于,所述预设的语音识别模型包括编码器和解码器,所述当所述损失值大于或等于所述预设阈值时,调整所述预设的语音识别模型的参数,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述损失值更新所述编码器和所述解码器的参数,包括:

7.根据权利要求1所述的方法,其特征在于,所述训练好的语音识别模型包括训练好的编码器和训练好的解码器,所述将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本,包括:

8.一种语音识别装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1~7中任一项所述的语音识别方法的步骤。

技术总结本公开涉及一种语音识别方法、装置、电子设备及存储介质,涉及计算机技术领域,该方法包括:将获取到的包含方言语音的目标语音利用训练好的语音识别模型转换为普通话文本;根据该普通话文本生成对应的回复文本;根据回复文本合成普通话回复语音,并输出普通话回复语音。通过上述技术方案,利用训练好的语音识别模型对方言语音进行识别,并转换成普通话文本,以使机器人通过识别普通话文本,从而识别方言语音,并根据普通话文本生成对应的普通话回复语音,从而解决了方言难以识别给语音交互机器人带来的问题。技术研发人员:袁桦,车云飞受保护的技术使用者:达闼机器人股份有限公司技术研发日:技术公布日:2024/1/22

本文地址:https://www.jishuxx.com/zhuanli/20240618/21053.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。