技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备及存储介质与流程  >  正文

语音识别方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:56:37

本发明涉及信号处理,具体地,涉及一种语音识别方法、语音处理方法、语音识别装置、语音处理装置、电子设备、存储介质以及计算机程序产品。

背景技术:

1、语音识别技术就是将人的声音转化为对应的文字的语音处理技术。传统的语音识别方法主要包括基于模板匹配的方法和基于统计模式识别的方法,这类方法难以处理变化性大的语音,识别率不高。

2、现在已经出现了基于深度神经网络的端到端语音识别技术,该深度神经网络如卷积神经网络(cnn)、循环神经网络(rnn)等,其能够端到端自动学习语音时序信息,相比传统的语音识别方法识别能力更强。但是其语音识别的准确度仍然难以让人满意。

技术实现思路

1、考虑到上述问题而提出了本发明。

2、根据本发明第一方面,提供了一种语音识别方法。所述方法包括:获取语音信号的语音特征;将所述语音特征输入声学模型的编码器,以确定多个特征向量,所述编码器包括串联连接的多个网络块,所述多个特征向量分别由所述多个网络块中的不同网络块输出;融合所述多个特征向量中的至少两个特征向量,以获得融合向量;根据所述融合向量,确定所述语音信号的声学单位的概率分布。

3、示例性地,所述融合所述多个特征向量中的至少两个特征向量,以获得融合向量,包括:将所述至少两个特征向量直接进行拼接,并将拼接后的结果作为所述融合向量。

4、示例性地,所述融合所述多个特征向量中的至少两个特征向量,以获得融合向量,包括:将所述至少两个特征向量进行加权求和,以获得所述融合向量。

5、示例性地,所述将所述至少两个特征向量进行加权求和,以获得所述融合向量,包括:将所述至少两个特征向量输入自适应权重层,以利用所述自适应权重层中的节点的权重对所述至少两个特征向量进行加权求和得到所述融合向量,所述自适应权重层连接于所述编码器之后并且与所述声学模型一起训练而获得。

6、示例性地,所述声学模型还包括连接在所述编码器后面的多个解码器,所述根据所述融合向量,确定所述语音信号的声学单位的概率分布,包括:将所述融合向量输入多个解码器进行评估,以得到评估结果;基于所述评估结果确定所述语音信号的声学单位的概率分布。

7、示例性地,所述多个解码器包括串联连接的联接主义时序分类解码器和注意力解码器,所述将所述融合向量输入多个解码器进行评估,以得到评估结果,包括:将所述融合向量输入所述联接主义时序分类解码器进行评估,以得所述融合向量的第一最优结果;将所述第一最优结果输入所述注意力解码器进行评估,以得到作为所述评估结果的第二最优结果。

8、示例性地,所述基于所述评估结果确定所述语音信号的声学单位的概率分布,包括:根据所述评估结果和先验知识确定所述语音信号的声学单位的概率分布,所述先验知识用于确定所述语音信号的声学单位的权重。

9、示例性地,所述获取语音信号的语音特征,包括:获取所述语音信号;对所述语音信号进行滤波器组特征提取,并将所提取的结果进行降采样,以得到所述语音信号的语音特征。

10、根据本发明第二方面,提供了一种语音处理方法。所述方法包括:利用上述语音识别方法确定语音信号的声学单位的概率分布;基于所述语音信号的声学单位的概率分布,对所述语音信号进行语音处理。

11、示例性地,所述语音处理方法还包括:将所述语音特征输入语言模型,以获得所述语音信号的文本的概率分布;

12、所述基于所述语音信号的声学单位的概率分布,对所述语音信号进行语音处理,包括:基于所述声学单位的概率分布和所述文本的概率分布,确定所述语音信号对应的文本信息。

13、根据本发明第三方面,还提供了一种语音识别装置,包括:

14、特征提取模块,用于获取语音信号的语音特征;

15、向量确定模块,用于将所述语音特征输入声学模型的编码器,以确定多个特征向量,所述编码器包括串联连接的多个网络块,所述多个特征向量分别由所述多个网络块中的不同网络块输出;

16、向量融合模块,用于融合所述多个特征向量,以获得融合向量;

17、概率确定模块,用于根据所述融合向量,确定所述语音信号的声学单位的概率分布。

18、根据本发明第四方面,提供了一种语音处理装置,包括:

19、特征提取模块,用于获取语音信号的语音特征;

20、向量确定模块,用于将所述语音特征输入声学模型的编码器,以确定多个特征向量,所述编码器包括串联连接的多个网络块,所述多个特征向量分别由所述多个网络块中的不同网络块输出;

21、向量融合模块,用于融合所述多个特征向量,以获得融合向量;

22、概率确定模块,用于根据所述融合向量,确定所述语音信号的声学单位的概率分布;

23、语音处理模块,用于基于所述语音信号的声学单位的概率分布,对所述语音信号进行语音处理。

24、根据本发明第五方面,还提供了一种电子设备,包括:处理器和存储器,其中,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行上述的语音识别方法和/或语音处理方法。

25、根据本发明第六方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,所述程序指令在运行时用于执行上述的语音识别方法和/或语音处理方法。

26、根据本发明第七方面,还提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在运行时用于执行上述的语音识别方法和/或语音处理方法。

27、上述技术方案中,获取语音信号的语音特征,将语音特征输入声学模型的编码器,由多个网络块中的不同网络块输出多个特征向量,融合多个特征向量中的至少两个特征向量,以获得融合向量,并根据融合向量,确定语音信号的声学单位的概率分布。基于多个个网络块中的不同网络块输出多个特征向量融合后的融合向量,可以获得更准确的语音信号的声学单位的概率分布,从而提高语音识别的准确度。

28、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

技术特征:

1.一种语音识别方法,其特征在于,所述语音识别方法包括:

2.根据权利要求1所述的语音识别方法,其特征在于,所述融合所述多个特征向量中的至少两个特征向量,以获得融合向量,包括:

3.根据权利要求1所述的语音识别方法,其特征在于,所述融合所述多个特征向量中的至少两个特征向量,以获得融合向量,包括:

4.一种语音处理方法,其特征在于,包括:

5.根据权利要求4所述语音处理方法,其特征在于,

6.一种语音识别装置,其特征在于,包括:

7.一种语音处理装置,其特征在于,包括:

8.一种电子设备,包括处理器和存储器,其特征在于,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1至3任一项所述的语音识别方法和/或如权利要求4至5任一项所述的语音处理方法。

9.一种存储介质,在所述存储介质上存储了程序指令,其特征在于,所述程序指令在运行时用于执行如权利要求1至3任一项所述的语音识别方法和/或如权利要求4至5任一项所述的语音处理方法。

10.一种计算机程序产品,包括计算机程序指令,其特征在于,所述计算机程序指令在运行时用于执行如权利要求1至3任一项所述的语音识别方法和/或如权利要求4至5任一项所述的语音处理方法。

技术总结本发明提供一种语音识别方法、装置、电子设备及存储介质。该语音识别方法包括:获取语音信号的语音特征;将所述语音特征输入声学模型的编码器,以确定多个特征向量,所述编码器包括串联连接的多个网络块,所述多个特征向量分别由所述多个网络块中的不同网络块输出;融合所述多个特征向量中的至少两个特征向量,以获得融合向量;根据所述融合向量,确定所述语音信号的声学单位的概率分布。本方案可以提高语音识别的准确度。技术研发人员:葛鹏花,李秀林受保护的技术使用者:标贝(青岛)科技有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24628.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。