技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、电子设备和可读介质与流程  >  正文

语音识别方法、装置、电子设备和可读介质与流程

  • 国知局
  • 2024-06-21 11:36:47

本申请涉及计算机,尤其涉及一种语音识别方法、装置、电子设备和可读介质。

背景技术:

1、随着全行业的数字化转型推进,智能语音识别技术在客户服务中被广泛的应用。随着个性化服务需求扩大,大型呼叫中心需要提供多语种和多方言的服务。

2、在相关技术中,大型呼叫中心通常需要部署针对于不同语言和不同方言的语音识别引擎,并且通过适配层或者适配器根据需要识别的语音调用对应的识别引擎。

3、然而,在此过程中,对于口音或者特征比较接近的语音,适配器经常会出现适配失败或者匹配的识别引擎不准而导致调用的识别引擎与需要识别的语音的匹配程度不高,降低了语音识别结果的准确性。

技术实现思路

1、基于上述技术问题,本申请提供一种语音识别方法、装置、电子设备和可读介质,以避免对于口音或者特征接近的语音由于适配的识别引擎不准而导致的识别结果不准,提高了语音识别结果的准确性。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请实施例的一个方面,提供一种语音识别方法,包括:

4、获取语音数据;

5、将所述语音数据与声纹特征库中的声纹特征进行特征匹配,得到目标声纹特征,所述声纹特征库中包括至少一个声纹特征,每个声纹特征对应于一个声学模型;

6、通过所述目标声纹特征对应的目标声学模型和所述目标声学模型的m 个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,其中,所述m为大于或者等于1的整数,所述m个相似声学模型的声纹特征与所述目标声纹特征相似。

7、在本申请的一些实施例中,基于以上技术方案,通过所述目标声纹特征对应的目标声学模型和所述目标声学模型的m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,包括:

8、获取所述目标声纹特征对应的目标声学模型;

9、根据模型相似关系,获取与所述目标声学模型相似的m个相似声学模型;

10、根据所述目标声学模型和所述m个相似声学模型,生成语音识别策略,所述语音识别策略用于指示所述目标声学模型和所述m个相似声学模型的执行顺序;

11、按照所述语音识别策略,通过所述目标声纹特征对应的目标声学模型和 m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果。

12、在本申请的一些实施例中,基于以上技术方案,所述按照所述语音识别策略,通过所述目标声纹特征对应的目标声学模型和m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,包括:

13、通过所述目标声学模型对所述语音数据进行语音识别,得到第一识别结果;

14、根据所述m个相似声学模型分别对述语音数据进行语音识别,得到m 个第二识别结果;

15、根据所述m个第二识别结果对所述第一识别结果进行修正,得到语音识别结果。

16、在本申请的一些实施例中,基于以上技术方案,所述根据模型相似关系,获取与所述目标声学模型相似的m个相似声学模型之前,所述方法还包括:

17、对于所述声纹特征库中的特定声纹特征,确定所述特定声纹特征与n-1 个其他声纹特征之间的声纹相似度;

18、确定与所述特定声纹特征的声纹相似度最高的m个其他声纹特征;

19、对于所述特定声纹特征对应的特定声学模型,将所述m个其他声纹特征对应的m个声学模型确定为所述特定声学模型的m个相似声学模型,得到所述模型相似关系。

20、在本申请的一些实施例中,基于以上技术方案,所述将所述语音数据与声纹特征库中的声纹特征进行特征匹配,得到目标声纹特征之前,所述方法还包括:

21、获取n个声学模型,所述n个声学模型中每个声学模型用于识别一种语言或者一种口音的语音信息,所述n为大于或等于m+1的整数;

22、分别提取所述n个声学模型的声纹特征,得到所述声纹特征库。

23、在本申请的一些实施例中,基于以上技术方案,所述分别提取所述n个声学模型的声纹特征,得到所述声纹特征库之后,所述方法还包括:

24、获取对应于所述n个声学模型中待更新声学模型的更新训练数据;

25、根据所述更新训练数据,对所述待更新声学模型进行训练和模型参数更新,得到更新后的声学模型;

26、提取所述更新后的声学模型的更新声纹特征,并利用所述更新声纹特征替代所述声纹特征库中所述待更新声学模型的声纹特征。

27、在本申请的一些实施例中,基于以上技术方案,所述根据所述目标声学模型和所述m个相似声学模型,生成语音识别策略,包括:

28、从声学资源索引中获取所述目标声学模型和所述m个相似声学模型的模型访问地址;

29、按照所述目标声学模型与所述m个相似声学模型之间的声纹相似度的顺序,确定所述目标声学模型与所述m个相似声学模型的执行顺序;

30、根据所述执行顺序,将所述模型访问地址排序,生成语音识别策略。

31、根据本申请实施例的一个方面,提供一种语音识别装置,包括:

32、数据获取模块,用于获取语音数据;

33、特征匹配模块,用于将所述语音数据与声纹特征库中的声纹特征进行特征匹配,得到目标声纹特征,所述声纹特征库中包括至少一个声纹特征,每个声纹特征对应于一个声学模型;

34、语音识别模块,用于通过所述目标声纹特征对应的目标声学模型和所述目标声学模型的m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,其中,所述m为大于或者等于1的整数,所述m个相似声学模型的声纹特征与所述目标声纹特征相似。

35、根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的语音识别方法。

36、根据本申请实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的语音识别方法。

37、在本申请的实施例中,在进行语音识别时,会根据语音数据与各个声学模型的声纹特征的匹配程度确定目标声学模型,并且根据目标声学模型可以获得声纹特征相似的相似声学模型,通过目标声学模型和相似声学模型一起对语音数据进行识别,从而避免对于口音或者特征接近的语音由于适配的识别引擎不准而导致的识别结果不准,提高了语音识别结果的准确性。

38、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

技术特征:

1.一种语音识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过所述目标声纹特征对应的目标声学模型和所述目标声学模型的m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,包括:

3.根据权利要求2所述的方法,其特征在于,所述按照所述语音识别策略,通过所述目标声纹特征对应的目标声学模型和m个相似声学模型,对所述语音数据进行语音识别,得到语音识别结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据模型相似关系,获取与所述目标声学模型相似的m个相似声学模型之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述将所述语音数据与声纹特征库中的声纹特征进行特征匹配,得到目标声纹特征之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述分别提取所述n个声学模型的声纹特征,得到所述声纹特征库之后,所述方法还包括:

7.根据权利要求4所述的方法,其特征在于,所述根据所述目标声学模型和所述m个相似声学模型,生成语音识别策略,包括:

8.一种语音识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法。

技术总结本申请提供一种语音识别方法、装置、电子设备和可读介质。该方法包括:获取语音数据;将语音数据与声纹特征库中的声纹特征进行特征匹配,得到目标声纹特征,声纹特征库中包括至少一个声纹特征,每个声纹特征对应于一个声学模型;通过目标声纹特征对应的目标声学模型和目标声学模型的M个相似声学模型,对语音数据进行语音识别,得到语音识别结果,其中,M为大于或者等于1的整数,M个相似声学模型的声纹特征与目标声纹特征相似。该方法能够避免对于口音或者特征接近的语音由于适配的识别引擎不准而导致的识别结果不准,提高了语音识别结果的准确性。技术研发人员:俞科峰,仝建刚,李嫚,吴滢,陈梦夏受保护的技术使用者:中国电信股份有限公司技术研发日:技术公布日:2024/3/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/22411.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。