技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种端到端基于多层信息融合的方言音频识别方法及系统与流程  >  正文

一种端到端基于多层信息融合的方言音频识别方法及系统与流程

  • 国知局
  • 2024-10-15 09:30:35

本技术涉及计算机信息处理领域,具体而言,涉及一种端到端基于多层信息融合的方言音频识别方法、系统、电子设备、计算机可读介质及计算机程序产品。

背景技术:

1、语音识别技术在过去的几十年中取得了显著的进步,尤其是在大规模数据和深度学习模型的推动下。然而,由于发音受到个人生理结构、地域和母语等因素的影响,方言和口音的存在对语音识别系统提出了巨大挑战。标准发音的偏离会导致发音单元(如音素)的建模出现偏差,进而严重影响识别的准确性。在实际应用中,如业务外呼场景中,大量客户的发音带有口音,普通话中的口音识别成为目前语音识别系统面临的主要挑战之一。

2、目前,对方言类音频识别的主流的解决方案主要包括迁移学习和多任务学习。迁移学习是在一个预训练好的通用语音识别模型的基础上,对特定方言数据集进行微调。迁移学习的优点是方法直接,对具有大量训练数据的单一口音方言能取得较好的效果;缺点是对于多种语言混合且每种语言训练资源较少的场景,迁移学习会对不同的语种存在较大的识别差异。多任务学习是在训练过程中,同时进行语音识别和口音识别,通过共享特征表示,增强模型对多种任务的适应性,多任务学习的优点是能够更好地利用多种任务的互补信息,提高模型的泛化能力和鲁棒性;缺点是需要设计复杂的多任务网络架构,并进行同步优化,训练难度较高。

3、因此,需要一种新的端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质。

4、在所述背景技术部分公开的上述信息仅用于加强对本技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、有鉴于此,本技术提供一种端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质,能够对复杂语音信号和多口音特征进行高效捕捉和处理、还能够在线实时进行方言音频的分类及解码,提高了语音识别的准确性和鲁棒性。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术的一方面,提出一种端到端基于多层信息融合的方言音频识别方法,该方法包括:将方言音频进行音频预处理,生成声学特征;将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征;通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征;通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征;将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果。

4、可选地,还包括:将带有方言标签的方言音频进行训练预处理,生成训练融合声学特征;通过交叉注意力机制对所述训练融合声学特征进行交叉融合,生成训练修正声学特征;提取所述训练融合声学特征的口音特征;通过多任务学习模式基于所述训练修正声学特征、所述口音特征对初始端到端方言识别模型进行训练,以生成训练完毕的端到端方言识别模型,所述端到端方言识别模型包括语音识别模型和口音识别模型。

5、可选地,将方言音频进行音频预处理,生成声学特征,包括:对所述方言音频进行特征提取,生成所述方言音频的梅尔倒谱系数特征;对所述梅尔倒谱系数特征进行卷积降采样操作,生成所述方言音频的所述声学特征。

6、可选地,将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征,包括:将所述声学特征输入到编码器中,所述编码器包括多个conformer编码器;多个conformer编码器对所述声学特征进行渐进式降采样操作;通过渐进式降采样操作逐层减少时间维度的冗余生成所述多层细粒度声学特征。

7、可选地,通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征,包括:所述层适应模块提取所述多层细粒度声学特征中每一层的细粒度声学特征;将每一层细粒度声学特征分别进行多层信息融合,生成所述融合声学特征。

8、可选地,通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征,包括:将多层细粒度声学特征作为键值向量,将所述融合声学特征作为查询向量;通过交叉注意力机制进行交叉融合,生成所述修正声学特征。

9、可选地,将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果,包括:将所述修正声学特征输入到端到端方言识别模型中;所述端到端方言识别模型中的语音识别模型和口音识别模型分别对所述修正声学特征进行识别,生成文本识别结果和口音分类标签。

10、可选地,将带有方言标签的方言音频进行训练预处理,生成训练融合声学特征,包括:将带有方言标签的方言音频进行音频预处理,生成训练声学特征;将所述训练声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层训练细粒度声学特征;通过层适应模块对所述训练多层细粒度声学特征进行多层信息融合,生成所述训练融合声学特征。

11、可选地,通过多任务学习模式基于所述训练修正声学特征、所述口音特征对初始端到端方言识别模型进行训练,以生成训练完毕的端到端方言识别模型,所述端到端方言识别模型包括语音识别模型和口音识别模型,包括:确定多任务学习框架,所述多任务学习框架包括交叉信息融合机制、语音识别模型和口音识别模型的;基于所述多任务学习框架通过所述训练修正声学特征对语音识别模型进行训练;基于所述多任务学习框架通过所述口音特征对口音识别模型进行训练;在训练过程中整体损失函数满足设定指标时,生成训练完毕的所述端到端方言识别模型。

12、可选地,基于所述多任务学习框架通过所述口音特征对口音识别模型进行训练,包括:基于所述多任务学习框架将所述口音特征输入口音识别模型中,所述口音识别模型包含两层因果卷积结构和一个线性鉴别器。

13、可选地,在训练过程中整体损失函数满足设定指标时,生成训练完毕的所述端到端方言识别模型,包括:通过语音识别分类损失、解码器注意力损失和口音识别交叉熵损失生成整体损失函数;在每次训练中,均计算当前的语音识别分类损失、解码器注意力损失和口音识别交叉熵损失;在所述语音识别分类损失、所述解码器注意力损失和所述口音识别交叉熵损失分别满足设定指标时,生成训练完毕的所述端到端方言识别模型。

14、根据本技术的一方面,提出一种端到端基于多层信息融合的方言音频识别系统,该系统包括:处理模块,用于将方言音频进行音频预处理,生成声学特征;采样模块,用于将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征;融合模块,用于通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征;修正模块,用于通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征;识别模块,用于将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果。

15、可选地,还包括:预处理模块,用于将带有方言标签的方言音频进行训练预处理,生成训练融合声学特征;交叉模块,用于通过交叉注意力机制对所述训练融合声学特征进行交叉融合,生成训练修正声学特征;特征模块,用于提取所述训练融合声学特征的口音特征;训练模块,用于通过多任务学习模式基于所述训练修正声学特征、所述口音特征对初始端到端方言识别模型进行训练,以生成训练完毕的端到端方言识别模型,所述端到端方言识别模型包括语音识别模型和口音识别模型。

16、根据本技术的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。

17、根据本技术的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。

18、根据本技术的一方面,提出一种计算机程序产品,包括:计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上文中的方法。

19、根据本技术的端到端基于多层信息融合的方言音频识别方法、系统、电子设备及计算机可读介质,通过将方言音频进行音频预处理,生成声学特征;将所述声学特征输入到编码器中,所述编码器对其进行渐进式降采样操作,生成多层细粒度声学特征;通过层适应模块对所述多层细粒度声学特征进行多层信息融合,生成融合声学特征;通过交叉注意力机制对所述融合声学特征进行交叉融合,生成修正声学特征;将所述修正声学特征输入到端到端方言识别模型中,生成方言音频识别结果的方式,能够对复杂语音信号和多口音特征进行高效捕捉和处理、还能够在线实时进行方言音频的分类及解码,提高了语音识别的准确性和鲁棒性。

20、应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314374.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。