技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于端到端的跨语言大模型的语音识别方法、装置及设备与流程  >  正文

基于端到端的跨语言大模型的语音识别方法、装置及设备与流程

  • 国知局
  • 2025-01-10 13:35:08

本技术涉及人工智能,特别是涉及一种基于端到端的跨语言大模型的语音识别方法、装置及设备。

背景技术:

1、语音识别技术是将语音信号自动转换为文本的过程,作为人与机器交互的重要技术之一,其广泛应用于智能助手、语音控制等领域。语音识别的流程一般包括以下几个步骤:

2、(1)语音信号采集:通过话筒输入语音信号,将声波转换为电压信号,再通过a/d(模拟数字转换)装置进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

3、(2)特征提取:从采集到的语音信号中提取出关键特征,例如声学特征、时间特征、序列特征等,这些特征是后续语音识别模型进行分析和处理的基础,能够反映语音信号中的主要信息。

4、(3)模型训练:语音识别系统的核心在于模型训练。传统的两阶段模型包括声学模型和语言模型。声学模型将提取的声学特征与语音信号的物理特征对应,从而为每个声学单元打分。语言模型则基于语言学理论,预测不同词语或词组序列的概率,帮助理解并生成符合上下文的文本。模型训练通常使用大规模数据集,通过预训练模型或统计方法提高模型的识别准确度和泛化能力。

5、(4)解码:解码阶段通过结合声学模型和语言模型的结果,生成最有可能的文本输出,最终完成语音到文本的转换。

6、随着深度学习技术的发展,声学模型和语言模型也从传统的隐马尔可夫系列模型逐渐转为基于大模型神经网络的深度学习模型,基于深度学习的声学和语言模型在处理复杂语音信号时表现出了显著的性能提升。但是由于两阶段模型的架构设计,使得声学模型和语言模型之间存在特征不匹配的问题,限制了模型的识别上限。

7、为了解决这一问题,近年来出现了端到端语音识别模型,例如paraformer等。与传统两阶段模型不同,端到端模型通过直接将输入的语音信号映射到输出文本,减少了中间步骤带来的误差累积。然而,这类模型在处理新词、热词以及跨语言识别等场景时,依然面临一定的挑战。为了提高其在这些领域的性能,往往需要引入额外的语言模型进行辅助解码。

8、因此,虽然语音识别技术在深度学习的推动下取得了显著进步,但在准确性、泛化能力和跨语言适应性方面,依然有很大的优化空间。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于端到端的跨语言大模型的语音识别方法、装置及设备。

2、一种基于端到端的跨语言大模型的语音识别方法,所述方法包括:

3、构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

4、获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

5、将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本。

6、在其中一个实施例中,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量,包括:

7、语音编码模块由过滤器特征提取模块、wav2vec2预训练模型和特征拼接模块组成;

8、过滤器特征提取模块用于对输入的语音信号依次进行预加重、分帧、加窗、快速傅里叶变换、梅尔谱滤波以及对数运算处理,输出得到过滤器特征;

9、wav2vec2预训练模型用于对输入的语音信号依次进行卷积编码和上下文表征,输出得到wav2vec2特征;

10、特征拼接模块用于对过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量。

11、在其中一个实施例中,wav2vec2预训练模型由编码器网络、上下文网络以及离散化网络组成;

12、编码器网络通过若干个卷积层对输入的语音信号进行特征提取,输出得到卷积特征;上下文网络通过若干个时间步长编码器对卷积特征进行上下文表征,输出得到wav2vec2特征;离散化网络通过对卷积特征进行离散化处理后,根据离散化后的卷积特征与wav2vec2特征计算损失,并根据损失对wav2vec2预训练模型进行训练。

13、在其中一个实施例中,对过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量,包括:

14、通过单个卷积层按照设定的卷积步长对过滤器特征进行特征维度卷积变换,得到变换后的过滤器特征;

15、基于变换后的过滤器特征的特征维度,对wav2vec2特征进行设定步长的邻近点融合,得到变换后的wav2vec2特征,并保持变换后的过滤器特征与变换后的wav2vec2特征的特征维度一致;

16、对变换后的过滤器特征与变换后的wav2vec2特征进行拼接,输出得到语音特征向量。

17、在其中一个实施例中,特征对齐模块采用多层感知机将语音特征向量的维度映射为文本嵌入特征向量的维度,保持二者的维度一致。

18、在其中一个实施例中,解码模块在对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接后,将得到的拼接特征向量输入大语言模型进行解码翻译,输出得到目标语言的语音识别文本。

19、一种基于端到端的跨语言大模型的语音识别装置,所述装置包括:

20、模型构建单元,用于构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

21、模型训练单元,用于获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

22、语音识别单元,用于将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本。

23、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

24、构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

25、获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

26、将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本。

27、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

28、构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

29、获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

30、将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本。

31、上述基于端到端的跨语言大模型的语音识别方法、装置及设备,相较于现有技术,具备以下技术效果:

32、1、本技术引入跨语言识别提示词拼接到文本标签前端,基于跨语言识别提示词可在模型训练过程中,提示模型将文本标签翻译为目标语言的文本,使得构建的跨语言大模型具备多语言识别的能力,即可以将一个语言的音频识别为另一个语言的文本。并且,跨语言识别提示词会影响到跨语言大模型的每一层参数学习,但是不会增加额外的学习参数,简化了模型的设计和训练过程。

33、2、本技术采用过滤器特征与wav2vec2特征联合提取的方法进行语音特征提取,两种方式联合提取能够获得更加全面和多样化的语音特征,可以更好地适应不同语言的识别任务需求。并且通过对两种语音特征进行特征维度的拼接,组合了过滤器特征中的基础声学特性和wav2vec2特征中的高级语义特性,使得模型在训练过程中能够利用更多的信息进行学习,无需进行语言模型的迭代更新以及热词新词发现等辅助工作,提升了语音特征表示的能力,显著提升了语音识别的准确度以及鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20250110/354041.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。