技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于Transformer的青岛方言语音识别模型 > 正文

基于Transformer的青岛方言语音识别模型

国知局
2024-06-21 10:40:20

本发明涉及语音识别，具体而言，涉及一种基于transformer的青岛方言语音识别模型。

背景技术：

1、语音识别是一项融合多学科知识的前沿技术，是人机自然交互技术中的关键环节。近年来随着深度学习技术的进一步深入，语音识别技术准确率得以较大提升，被广泛应用在智慧教育、智慧医疗、智慧城市、智能家居、智能汽车等领域。虽然语音识别技术为大多数场景提供了一种便利高效的沟通方式，但仍未实现无限制领域、无限制人群的应用。

2、随着技术的发展以及方言关注度的上升，语音识别技术在方言、口音等场景上也达到了可用状态。尤其在“后疫情”、“远程办公”、“在线政务”和“物联网”的复合背景下，方言语音识别转写需求已覆盖多个应用场景，但这项技术现阶段还存在较多不足，例如在强噪声、超远场、强干扰、多语种、大词汇等情况下，方言语音识别准确度低、响应慢；另外，由于方言本身具有种类多、某一类方言下的子类彼此不相通的特点，现有方言识别技术只能覆盖部分种类方言。

3、就青岛地区方言，尤其是即墨、崂山、城阳等地，其方言口音重，特色明显。由于现有方言识别技术尚未覆盖该地区，在基层访谈、政务应用、智能回访、医疗问诊等场景下存在着不可忽视的方言沟通障碍。因此，亟需开发出一种青岛方言语音识别模型。

技术实现思路

1、本发明的目的在于，针对上述现有不足，提供一种基于transformer的青岛方言语音识别模型，以便充分利用已标注的青岛方言语音数据来加强模型的训练。

2、为解决上述技术问题，本发明提供基于transformer的青岛方言语音识别模型，所述模型包括以下步骤：

3、获取青岛方言语音的语音文件和文本文件作为训练样本建立语料库；

4、语音信号特征提取，提取fbank特征转化成输入序列，输入transformer模型；

5、训练过程利用已建立好的语料库中的语音文件和文本文件进行训练，基于transformer模型得到预训练模型；

6、识别过程是对预训练好的模型，进行语音测试，从而输出识别结果。

7、优选的，所述获取青岛方言语音训练样本建立语料库，包括获取语音文件单元、标注语音文本单元。

8、所述获取语音文件单元是根据相关方言搜集网站(bilibili、喜马拉雅)、书籍(青岛话音档)以及不同人群的人工方言录制获取训练样本，用于构建方言语音语料库，并传递给语音信号特征提取。

9、所述标注语音文本单元，用于对方言语音语料库中的语音进行文本命名及标签标注和规范化处理生成词典，并传递至transformer模型；

10、优选的，所述语音信号特征提取，利用fbank对青岛方言语音数据进行处理，包括预加重、分帧加窗、fft、特征提取：

11、所述预加重，用于使提高后的语音信号在各个频段分布均匀，具体地说，利用一阶高通滤波器提升信号在高频部分的信噪比提高信息能量低的部分；

12、所述分帧加窗，用于提取帧信号，提取时选择重叠分帧处理，每一帧信号得到一个频谱，将所有帧的频谱连接起来形成语谱；

13、所述fft，用于对提取出来的帧信号进行傅里叶变换，并传递给特征提取单元；

14、所述特征提取，用于对fft变换后的音频进行频谱滤波，得到梅尔频率滤波特征并传递至基于transformer得到的预训练青岛方言语音识别模型。

15、优选的，训练过程利用已建立好的语料库中的语音文件和文本文件进行训练，基于transformer模型得到预训练模型，包括：前置处理模块、编码器单元和解码器单元

16、优选的，所述基于transformer的方言语音识别模块包括前置处理模块、编码器和解码器；

17、所述前置处理模块，包括声学前置模块和文本前置模块，声学前置模块用于接收声学特征输入获取声学特征的绝对位置信息，文本前置模块用于接收文本标签输入，位置编码和词嵌入相加转化成输入序列，输入编码器；

18、所述编码器，用于对输入序列进行编码，得到字符向量。编码器包括多头注意力层和全连接层，然后对每个位置的向量分别进行相同的操作，

19、所述解码器，用于对字符向量进行解码，得到输出特征。解码器中有三层，包括两个多头注意力层和一个全连接层。第一个注意力层是利用自注意力学习目标句内部关系，然后前一时刻的输出与编码器传过来的输出结果一起输入到第二个注意力层，用来学习源句与目标句之间的关系。

20、基于transformer的青岛方言语音识别模型包括以下步骤：

21、s1.获取青岛方言语音的语音文件和文本文件作为训练样本建立语料库；

22、

23、s2.语音信号特征提取，提取fbank特征转化成输入序列，输入transformer模型；

24、s3.训练过程利用已建立好的语料库中的语音文件和文本文件进行训练，基于transformer模型得到预训练模型；

25、s4.识别过程是对预训练好的模型，进行语音测试，从而输出识别结果。

26、具体地说，所述步骤s1中获取青岛方言语音训练样本建立语料库，具体包括以下步骤：

27、s1.1青岛方言语音语料库的语音文件是根据相关方言搜集网站(bilibili、喜马拉雅)、书籍(青岛话音档)以及不同人群的人工方言录制获取训练样本，其中语音录制要求青岛本地人，吐字清晰、声音洪亮、发音顺畅，且男女比例均衡，保证在无噪音、回音的环境下进行。录音软件采用cool edit pro语音编辑软件，过程中将采样频率设为16khz，采样精度为16bit，录音保存格式为.wav。录制结束后，对收集的语音进行除噪数据预处理。语音文件传入语音信号特征提取以提取特征参数；

28、s1.2所述青岛方言语音语料库的文本文件是对每条语音样本进行文本命名并进行标签标注，最后对文本进行规范化处理生成词典。

29、所述s2的过程为：

30、s2.1预加重，利用一阶高通滤波器提升信号在高频部分的信噪比提高信息能量低的部分；

31、s2.2分帧加窗，用于提取帧信号，提取时选择重叠分帧处理，每一帧信号得到一个频谱，将所有帧的频谱连接起来形成语谱；

32、s2.3 fft，用于对提取出来的帧信号进行傅里叶变换，并传递给特征提取单元；

33、s2.4特征提取，用于对fft变换后的音频进行频谱滤波，得到梅尔频率滤波特征并传递至基于transformer得到的预训练青岛方言语音识别模型。

34、所述s3的过程为：

35、s3.1声学前置模块用于接收声学特征输入获取声学特征的绝对位置信息，文本前置模块用于接收文本标签输入，位置编码和词嵌入相加转化成输入序列，输入编码器单元；

36、s3.2编码器对输入序列进行编码，得到字符向量；

37、s3.3解码器对字符向量进行解码，得到输出特征。

38、与现有技术相比，本发明的有益效果是：

39、本发明提供一种基于transformer的青岛方言语音识别模型，充分利用多源青岛方言语音数据构建精准规范的青岛方言语料库，加强模型的迭代训练，避免在实际应用中由于缺乏训练样本数据的限制，而导致识别精度不高的情况；此外，采用基于transformer的端到端方言语音识别模型，不仅有强大的序列建模能力，并且可以同时感知到输入序列的全局信息，使模型更具有可解释性。本发明解决了青岛方言与普通话之间交流的翻译问题，使在听到别人讲青岛方言的同时，使用本发明即可立即得到熟悉的普通话文字，能够实现无等待的青岛方言语音实时识别转换，方便使用。