技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种针对方言口音环境的语音纠错方法 > 正文

一种针对方言口音环境的语音纠错方法

国知局
2024-06-21 11:48:07

本发明涉及计算机深度学习领域，具体涉及一种针对方言口音环境的语音纠错方法。

背景技术：

1、随着语音识别技术的不断发展，人工智能在语音处理领域取得了显著进展。然而，在方言口音复杂环境下，通用语音模型的语音识别问题仍然具有挑战性。方言口音的特殊性导致传统语音识别系统难以准确识别语音，并且在处理方言口音时容易出现错误。为了解决这一问题，本领域的研究者们提出了各种不同的语音处理方法，包括基于深度学习的语音识别技术和语音纠错技术。

2、传统的语音识别系统通常基于大规模标准语言的语料库进行训练，这导致在方言口音环境下识别准确度的下降。为了提高在方言口音环境下的语音识别准确度，研究者们引入自然语言处理(nlp)领域的最新技术，如bert模型，bert代表来自transformer的双向编码器表示(bidirectional encoder representations from transformers)。bert模型是一种基于深度学习的预训练语言模型，具有强大的上下文理解能力。然而，在处理方言口音时，传统的bert模型仍然存在一定的局限性。如何将方言口音环境下的语音转换为准确的文本，是目前需要解决的问题。

技术实现思路

1、为解决现有技术所存在的技术问题，本发明提供的一种针对方言口音环境的语音纠错方法，采用bert模型对文本序列进行编码，并利用编码后的特征向量对语音纠错模型进行训练，使语音纠错模型具有更强的泛化能力，可以将方言口音环境下的语音转换为准确的文本。

2、本发明可以通过采取如下技术方案达到：

3、一种针对方言口音环境的语音纠错方法，包括：

4、s1、获取待识别的方言语音数据并进行预处理，得到预处理后的待识别的方言语音序列；

5、s2、构建通用语音模型，通过通用语音模型对待识别的方言语音序列进行识别，得到相应的文本序列与发音序列；

6、s3、构建并训练语音纠错模型，将文本序列与发音序列输入到训练好的语音纠错模型中，对文本序列与发音序列进行编码得到语言信息特征向量和方言口音特征向量，根据语言信息特征向量和方言口音特征向量输出目标文本序列。

7、具体地，所述步骤s2包括：

8、s21、构建方言语料库数据集，通过方言语料库数据集来训练通用语音识别模型得到通用语音模型；

9、s22、将待识别的方言语音序列输入通用语音模型，获取与对待识别方言语音相应的文本序列，根据文本序列获取对应的方言发音序列。

10、具体地，所述方言语料库数据集包括方言口音的语音数据和对应的文本数据、发音数据；所述通用语音识别模型为wenet模型或paraformer模型。

11、具体地，所述构建并训练语音纠错模型，包括：

12、通过方言语料库数据集获取包含方言口音的语音数据、对应的文本数据以及发音数据，从方言口音的发音数据获取方言发音序列的原始样本；

13、根据编辑距离来训练模糊音生成器，将方言发音序列的原始样本输入模糊音生成器，生成方言发音序列的模糊音样本；

14、通过bert模型获取原始样本的特征向量和模糊音样本的特征向量，对原始样本和模糊音样本的语音特征进行建模得到语音纠错模型。

15、具体地，所述根据编辑距离来训练模糊音生成器，将方言发音序列原始样本输入模糊音生成器，生成模糊音样本，包括：定义模糊音的等级和候选集，使用方言发音序列的原始样本训练模糊音生成器，调整模糊音生成器的超参数，基于编辑距离衡量标准发音与方言口音之间的差异，使模糊音生成器生成的模糊音分布接近真实方言差异的分布，通过模糊音生成器生成与方言发音序列原始样本具有方言差异的模糊音样本。

16、具体地，所述通过bert模型获取原始样本的特征向量和模糊音样本的特征向量，对原始样本和模糊音样本的语音特征进行建模得到语音纠错模型，包括：

17、基于bert模型，根据每个原始样本的文本序列数据生成文本的语言信息特征向量，根据每个模糊音样本和原始样本中的发音序列数据分别生成模糊音样本的方言口音特征向量、原始样本的方言口音特征向量；

18、将模糊音样本的方言口音特征向量、原始样本的方言口音特征向量进行拼接，并通过softmax层计算交叉熵损失；

19、使用梯度下降算法或者adam算法进行反向传播，调整bert模型纠错判别器的权重参数、偏差参数和结构参数，得到语音纠错模型。

20、具体地，所述语音纠错模型包括：检错网络模块和纠错网络模块，检错网络模块，用于根据文本序列的语言信息特征向量判断文本序列的文本词汇是否存在错误的概率，如果存在，则将该文本词汇进行标记；纠错网络模块，用于根据bert模型的上下文信息对被标记的文本词汇进行纠错操作，对计算被标记单词与上下文中每个文本词汇之间的相似度或相关性，选择相似度或相关性最高的文本词汇作为正确的文本词汇。

21、具体地，所述对文本序列与发音序列进行编码得到语言信息特征向量和方言口音特征向量，根据语言信息特征向量和方言口音特征向量输出目标文本序列；包括：

22、对文本序列进行分词，采用词嵌入的方式将拆分后的词转换为对应的词向量，通过每个词向量捕获该词的语义和上下文信息，根据词的语义和上下文信息将各个词向量组合起来形成文本的语言信息特征向量；对发音序列用声学特征提取方法将发音序列转换成向量表示；语音纠错模型根据语言信息特征向量和方言口音特征向量生成最终目标文本序列。

23、具体地，还包括：利用训练好的语音纠错模型再训练一个压缩语音纠错模型，将文本序列与发音序列输入到压缩语音纠错模型，快速输出目标文本序列。

24、具体地，所述利用训练好的语音纠错模型再训练一个压缩语音纠错模型，包括：

25、将训练好的语音纠错模型作为教师模型，初始化一个比教师模型小的文本序列语音纠错模型作为学生模型；

26、将教师模型和学生模型同时对相同的方言口音环境下文本序列进行编码，得到教师模型编码后的特征向量和学生模型编码后的特征向量；

27、根据教师模型编码后的特征向量和学生模型编码后的特征向量计算损失函数，该损失函数用于衡量学生模型与教师模型之间的差异；

28、根据损失函数对学生模型进行优化，通过调整学生模型的参数使得学生模型的输出概率分布逐渐逼近教师模型的输出概率分布，收敛的学生模型作为压缩语音纠错模型

29、本发明与现有技术相比，具体如下优点和有益效果：

30、本发明提供的一种针对方言口音环境的语音纠错方法，针对方言口音环境，对通用语音模型进行训练，使其能适应方言特有词汇的识别与纠错；采用bert模型对文本序列进行编码，并利用编码后的特征向量对语音纠错模型进行训练，使语音纠错模型具有更强的泛化能力，可以将方言口音环境下的语音转换为准确的文本。本发明方法采用知识蒸馏技术对语音纠错模型进行压缩，降低模型的复杂度得到压缩语音纠错模型，提高模型的运行效率。