技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型领域适配方法与流程 > 正文

语音识别模型领域适配方法与流程

国知局
2024-06-21 10:40:16

本发明涉及一种语音识别模型领域适配方法，属于语音识别。

背景技术：

1、近些年来，自动语音识别技术有了长足的进步，在通用领域得到了广泛的应用，但语音识别模型领域适配仍然是一项很有挑战的任务。因为语音模型识别在不匹配的领域工作时，错误率会大大提高。领域不匹配的主要原因是模型在训练时学习的语音数据只能覆盖有限的领域，而实际应用时领域是多种多样的，不同领域涉及的语言词汇分布有很大差异，同音、近音等情形更容易出错。通常解决办法是收集特定业务领域的数据集、人工标注，然后对语音识别模型进行再训练(或微调)和评估，如此反复迭代才能得到领域专属模型。

2、常规领域适配方法的困难在于模型微调所需领域内语音数据集规模较大，而高质量人工标注的成本非常高，耗时很长。考虑到实际的成本因素，声学模型不可能频繁进行更新。另外，真实业务领域的语料可能是动态变化的，经常有新增内容。即便是在目标领域经过微调的语音识别模型，也可能在一段时间后性能下降甚至不能接受。

3、因此，需研发更高效率、低成本对语音识别模型进行领域适配的方法。

技术实现思路

1、本发明的目的是克服现有技术存在的不足，提供一种语音识别模型领域适配方法。

2、本发明的目的通过以下技术方案来实现：

3、语音识别模型领域适配方法，特点是：包括以下步骤：

4、s1)准备目标领域语音语料库；

5、s2)利用优势模型与劣势模型生成伪校正数据集；

6、利用表现较好与表现较差的模型对目标领域的语料库进行批量识别，得到不同错字率的识别结果，将较差结果对应到较优结果形成纠错伪校正数据集；

7、s3)利用伪校正数据集训练校正模型；

8、校正模型用于将次优结果纠正为更优结果，为文本编码器与声学编码器和解码器结构；采用串行组合策略，先处理文本编码器输出，再处理声学编码器输出；先用文本编码器和解码器训练校正模型，然后冻结解码器的参数，用声学编码器在相同数据集上训练校正模型，使声学编码器生成类似于隐含文本特征的声学特征；将三个预训练模块组合起来，按其结构联合训练，得到校正模型；利用校正模型对步骤s2)得到的伪校正数据集进行纠正，得到新的伪数据集；

9、s4)利用优势模型的预测结果自训练；

10、优势模型进行自训练，得到一个新的语音识别优势模型，提升优势模型在目标领域的预测性能；

11、s5)迭代更新优势模型与校正模型；

12、经过步骤s4)得到一个新的语音识别优势模型，执行步骤s2)生成新的伪校正数据集，然后经过步骤s3)得到新的校正模型，完成一轮迭代；经过多轮迭代后，提升模型在目标领域的测试性能，保存备用；

13、s6)利用级联方式进行推理；

14、对于需推理的声音样本，利用步骤s4)得到的自训练模型获取初步识别文本；然后利用步骤s3)得到的校正模型进行纠正，即可得到最终识别文本。

15、进一步地，上述的语音识别模型领域适配方法，其中，在需要适配的业务领域，收集真实场景的语音数据，并结合公开数据集的技术标准进行规范化处理；如果目标领域有公开数据集，经检查筛选后加入到语料库。

16、进一步地，上述的语音识别模型领域适配方法，其中，经过声道分离、vad切分、采样率归一化、时长过滤的处理得到目标领域未标注的语音语料库。

17、进一步地，上述的语音识别模型领域适配方法，其中，步骤s2)，包含以下步骤：

18、s21)从语音识别模型中选择优势模型与劣势模型；

19、评判多个模型在目标领域语音上的性能优劣，选择1个错字率低的作为优势模型，选择至少1个错字率略高的作为劣势模型；

20、劣势模型推理过程中，启用dropout和specaugment，转写结果中添加随机噪声；

21、s22)利用优势模型和劣势模型构建伪校正数据集；

22、对于目标领域语音语料库中每一条音频，分别利用优势模型和劣势模型进行语音识别，得到错字率不等的更优结果和次优结果；对两种结果建立对应关系即得到伪校正数据；

23、对目标领域语音数据集中每条语音进行同样的操作，构建出伪校正数据集。

24、进一步地，上述的语音识别模型领域适配方法，其中，以conformer_wenetspeech作为优势模型，以conformer_aishell作为劣势模型。

25、进一步地，上述的语音识别模型领域适配方法，其中，校正模型由文本编码器与声学编码器和解码器构成：

26、s31)文本编码器

27、语音样本经语音识别模型得到转写文本，送入文本编码器；

28、文本编码器由六个标准的transformer层堆叠而成，其中每个transformer层均包含自注意力层和前向反馈层，文本编码器对输入文本编码并生成隐含层输出ht，ht是定义在实数集r上的一个矩阵，表示为ht∈rl×d；其中，l×d表示矩阵的形状是(l，d)，其中l是输入的字数；d是模型隐含层大小；

29、s32)声学编码器

30、语音样本经声音嵌入模型得到声学特征向量序列ha，送入声学编码器，声音嵌入模型用以提取特征；

31、得到的ha0是定义在实数集r上的一个矩阵，且ha0∈rt×d；其中，t是输入音频中包含20ms时间步长的数量；d是模型隐含层大小；

32、声学编码器的最终输出ha∈rt/8×d；其中，t是输入音频中包含20ms时间步长的数量；d是模型隐含层大小；

33、s33)解码器

34、解码器由六个transformer层堆叠而成，结构为：自注意力层、交叉注意力层一、交叉注意力层二、前向反馈层；

35、采用串行组合策略，先处理文本编码器输出，再处理声学编码器输出；

36、注意力机制的公式为attention(q，k，v)，对交叉注意力层一，其注意力表示为公式(1)：

37、a文＝attention(hs，ht，ht) (1)

38、其中，将自注意力层的输出hs作为q，而k和v均采用文本编码器的输出ht，

39、同理，交叉注意力层二的输出表示为公式(2)：

40、a声＝attention(a文，ha，ha) (2)

41、其中，交叉注意力层一的输出a文作为q，而k和v均采用声学编码器的输出ha。

42、进一步地，上述的语音识别模型领域适配方法，其中，声学编码器由卷积层、全连接层、transformer层组成，通过三个卷积层依次使用(1,32)、(1,32)和(2,32)的卷积核将时间步数t缩小8倍；利用两个全连接层将输出的隐含层重新投影到d维；其后部是与文本编码器相同配置的四个标准transformer层。

43、本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

44、本发明语音识别模型领域适配方法，只需要目标领域无标注语音就可以进行领域适配，只选用了目标领域无标注的语音构建语料库，省去了人工标注的成本同时节约了时间；在校正模型中添加声学编码器，构成文本编码器与声学编码器和解码器的结构，缓解了伪数据集训练带来的过拟合问题；通过迫使声学编码器生成类似文本编码器的输出，克服了多模态学习带来的异质性问题；通过优势模型与校正模型的迭代更新，借助优势模型相对劣势模型的改善，经过泛化显著提升了目标领域适配效果。本发明的处理方法，在具备大量录音的实际场景中，不借助人工标注的前提下将语音识别的在目标领域的差错率显著降低，本发明方法在各垂直行业领域的语音识别领域中具有广泛的应用价值。

45、本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。