技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语言模型的训练方法、语音识别方法及相关设备与流程 > 正文

语言模型的训练方法、语音识别方法及相关设备与流程

国知局
2024-06-21 11:48:38

本申请涉及自然语言处理，尤其涉及一种语言模型的训练方法、语音识别方法及相关设备。

背景技术：

1、在语音识别系统中，语言模型往往作为声学模型的语义补充模块，来丰富声学模型的建模信息。相关技术中，通常采用范领域文本来训练语言模型，导致训练后的语言模型的针对性不强，比较笼统和泛化，针对特定领域的语音识别质量不佳。

2、因此，如何得到适用于特定领域的语言模型以提高语音识别质量，仍然需要进一步的解决方案。

技术实现思路

1、本申请实施例的目的提供一种语言模型的训练方法、语音识别方法及相关设备，用于得到适用于特定领域的语言模型以提高语音识别质量。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种语言模型的训练方法，包括：

4、获取语料集合和第一语言模型，所述语料集合包括通用文本、目标领域的语音数据的识别文本及标注文本，所述第一语言模型为基于所述标注文本进行模型训练得到；

5、基于所述识别文本中的识别错误词语，从所述语料集合中确定第一通用文本；

6、基于所述第一语言模型确定所述语料集合中通用文本的困惑度，基于所述困惑度从所述语料集合中确定第二通用文本；

7、基于所述标注文本、所述第一通用文本和所述第二通用文本对第二语言模型进行训练，以得到所述目标领域的目标语言模型。

8、第二方面，本申请实施例提供一种语音识别方法，包括：

9、对目标领域的目标语音数据进行语音识别，得到m个候选识别文本；

10、通过所述目标领域的目标语言模型，预测所述m个候选识别文本的置信概率，所述目标语言模型为基于第一方面所述的语言模型的训练方法训练得到；

11、从所述m个候选识别文本中选取置信概率满足预设概率条件的候选识别文本，作为目标识别文本。

12、第三方面，本申请实施例提供一种语言模型的训练装置，包括：

13、获取单元，用于获取语料集合和第一语言模型，所述语料集合包括通用文本、目标领域的语音数据的识别文本及标注文本，所述第一语言模型为基于所述标注文本进行模型训练得到；

14、第一确定单元，用于基于所述识别文本中的识别错误词语，从所述语料集合中确定第一通用文本；

15、第二确定单元，用于基于所述第一语言模型确定所述语料集合中通用文本的困惑度，基于所述困惑度从所述语料集合中确定第二通用文本；

16、训练单元，用于基于所述标注文本、所述第一通用文本和所述第二通用文本对第二语言模型进行训练，以得到所述目标领域的目标语言模型。

17、第四方面，本申请实施例提供一种语音识别装置，包括：

18、识别单元，用于对目标领域的目标语音数据进行语音识别，得到m个候选识别文本；

19、预测单元，用于通过所述目标领域的目标语言模型，预测所述m个候选识别文本的置信概率，所述目标语言模型为基于第一方面所述的语言模型的训练方法训练得到；

20、选取单元，用于从所述m个候选识别文本中选取置信概率满足预设概率条件的候选识别文本，作为目标识别文本。

21、第五方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语言模型的训练方法；或者，所述处理器被配置为执行所述指令，以实现如第二方面所述的语音识别方法。

22、第六方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的语言模型的训练方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第二方面所述的语音识别方法。

23、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

24、获取大量通用文本、目标领域的语音数据的识别文本及标注文本；由于识别文本中的识别错误词语是目标领域中容易被错误识别的词语搭配，基于识别错误词语从大量通用文本中确定第一通用文本，使得第一通用文本既具有范领域的泛化性，又具有目标领域的文本特点，为待训练的语言模型提供丰富的词语搭配信息和纠正信息。进一步，由于第一语言模型是基于标注文本训练得到的，适用于目标领域，基于第一语言模型确定语料集合中通用文本的困惑度，该困惑度能够准确反映所属通用文本与目标领域的契合程度；基于困惑度从语料集合中确定第二通用文本，不仅使得第二通用文本既具有泛化性，又与目标领域相契合，还能够起到稀释第一通用文本的补充作用，防止第一通用文本存在词语分布偏移问题而影响词频统计结果，导致训练后的语言模型出现偏分布问题。在此基础上，结合第一通用文本、第二通用文本以及标注文本对第二语言模型进行训练，丰富目标领域的词语搭配，不仅有效避免训练后的语言模型过于笼统和泛化，增强对特定领域的适用性，还可以克服语言模型对特定领域的不常见词语搭配的预测效果不佳的问题，提高语言模型对特定领域文本的置信概率的预测准确率，从而提高语音识别质量。

技术特征：

1.一种语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述识别文本中的识别错误词语，从所述语料集合中确定第一通用文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述第二语言模型包括n元语法语言模型；

4.根据权利要求1所述的方法，其特征在于，在基于所述识别文本中的识别错误词语，从所述语料集合中确定第一通用文本之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一语言模型确定所述语料集合中通用文本的困惑度，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述标注文本、所述第一通用文本和所述第二通用文本对第二语言模型进行训练，以得到所述目标领域的目标语言模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述对训练后的第二语言模型和训练后的第三语言模型进行模型插值处理，得到所述目标领域的目标语言模型，包括：

8.一种语音识别方法，其特征在于，包括：

9.一种语言模型的训练装置，其特征在于，包括：

10.一种语音识别装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的语言模型的训练方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求8所述的语音识别方法。

技术总结本申请公开了一种语言模型的训练方法、语音识别方法及相关设备。所述语言模型的训练方法包括：获取语料集合和第一语言模型，所述语料集合包括通用文本、目标领域的语音数据的识别文本及标注文本，所述第一语言模型为基于所述标注文本进行模型训练得到；基于所述识别文本中的识别错误词语，从所述语料集合中确定第一通用文本；基于所述第一语言模型确定所述语料集合中通用文本的困惑度，基于所述困惑度从所述语料集合中确定第二通用文本；基于所述标注文本、所述第一通用文本和所述第二通用文本对第二语言模型进行训练，以得到所述目标领域的目标语言模型。技术研发人员：李承翰受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6