技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型的训练方法、语音识别方法及装置与流程 > 正文

语音识别模型的训练方法、语音识别方法及装置与流程

国知局
2024-06-21 10:45:01

本公开涉及语音处理，特别涉及一种语音识别模型的训练方法、语音识别方法及装置、电子设备、计算机可读存储介质。

背景技术：

1、随着人工智能技术的不断发展，语音识别技术(asr，automatic speechrecognition)被普遍应用到各种领域，为人们生活带来了极大改善；其中，语音识别技术是指对语音数据进行识别，将语音数据转换为电子设备可读的输入，例如，可以使用语音识别技术将接收到的用户语音转换为对应的文本，以便于电子设备基于文本与用户进行交互。

2、目前，在训练语音识别模型时，往往是直接获取开源的训练数据集，并使用该训练数据集对当前基于主流模型结构构建的初始语音识别模型进行训练，基于该种方法训练得到的语音识别模型通常存在准确性低的问题。

技术实现思路

1、本公开提供一种语音识别模型的训练方法、语音识别方法及装置、电子设备、计算机可读存储介质。

2、第一方面，本公开提供了一种语音识别模型的训练方法，该语音识别模型的训练方法包括：

3、分别使用第一模型和第二模型对原始语音数据集中的语音数据进行语音识别处理，得到与所述第一模型对应的第一识别文本集，以及与所述第二模型对应的第二识别文本集；其中，所述第一模型为待进行优化训练的模型，所述第二模型为使用所述第一模型的初始训练集训练得到的模型，所述第一模型和所述第二模型的模型结构不同，在所述第一识别文本集中的任一第一识别文本与所述第二识别文本集中的一第二识别文本对应，与所述任一第一识别文本对应的一第二识别文本为：在所述第二识别文本集中，与所述任一第一识别文本共同对应所述原始语音数据集中的同一语音数据的第二识别文本；

4、针对任一第一识别文本进行如下处理：将所述第一识别文本和对应的第二识别文本进行对比，得到所述第一识别文本的字错率信息；

5、根据所述字错率信息生成对应所述第一识别文本集的字错率统计信息；所述字错率统计信息中包括隶属于不同字错率范围的第一识别文本的数量；

6、根据所述字错率统计信息，从所述原始语音数据集中筛选目标语音数据子集构建目标训练集，其中，所述目标语音数据子集中包括至少一条目标语音数据，任一目标语音数据包括：所述字错率统计信息中第一目标字错率范围中的第一识别文本所对应的语音数据，所述第一目标字错率范围为包含的第一识别文本的数量满足第一预设条件的字错率范围；

7、利用所述目标训练集对所述第一模型进行优化训练，得到目标模型。

8、第二方面，本公开提供了一种语音识别方法，该语音识别方法包括：

9、获取待识别的目标语音数据；

10、将所述目标语音数据输入至目标模型中进行语音识别处理，得到目标识别文本，其中，所述目标模型是根据上述第一方面的语音识别模型的训练方法得到的。

11、第三方面，本公开提供了一种语音识别模型的训练装置，该语音识别模型的训练装置包括：

12、文本获取单元，用于分别使用第一模型和第二模型对原始语音数据集中的语音数据进行语音识别处理，得到与所述第一模型对应的第一识别文本集，以及与所述第二模型对应的第二识别文本集；其中，所述第一模型为待进行优化训练的模型，所述第二模型为使用所述第一模型的初始训练集训练得到的模型，所述第一模型和所述第二模型的模型结构不同，在所述第一识别文本集中的任一第一识别文本与所述第二识别文本集中的一第二识别文本对应，与所述任一第一识别文本对应的一第二识别文本为：在所述第二识别文本集中，与所述任一第一识别文本共同对应所述原始语音数据集中的同一语音数据的第二识别文本；

13、处理单元，用于针对任一第一识别文本进行如下处理：将所述第一识别文本和对应的第二识别文本进行对比，得到所述第一识别文本的字错率信息；

14、统计单元，用于根据所述字错率信息生成对应所述第一识别文本集的字错率统计信息；所述字错率统计信息中包括隶属于不同字错率范围的第一识别文本的数量；

15、训练集构建单元，用于根据所述字错率统计信息，从所述原始语音数据集中筛选目标语音数据子集构建目标训练集，其中，所述目标语音数据子集中包括至少一条目标语音数据，任一目标语音数据包括：所述字错率统计信息中第一目标字错率范围中的第一识别文本所对应的语音数据，所述第一目标字错率范围为包含的第一识别文本的数量满足第一预设条件的字错率范围；

16、训练单元，用于利用所述目标训练集对所述第一模型进行优化训练，得到目标模型。

17、第四方面，本公开提供了一种语音识别装置，该语音识别装置包括：

18、获取单元，用于获取待识别的目标语音数据；

19、识别单元，用于将所述目标语音数据输入至目标模型中进行语音识别处理，得到目标识别文本，其中，所述目标模型是根据上述第一方面的语音识别模型的训练方法得到的。

20、第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面的语音识别模型的训练方法或者上述第二方面的语音识别方法。

21、第六方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述第一方面的语音识别模型的训练方法或者上述第二方面的语音识别方法。

22、本公开所提供的实施例，针对待进行优化训练的第一模型，通过使用训练该第一模型时所使用的初始训练集训练得到模型结构不同于该第一模型的第二模型，并使用该第一模型和第二模型分别对同一原始语音数据集中的语音数据进行语音识别处理，得到第一识别文本集和第二识别文本集，由于不同模型结构的模型在语音识别的准确性上可能存在不同，因此，针对第一识别文本集中的任一第一识别文本，由于与任一第一识别文本对应的第二识别文本为第二识别文本集中，与该任一第一识别文本共同对应原始语音数据集中的同一语音数据的第二识别文本，由于与第一模型的模型结构不同的第二模型针对同一语音数据的识别结果的准确性可能高于第一模型，所以，可以通过将该第一识别文本与对应的第二识别文本进行对比，得到第一识别文本的字错率信息，进而根据该字错率信息生成对应第一识别文本集的字错率统计信息；之后，根据该字错率统计信息即可得到与第一识别文本集对应的不同字错率范围内各第一识别文本的数量，根据该字错率统计信息即可得到第一模型在进行语音识别处理时，识别结果不同于第二模型的数量满足第一预设条件的第一目标字错率范围，由于该第一目标字错率范围内的第一识别文本在原始语音数据集中对应的语音数据可能是第一模型识别结果不够准确的数据，因此，基于本公开实施例可以快速得到包含大量第一模型的识别结果可能不够准确的目标语音数据的目标语音数据子集，基于该目标语音数据子集构建目标训练集，可以针对第一模型可能存在的短板进行优化训练，从而提升训练得到的目标模型的识别结果的准确性。

23、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。