技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别模型训练方法、装置、设备及存储介质与流程 > 正文

语音识别模型训练方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:56:56

本发明涉及语音，尤其涉及一种语音识别模型训练方法、装置、设备及存储介质。

背景技术：

1、在对复杂语音信号进行识别处理时，主要难点往往在于噪音、回声和环境干扰，并且语音识别模型训练模型还需适应不同的语音特点，包括不同的口音、语速、发音和说话方式，面对不同用户的语音需要针对不同的词或短语来表述相同的含义，然而这些因素都需要对语音识别模型进行大规模的训练，在训练时需采用大量的计算资源和数据，但是这种大规模的训练方式难以在资源受限的环境中实现，整体的训练的难度较大。

2、可见，现有技术还有待改进和提高。

技术实现思路

1、为了克服现有技术的不足，本发明的目的在于提供一种语音识别模型训练方法、装置、设备及存储介质，其预先对语音信号进行信息处理，提高了训练模型的运营识别性能，有效降低模型整体的训练难度。

2、本发明第一方面提供了一种语音识别模型训练方法，包括：获取不同用户的原始语音信号数据，并对原始语音信号数据进行加密处理，以形成原始加密训练库；通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取，以得到梅尔频率倒谱系数和滤波器组特征；预先构建声学训练模型，并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练，以得到多个声学特征映射结果；根据各个声学特征映射结果获取到相应的文字数据；对各个文字数据进行结果校验，以得到最优的文字数据及其所对应的声学训练模型，并将该声学训练模型作为语音识别模型。

3、可选的，在本发明第一方面的第一种实现方式中，所述获取不同用户的原始语音信号数据，并对原始语音信号数据进行加密处理，以形成原始加密训练库，包括：通过aes加密算法对不同用户的原始语音信号数据进行加密处理，以形成加密语音数据；基于dbms数据库构建加密数据库，并对加密数据库进行访问权限配置；将加密语音数据同步至访问权限配置后的加密数据库，以形成原始加密训练库。

4、可选的，在本发明第一方面的第二种实现方式中，所述通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取，以得到梅尔频率倒谱系数和滤波器组特征，包括：通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换，以得到频谱信号；对频谱信号进行模平方换算，以得到功率谱信号；利用梅尔滤波器组对功率谱信号进行梅尔顿带转换，以得到梅尔频率倒谱系数和滤波器组特征。

5、可选的，在本发明第一方面的第三种实现方式中，所述通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换，以得到频谱信号之前，还包括：从原始加密训练库中对解密提取原始语音信号数据；通过高通滤波器对原始语音信号数据进行预加重处理，以得到同频后的原始语音信号数据；对同频后的原始语音信号数据进行分帧处理，以得到分帧后的原始语音信号数据；对分帧后的原始语音信号数据进行加窗处理，以得到加窗后的原始语音信号数据。

6、可选的，在本发明第一方面的第四种实现方式中，所述预先构建声学训练模型，并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练，以得到多个声学特征映射结果，包括：基于隐马尔可夫模型构建声学训练模型；根据预设权重比例、梅尔频率倒谱系数和滤波器组特征生成声学训练集；根据声学训练集对声学训练模型进行滚动训练，以得到多个不同的声学特征映射结果。

7、可选的，在本发明第一方面的第五种实现方式中，所述根据各个声学特征映射结果获取到相应的文字数据，包括：对各个声学特征映射结果进行关联分析，以得到单词要素和音素要素；预先构建词汇表和发音词典库；根据单词要素和音素要素从词汇表和发音词典库检索得到文字数据。

8、可选的，在本发明第一方面的第六种实现方式中，所述对各个文字数据进行结果校验，以得到最优的文字数据及其所对应的声学训练模型，并将该声学训练模型作为语音识别模型，包括：根据原始语音信号数据获取到比对文本信息；根据比对文本信息对各个文本数据进行字符比对，以得到多个相似度结果；根据预设相似度阈值对各个相似度结果进行校对，以得到最优的相似度结果，并根据该最优的相似度结果获取到相应的声学训练模型作为语音识别模型。

9、本发明第二方面提供了一种语音识别模型训练装置，包括：加密模块，用于获取不同用户的原始语音信号数据，并对原始语音信号数据进行加密处理，以形成原始加密训练库；特征模块，用于通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取，以得到梅尔频率倒谱系数和滤波器组特征；训练模块，用于预先构建声学训练模型，并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练，以得到多个声学特征映射结果；获取模块，用于根据各个声学特征映射结果获取到相应的文字数据；校验模块，用于对各个文字数据进行结果校验，以得到最优的文字数据及其所对应的声学训练模型，并将该声学训练模型作为语音识别模型。

10、可选的，在本发明第二方面的第一种实现方式中，所述加密模块包括：加密单元，用于通过aes加密算法对不同用户的原始语音信号数据进行加密处理，以形成加密语音数据；权限单元，用于基于dbms数据库构建加密数据库，并对加密数据库进行访问权限配置；配置单元，用于将加密语音数据同步至访问权限配置后的加密数据库，以形成原始加密训练库。

11、可选的，在本发明第二方面的第二种实现方式中，所述特征模块包括：变换单元，用于通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换，以得到频谱信号；换算单元，用于对频谱信号进行模平方换算，以得到功率谱信号；转换单元，用于利用梅尔滤波器组对功率谱信号进行梅尔顿带转换，以得到梅尔频率倒谱系数和滤波器组特征。

12、可选的，在本发明第二方面的第三种实现方式中，所述特征模块还包括：解密单元，用于从原始加密训练库中对解密提取原始语音信号数据；预加重单元，用于通过高通滤波器对原始语音信号数据进行预加重处理，以得到同频后的原始语音信号数据；分帧单元，用于对同频后的原始语音信号数据进行分帧处理，以得到分帧后的原始语音信号数据；加窗单元，用于对分帧后的原始语音信号数据进行加窗处理，以得到加窗后的原始语音信号数据。

13、可选的，在本发明第二方面的第四种实现方式中，所述训练模块包括：构建单元，用于基于隐马尔可夫模型构建声学训练模型；生成单元，用于根据预设权重比例、梅尔频率倒谱系数和滤波器组特征生成声学训练集；训练单元，用于根据声学训练集对声学训练模型进行滚动训练，以得到多个不同的声学特征映射结果。

14、可选的，在本发明第二方面的第五种实现方式中，所述获取模块包括：关联单元，用于对各个声学特征映射结果进行关联分析，以得到单词要素和音素要素；预建单元，用于预先构建词汇表和发音词典库；检索单元，用于根据单词要素和音素要素从词汇表和发音词典库检索得到文字数据。

15、可选的，在本发明第二方面的第六种实现方式中，所述校验模块包括：获取单元，用于根据原始语音信号数据获取到比对文本信息；比对单元，用于根据比对文本信息对各个文本数据进行字符比对，以得到多个相似度结果；校对单元，用于根据预设相似度阈值对各个相似度结果进行校对，以得到最优的相似度结果，并根据该最优的相似度结果获取到相应的声学训练模型作为语音识别模型。

16、本发明第三方面提供了一种语音识别模型训练设备，所述语音识别模型训练设备包括：存储器和至少一个处理器，所述存储器中存储有指令；至少一个所述处理器调用所述存储器中的所述指令，以使得所述语音识别模型训练设备执行上述任一项所述的语音识别模型训练方法的各个步骤。

17、本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述任一项所述语音识别模型训练方法的各个步骤。

18、本发明的技术方案中，通过获取不同用户的原始语音信号数据来提高训练数据源的多样性，避免模型在训练过程中出现过拟合的问题，当获取到原始语音信号数据后则需要对其进行加密处理，避免非法用户盗取用户的声音信息，提高原始语音信号数据在使用时的安全性；利用声学特征提取算法将原始语音信号数据转换为系统可处理的特征，即将原始语音信号数据转换为梅尔频率倒谱系数和滤波器组特征，利用梅尔频率倒谱系数和滤波器组特征可捕抓到语音中的频谱信息和时域信息；在模型训练时，通过预先对语音信号进行信息处理，有效降低声学训练模型的训练难度，提高了声学训练模型的训练效果，并且在训练过程中获取不同声学训练模型的输出结果，并根据各个声学特征映射结果映射得到相应的单词或音素，以此根据单词和音素组成语音的文字数据，并根据原始语音信号数据对各个文字数据进行结果校验，以判断各个文字数据的转译是否准确，从而得到识别准确率最高的声学训练模型作为语音识别模型。