技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学模型预训练方法、模型训练方法及装置、存储介质与流程 > 正文

声学模型预训练方法、模型训练方法及装置、存储介质与流程

国知局
2024-06-21 11:55:59

本公开涉及信息处理领域，特别涉及一种声学模型预训练方法、模型训练方法及装置、存储介质。

背景技术：

1、开放词汇kws(keyword spotting,关键词检测)系统允许用户自定义唤醒词，但其应用时会受到模型大小的限制，因此需要将模型进行压缩(剪枝)后才能部署到设备。

技术实现思路

1、发明人注意到，在相关技术中，剪枝技术通常与关键词无关，因此剪枝后的模型不能将与关键词相关的模型参数挑选出来，从而针对不同关键词的识别准确率词差异较大，整体的识别准确率不高。

2、据此，本公开提供一种模型训练方法，通过利用音素的结构向量对声学模型进行剪枝，从而在保证整体识别准确率的同时，还能得到轻量级的声学模型。

3、根据本公开实施例的第一方面，提供一种声学模型预训练方法，包括：获取关键词的音素序列；利用声学模型获取所述音素序列中的第i个音素的声学帧在当前轮次的帧向量，1≤i≤n，n为音素总数；利用所述帧向量，对所述第i个音素在前一轮次的结构向量进行更新，以得到所述第i个音素在当前轮次的结构向量；根据每个音素在当前轮次的结构向量和每个音素的声学帧在当前轮次的帧向量，确定第一目标损失函数；根据所述目标损失函数对所述声学模型进行训练。

4、在一些实施例中，确定第一目标损失函数包括：根据所述每个音素在当前轮次的结构向量和所述每个音素的声学帧在当前轮次的帧向量，确定第一损失函数；根据所述每个音素的声学帧在当前轮次的帧向量，确定第二损失函数；根据所述第一损失函数和所述第二损失函数确定所述第一目标损失函数。

5、在一些实施例中，确定第一损失函数包括：根据所述帧向量和所述第i个音素在当前轮次的结构向量，确定所述第i个音素的距离损失函数；根据n个音素的距离损失函数确定第一损失函数。

6、在一些实施例中，确定所述第i个音素的距离损失函数包括：根据所述帧向量和所述第i个音素在当前轮次的结构向量之间的距离，确定所述第i个音素的距离损失函数。

7、在一些实施例中，所述第一损失函数为所述n个音素的距离损失函数之和。

8、在一些实施例中，确定第二损失函数包括：根据所述帧向量确定所述第i个子网络的当前参数个数；根据所述当前参数个数和所述第i个子网络的目标参数个数，确定所述第i个音素的稀疏损失函数；根据所述n个音素的稀疏损失函数确定第二损失函数；

9、在一些实施例中，确定所述第i个音素的稀疏损失函数包括：根据所述当前参数个数和所述目标参数个数之差，确定所述第i个音素的稀疏损失函数。

10、在一些实施例中，所述第二损失函数为所述n个音素的稀疏损失函数之和。

11、在一些实施例中，根据所述第一损失函数和所述第二损失函数确定所述第一目标损失函数包括：根据所述第一损失函数和所述第二损失函数的加权和，确定所述第一目标损失函数。

12、在一些实施例中，所述第i个音素在当前轮次的结构向量为所述第i个音素在前一轮次的结构向量和所述帧向量的加权和。

13、在一些实施例中，利用所述声学模型获取所述第i个音素的声学帧在当前轮次的帧向量包括：在所述声学模型中，利用第l个卷积块中的门控模块对第l-1个卷积块输出的所述第i个音素的第l-1个声学表征信息进行处理，以得到嵌入向量，其中l为大于1的自然数；将所述嵌入向量作为所述第i个音素的声学帧在当前轮次的帧向量。

14、在一些实施例中，利用所述声学模型获取所述第i个音素的声学帧在当前轮次的帧向量包括：利用所述第l个卷积块中的卷积模块对所述嵌入向量进行处理，以得到所述第i个音素的第l个声学表征信息；将所述第i个音素的第l个声学表征信息作为所述第l个卷积块的输出信号。

15、在一些实施例中，所述第l个声学表征信息由所述第l个卷积块的卷积滤波器对所述第l-1个声学表征信息的处理结果，和所述第l-1个声学表征信息确定。

16、根据本公开实施例的第二方面，提供一种声学模型预训练装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的声学模型预训练方法。

17、根据本公开实施例的第三方面，提供一种模型训练方法，包括：从训练数据集中获取第一音频数据以作为正样本数据，获得第二音频数据以作为负样本数据；根据所述正样本数据生成关键词音素序列；获取所述关键词音素序列中的每个音素的结构向量；根据所述每个音素的结构向量，确定声学模型中与所述关键词音素序列对应的子网络集合，其中所述每个音素的结构向量和所述声学模型通过上述任一实施例所述的方法训练得到；利用所述子网络集合计算所述正样本数据的第一声学表征信息，和所述负样本数据的第二声学表征信息；利用关键词编码器模型对所述关键词音素序列进行处理，以得到所述关键词音素序列的文本表征信息；利用联合分类器模型对所述第一声学表征信息和所述文本表征信息进行处理，以得到第一分类结果，对所述第二声学表征信息和所述文本表征信息进行处理，以得到第二分类结果；根据所述第一分类结果和所述第二分类结果确定第二目标损失函数；根据所述第二目标损失函数对所述关键词编码器模型和所述联合分类器模型进行训练。

18、在一些实施例中，根据所述第一分类结果和所述第二分类结果确定第二目标损失函数包括：根据所述第一分类结果的交叉熵确定第三损失函数；根据所述第二分类结果的交叉熵确定第四损失函数；根据所述第三损失函数和所述第四损失函数确定所述第二目标损失函数。

19、在一些实施例中，所述第二目标损失函数为所述第三损失函数和所述第四损失函数的加权和。

20、在一些实施例中，根据所述每个音素的结构向量，确定声学模型中与所述关键词音素序列对应的子网络集合包括：根据所述每个音素的结构向量，对所述声学模型进行剪枝处理，以得到与所述关键词音素序列对应的子网络集合。

21、在一些实施例中，根据所述正样本数据生成关键词音素序列包括：获取所述正样本数据中的音频数据的音素，以生成待处理音素序列；从所述待处理音素序列中截取部分音素序列，以作为所述关键词音素序列。

22、根据本公开实施例的第四方面，提供一种模型训练装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的模型训练方法。

23、根据本公开实施例的第五方面，提供一种关键词检测方法，包括：接收待检测音频数据；根据待检测音频数据生成关键词音素序列；获取所述关键词音素序列中的每个音素的结构向量；根据所述每个音素的结构向量，确定声学模型中与所述关键词音素序列对应的子网络集合，其中所述每个音素的结构向量和所述声学模型通过上述任一实施例所述的方法训练得到；利用所述子网络集合计算所述待检测音频数据的声学表征信息；利用联合分类器模型对所述声学表征信息进行处理，以检测所述待检测音频数据中是否包括指定关键词，其中所述联合分类器模型通过上述任一实施例所述的方法训练得到。

24、根据本公开实施例的第六方面，提供一种关键词检测装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的关键词检测方法。

25、根据本公开实施例的第七方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

26、根据本公开实施例的第八方面，提供一种计算机程序产品，包括计算机指令，其中所述计算机指令被处理器执行时实现如上述任一实施例涉及的方法。

27、通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。