技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音识别方法、装置、关键词检测模型的训练方法和装置与流程 > 正文

语音识别方法、装置、关键词检测模型的训练方法和装置与流程

国知局
2024-06-21 11:28:43

本申请涉及人工智能，特别是涉及一种语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，以及一种关键词检测模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、随着人工智能技术的发展，语音处理的应用场景也越来越广泛，语音关键词检出技术作为语音识别领域的一项重要任务，是指在预设关键词列表的情况下，从语音流中检测是否存在预设的关键词，该技术被广泛的应用于智能设备交互、热词检测、敏感词检测等识别任务中。在这些任务中，有相当一部分场景需求的关键词列表存在频繁修改的情况。针对此情况，相关技术中，基于人工智能的关键词检测模型受模型训练时所使用的数据集合、网络结构设计等因素的影响，关键词的检出率难以控制，在应对关键词列表需要频繁修改的识别任务时关键词的检出率低，关键词检测模型的识别准确性差。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高关键词的检出率的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、一方面，本申请提供了一种语音识别方法，包括：

3、获取待识别语音，并对所述待识别语音进行编码，得到编码特征；

4、获取至少一个业务关键词的偏置特征；所述业务关键词为所述待识别语音所属业务相关的关键词；

5、基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，所述目标特征中包含与所述业务关键词相适配的信息；

6、基于所述目标特征进行分类，得到建模单元的概率分布；所述建模单元是组成所述待识别语音的语音单元；

7、根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果。

8、另一方面，本申请还提供了一种语音识别装置，包括：

9、编码模块，用于获取待识别语音，并对所述待识别语音进行编码，得到编码特征；

10、提取模块，用于获取至少一个业务关键词的偏置特征；所述业务关键词为所述待识别语音所属业务相关的关键词；

11、融合模块，用于基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，所述目标特征中包含与所述业务关键词相适配的信息；

12、分类模块，用于基于所述目标特征进行分类，得到建模单元的概率分布；所述建模单元是组成所述待识别语音的语音单元；

13、识别模块，用于根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果。

14、另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的语音识别方法。

15、另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的语音识别方法。

16、另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的语音识别方法。

17、上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，首先获取待识别语音的编码特征，以及至少一个业务关键词的偏置特征，然后通过偏置特征对待识别语音的编码特征进行基于注意力机制的信息偏置处理，如此能够将每个业务关键词的文本信息显式且均匀地引入到待识别语音的编码特征中，从而增强语音识别所输出的业务关键词相关建模单元的概率分布，进而使得在进行与业务关键词相关的关键词识别过程中能够快速且准确地识别到待识别语音中的业务关键词，增强整个语音识别过程的鲁棒性，提高业务关键词的检出率。

18、另一方面，本申请提供了一种关键词检测模型的训练方法，包括：

19、获取携带文本标签的语音训练样本，并基于所述文本标签，构建所述语音训练样本关联的至少一个关键词标签；

20、通过待训练的初始模型，对所述语音训练样本进行编码，得到样本编码特征；获取各所述关键词标签的标签偏置特征；基于注意力机制融合所述样本编码特征和各所述关键词标签的标签偏置特征得到样本目标特征；对所述样本目标特征进行分类，得到建模单元的样本概率分布；所述样本目标特征中包含与所述关键词标签相适配的信息；

21、确定所述样本概率分布与所述文本标签之间的差异，基于所述差异确定损失函数；

22、基于所述损失函数进行模型训练，得到训练完成的关键词检测模型。

23、另一方面，本申请还提供了一种关键词检测模型的训练装置，包括：

24、获取模块，用于获取携带文本标签的语音训练样本，并基于所述文本标签，构建所述语音训练样本关联的至少一个关键词标签；

25、检出模块，用于通过待训练的初始模型，对所述语音训练样本进行编码，得到样本编码特征；获取各所述关键词标签的标签偏置特征；基于注意力机制融合所述样本编码特征和各所述关键词标签的标签偏置特征得到样本目标特征；对所述样本目标特征进行分类，得到建模单元的样本概率分布；所述样本目标特征中包含与所述关键词标签相适配的信息；

26、确定模块，用于确定所述样本概率分布与所述文本标签之间的差异，基于所述差异确定损失函数；

27、训练模块，用于基于所述损失函数进行模型训练，得到训练完成的关键词检测模型。

28、另一方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例提供的关键词检测模型的训练方法。

29、另一方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的关键词检测模型的训练方法。

30、另一方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的关键词检测模型的训练方法。

31、上述关键词检测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品，基于语音训练样本携带的文本标签构建相应的至少一个关键词标签，并通过针对每个关键词标签的特征提取得到相应的标签偏置特征，接着基于注意力机制融合语音训练样本的样本编码特征以及各标签偏置特征，能够将各标签偏置特征均匀地引入样本编码特征中，获得各关键词标签信息得到增强的样本目标特征，进而能够在对样本目标特征进行分类过程中，使得各关键词标签的样本概率分布均匀化，从而能够尽量减小样本概率分布与文本标签之间的差异，提高基于该差异所确定的损失函数进行模型训练的训练效率，从而快速得到检出率高的关键词检出模型。通过上述方式训练的模型，使得模型的输出受到关键词的文本的约束，从而让模型对关键词标签的文本有更强的倾向性，进而能够提高关键词检出的检出率。

技术特征：

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取至少一个业务关键词的偏置特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对任一所述业务关键词，确定所针对业务关键词的嵌入向量序列，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所针对业务关键词的嵌入向量序列进行至少一次的上下文特征提取，得到所针对业务关键词的偏置特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于注意力机制融合所述编码特征和各所述业务关键词的偏置特征得到目标特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述编码特征和所述偏置向量矩阵进行至少一次的注意力机制处理，得到融合特征，包括：

7.根据权利要求5所述的方法，其特征在于，每次所述注意力机制处理的过程包括：

8.根据权利要求5所述的方法，其特征在于，所述结合所述编码特征和所述融合特征，获得目标特征，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述建模单元的概率分布进行与各所述业务关键词相关的关键词识别，得到识别结果，包括：

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法由关键词检测模型执行，所述关键词检测模型包括编码器、偏置特征提取器、特征融合层、分类层和解码器，

11.根据权利要求10所述的方法，其特征在于，所述关键词检测模型的训练步骤包括：

12.一种关键词检测模型的训练方法，其特征在于，所述方法包括：

13.一种语音识别装置，其特征在于，所述装置包括：

14.一种关键词检测模型的训练装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

技术总结本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取待识别语音，并对待识别语音进行编码，得到编码特征；获取与识别业务相关的关键词，对关键词进行特征提取得到偏置特征；基于注意力机制融合编码特征和偏置特征得到目标特征，目标特征中包含与关键词相适配的信息；基于目标特征进行分类，得到建模单元的概率分布；根据建模单元的概率分布进行关键词识别，得到识别结果。采用本方法能够提高语音识别过程中关键词的检出率，从而提高语音识别的准确性。技术研发人员：王雄受保护的技术使用者：腾讯科技（深圳）有限公司技术研发日：技术公布日：2024/2/19