技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音处理模型训练方法、语音识别方法及装置与流程 > 正文

语音处理模型训练方法、语音识别方法及装置与流程

国知局
2024-06-21 11:46:49

本申请涉及语音处理，尤其涉及语音处理模型训练方法、语音识别方法及装置。

背景技术：

1、在语音识别处理中，往往需要对一些关键词进行识别，例如，热词、敏感词、特定领域(例如，金融领域)的专有名词、公司名称、人名、地名等。现有的关键词识别方案，往往仅是将待识别语音与关键词进行浅融合以进行关键词识别，也即对待识别语音的特征向量进行束搜索得到声学得分，对关键词的特征向量进行束搜索得到关键词得分，再将声学得分和关键词得分进行加权得到关键词识别结果。然而上述浅融合的方式对关键词增强的效果较差，导致关键词识别结果的准确性较低。

技术实现思路

1、本申请实施例提供一种语音处理模型训练方法、语音识别方法、装置及电子设备，以提高在语音数据中识别出关键词的准确性。

2、为了解决上述技术问题，本申请是这样实现的：

3、第一方面，本申请实施例提供了一种语音处理模型训练方法，该方法包括：

4、获取多条语音训练数据、多个关键词文本和待训练的语音处理模型，其中，每条所述语音训练数据均标注有对应的文本标签，所述待训练的语音处理模型包括语音编码模块、融合模块和解码模块；

5、针对每条语音训练数据，通过所述语音编码模块对所述语音训练数据进行编码处理，得到语音编码向量；

6、基于第一预设损失函数计算所述语音编码向量和所述语音编码向量对应的所述语音训练数据的文本标签之间的损失值，得到第一损失值；

7、获取所述多个关键词文本对应的关键词编码向量序列，并通过所述融合模块分别将所述语音编码向量和所述关键词编码向量序列中每个关键词编码向量进行融合，得到融合特征向量序列；

8、通过所述解码模块对所述融合特征向量序列中每个融合特征向量进行解码，得到解码向量序列，并基于第二预设损失函数计算所述解码向量序列和所述语音编码向量对应的所述语音训练数据的文本标签之间的损失值，得到第二损失值；

9、根据所述第一损失值、所述第二损失值和预设训练条件，对所述待训练的语音处理模型进行迭代训练。

10、第二方面，本申请实施例提供了一种语音识别方法，该方法包括：

11、获取目标语音数据；

12、获取多个关键词文本对应的关键词编码向量序列；

13、将所述目标语音数据和所述关键词编码向量序列输入根据上述的语音处理模型训练方法训练得到的语音处理模型，得到语音处理结果；

14、根据所述语音处理结果确定所述目标语音数据中是否包含所述多个关键词文本中的目标关键词。

15、第三方面，本申请实施例还提供一种语音处理模型训练装置，该语音处理模型训练装置包括：

16、第一获取模块，用于获取多条语音训练数据、多个关键词文本和待训练的语音处理模型，其中，每条所述语音训练数据均标注有对应的文本标签，所述待训练的语音处理模型包括语音编码模块、融合模块和解码模块；

17、第一编码模块，用于针对每条语音训练数据，通过所述语音编码模块对所述语音训练数据进行编码处理，得到语音编码向量；

18、第一计算模块，用于基于第一预设损失函数计算所述语音编码向量和所述语音编码向量对应的所述语音训练数据的文本标签之间的损失值，得到第一损失值；

19、第一处理模块，用于获取所述多个关键词文本对应的关键词编码向量序列，并通过所述融合模块分别将所述语音编码向量和所述关键词编码向量序列中每个关键词编码向量进行融合，得到融合特征向量序列；

20、第二处理模块，用于通过所述解码模块对所述融合特征向量序列中每个融合特征向量进行解码，得到解码向量序列，并基于第二预设损失函数计算所述解码向量序列和所述语音编码向量对应的所述语音训练数据的文本标签之间的损失值，得到第二损失值；

21、训练模块，用于根据所述第一损失值、所述第二损失值和预设训练条件，对所述待训练的语音处理模型进行迭代训练。

22、第四方面，本申请实施例还提供一种语音识别装置，该语音识别装置包括：

23、第一获取模块，用于获取目标语音数据；

24、第二获取模块，用于获取多个关键词文本对应的关键词编码向量序列；

25、语音处理模块，用于将所述目标语音数据和所述关键词编码向量序列输入根据上述的语音处理模型训练方法训练得到的语音处理模型，得到语音处理结果；

26、确定模块，用于根据所述语音处理结果确定所述目标语音数据中是否包含所述多个关键词文本中的目标关键词。

27、第五方面，本申请实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的语音处理模型训练方法的步骤，或者实现上述的语音识别方法的步骤。

28、第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音处理模型训练方法的步骤，或者实现上述的语音识别方法的步骤。

29、本申请实施例中，在语音处理模型训练过程中将各个语音训练数据对应的语音编码向量和多个关键词文本对应的关键词编码向量序列进行特征融合后进行解码，这样有利于语音处理模型有效的学习到多个关键词文本所包括的关键词的特征信息，进而利用所训练得到的语音处理模型进行语音识别时，基于预先学习到的关键词的特征信息有利于更为准确的识别到语音数据中的关键词，提高对语音数据进行关键词识别的准确性。此外，本申请还综合利用了语音编码向量和对应的文本标签之间的损失值以及解码向量序列和对应的文本标签之间的损失值对待训练的语音处理模型进行训练，也即综合考虑了语音编码之后的损失以及语音解码之后的损失对待训练的语音处理模型进行训练，有利于进一步提高所训练得到的语音处理模块进行语音识别的准确性。

技术特征：

1.一种语音处理模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述融合模块包括多头注意力层、合并层和线性映射层；所述通过所述融合模块分别将所述语音编码向量和所述关键词编码向量序列中每个关键词编码向量进行融合，得到融合特征向量序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值、所述第二损失值和预设训练条件，对所述待训练的语音处理模型进行迭代训练，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述第一预设损失函数为连接时序分类ctc损失函数，所述第二预设损失函数为注意力损失函数。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述语音编码模块包括p个编码层，所述编码层包括conformer编码层或者transformer编码层，p为正整数；和/或，

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述获取所述多个关键词文本对应的关键词编码向量序列，包括：

7.一种语音识别方法，其特征在于，包括：

8.一种语音处理模型训练装置，其特征在于，包括：

9.一种语音识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音处理模型训练方法的步骤，或者实现如权利要求7所述的语音识别方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音处理模型训练方法的步骤，或者实现如权利要求7所述的语音识别方法的步骤。

技术总结本申请提供一种语音处理模型训练方法、语音识别方法及装置，语音处理模型训练方法包括：获取多条语音训练数据、多个关键词文本和待训练的语音处理模型；针对每条语音训练数据，通过语音编码模块对语音训练数据进行编码处理，得到语音编码向量；计算语音编码向量和其对应的文本标签之间的第一损失值；获取多个关键词文本对应的关键词编码向量序列，并通过融合模块得到融合特征向量序列；通过解码模块对融合特征向量序列进行解码，得到解码向量序列，计算解码向量序列和语音编码向量对应的文本标签之间的第二损失值；根据第一损失值、第二损失值和预设训练条件，对待训练的语音处理模型进行迭代训练，有利于提高语音处理模型识别关键词的准确性。技术研发人员：孟庆林,蒋宁,吴海英,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/4/29