语音识别模型的训练方法、语音识别方法、设备和介质与流程
- 国知局
- 2024-06-21 11:30:20
本公开涉及人工智能,更具体地,涉及语音处理领域,尤其涉及一种语音识别模型的训练方法、语音识别方法、设备和介质。
背景技术:
1、自然语言处理领域(natural language processing,nlp)中的对话系统(dialogsystem,ds)是人工智能(artificial intelligence,at)技术的重要应用之一。任务型对话系统(task-oriented dialogue system,tod)是指用户具备明确的意图,如:查询系统时间或天气、播放音乐和导航至某个特定地点等。tod系统需要通过对用户的输入信息(例如语音指令)解析用户的意图,通过决策访问内部数据库或调用三方业务完成用户期望执行的某个动作。tod系统和工业界的较多场景有着较大的关联,在工业界有着较为广泛的研究和应用场景。
技术实现思路
1、本公开提供了一种语音识别模型的训练方法、语音识别方法、电子设备、计算机可读存储介质和程序产品。
2、根据第一方面,本公开提供了一种语音识别模型的训练方法,包括:获取至少一个语音指令及每个语音指令对应的词向量;基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征;获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征;基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离,对语音识别模型进行训练。
3、根据本公开的实施例,获取至少一个语音指令,包括:获取多个语音类别下每个语音类别中的至少一个语音指令。
4、根据本公开的实施例,基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征,包括:对于多个词向量中的每个词向量,执行以下操作:以每个词向量为中心词向量,提取与中心词向量相邻的词向量,作为前向词向量和后向词向量;获取中心词向量在第一矩阵中对应的列数据,作为中心词向量的第一列向量;其中,第一矩阵中的每一列数据表示一个词向量的语义特征;获取中心词向量在n个第二矩阵中对应的列数据,得到n个第二列向量,n个第二矩阵是前向词向量、中心词向量和后向词向量分别对应的上下文矩阵,n为正整数;分别将中心词向量的第一列向量和n个第二列向量分别进行点乘运算,得到对应的n个第三列向量;对第三列向量进行最大池化处理,得到与中心词向量对应的语义特征;将与多个词向量分别对应的语义特征进行融合,得到与每个语音指令对应的第一语义特征。
5、根据本公开的实施例,获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征,包括:将正样本语音所属语音类别下的至少一个语音指令对应的至少一个第一语义特征进行平均池化,得到正样本语音的第二语义特征;将负样本语音所属语音类别下的至少一个语音指令对应的至少一个第一语义特征进行平均池化,得到正样本语音的第二语义特征。
6、根据本公开的实施例,第二语义特征为泛化语义特征。
7、根据本公开的实施例,基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离,对语音识别模型进行训练,包括:获取每个语音指令的第一语义特征与负样本语音对应的第二语义特征的距离,作为第一距离;获取每个语音指令的第一语义特征与正样本语音对应的第二语义特征的距离,作为第二距离;基于三元损失函数对第一距离和第二距离进行优化,更新语音识别模型的参数;语音识别模型的参数包括三元损失函数中的超参数,超参数大于第一距离和第二距离的差值。
8、根据本公开的实施例,计算第一语义特征与第二语义特征之间的相似度,作为第一距离和第二距离。
9、根据第二方面,本公开提供了一种语音识别方法,包括:获取待识别的语音指令及与待识别语音指令对应的词向量;将词向量输入语音识别模型,执行以下操作:基于词向量的加权相乘结果生成与待识别语音指令对应的第三语义特征;根据第三语义特征与多个语音类别对应的第二语义特征之间的相似度,确定待识别语音指令的语音类别;其中,语音识别模型是采用上述方法训练得到的。
10、根据第三方面,本公开提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。
11、根据第四方面,本公开提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。
12、根据第五方面,本公开提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开实施例所述的语音识别模型的训练方法和语音识别方法。
技术特征:1.一种语音识别模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述获取至少一个语音指令,包括:
3.根据权利要求2所述的语音识别模型的训练方法,其特征在于,所述基于多个所述词向量的加权相乘结果生成与所述每个语音指令对应的第一语义特征,包括:
4.根据权利要求3所述的语音识别模型的训练方法,其特征在于,所述获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征,包括:
5.根据权利要求4所述的语音识别模型的训练方法,其特征在于,所述第二语义特征为泛化语义特征。
6.根据权利要求4或5所述的语音识别模型的训练方法,其特征在于,所述基于所述第一语义特征与正样本语音对应的第二语义特征的距离和所述第一语义特征与负样本语音对应的第二语义特征的距离,对所述语音识别模型进行训练,包括:
7.根据权利要求6所述的语音识别模型的训练方法,其特征在于,计算所述第一语义特征与所述第二语义特征之间的相似度,作为所述第一距离和所述第二距离。
8.一种语音识别方法,其特征在于,包括:
9.一种电子设备,包括:
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~8中任一项所述的方法。
技术总结本公开提供了一种语音识别模型的训练方法、语音识别方法、设备和介质,涉及人工智能技术领域,语音识别模型的训练方法包括:获取至少一个语音指令及每个语音指令对应的词向量;基于多个词向量的加权相乘结果生成与每个语音指令对应的第一语义特征;获取正样本语音对应的第二语义特征和负样本语音对应的第二语义特征;基于第一语义特征与正样本语音对应的第二语义特征的距离和第一语义特征与负样本语音对应的第二语义特征的距离,对语音识别模型进行训练。技术研发人员:王佳,苏丽萍,安旭,甘艺萌,陈雨受保护的技术使用者:湖北星纪魅族科技有限公司技术研发日:技术公布日:2024/2/25本文地址:https://www.jishuxx.com/zhuanli/20240618/21916.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表