技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音意图识别方法及其模型训练方法、设备、存储介质与流程  >  正文

语音意图识别方法及其模型训练方法、设备、存储介质与流程

  • 国知局
  • 2024-06-21 11:47:07

本技术涉及语音识别领域,特别是涉及一种语音意图识别方法及其模型训练方法、设备、存储介质。

背景技术:

1、现有的语音意图识别技术中,往往只能识别既定的、预先设定好的意图和命令词,对于用户自由表达的语音指令则难以进行有效识别和处理。并且现有的语音意图识别技术在语音质量较差或者信息分布发生变化时,其语音识别率会有明显的降低。尤其对包含子命令词的其他说法时,常常会出现错误识别的情况,导致设备将进行用户意图之外的操作,非常影响使用体验。

技术实现思路

1、本技术至少提供语音意图识别方法及其模型训练方法、设备、存储介质,能够提升语音识别的准确率。

2、本技术第一方面提供了一种语音意图识别方法,该方法包括:提取待识别语音数据的语义特征;以及获取待识别语音数据的语音边界信息,语音边界信息用于区分待识别语音数据中的有效语音部分和无效语音部分;基于语音边界信息,对语义特征进行特征抽取,得到意图特征,语音边界信息用于指示从有效语音部分对应的语义特征中抽取得到意图特征;基于意图特征确定待识别语音数据的意图。

3、其中,意图特征包括第一意图特征,基于语音边界信息,对语义特征进行特征抽取,得到意图特征,包括:利用语音边界信息,查找有效语音部分对应的语义特征作为有效语义特征;对有效语义特征进行第一特征抽取,得到第一意图特征。

4、其中,意图特征包括第二意图特征,基于语音边界信息,对语义特征进行特征抽取,得到意图特征,还包括:对待识别语音数据的语义特征进行第二特征抽取,得到第二意图特征;基于意图特征确定待识别语音数据的意图,包括:融合第一意图特征和第二意图特征,得到融合意图特征;对融合意图特征进行分类,得到待识别语音数据的意图。

5、其中,对有效语义特征进行第一特征抽取,得到第一意图特征,包括:对有效语义特征进行池化处理,得到第一意图特征;对待识别语音数据的语义特征进行第二特征抽取,得到第二意图特征,包括:对待识别语音数据的语义特征进行自注意力处理,得到第二意图特征。

6、其中,对有效语义特征进行池化处理,得到第一意图特征,包括:选取特征值最大的有效语义特征作为第一意图特征;和/或,对待识别语音数据的语义特征进行自注意力处理,得到第二意图特征,包括:选取权重系数满足预设权重条件的语义特征作为第二意图特征,其中,权重系数表征语义特征所对应的语音数据在待识别语音数据中的重要程度。

7、其中,待识别语音数据的语义特征包括待识别语音数据中的各语音帧对应的语义特征,语音边界信息用于表示各语音帧是否为有效语音信息,有效语义特征为属于有效语音信息的语音帧对应的语义特征。

8、其中,在提取待识别语音数据的语义特征之前,还包括:对待识别语音数据进行分帧处理,得到若干语音帧;提取各语音帧的声学特征;提取待识别语音数据的语义特征,包括:对各语音帧的声学特征进行语义提取,得到各语音帧的语义特征;获取待识别语音数据的语音边界信息,包括:对各语音帧的声学特征进行检测,得到语音边界信息。

9、其中,语音边界信息是对待识别语音数据的各语音帧进行语音激活检测得到的;和/或,语义提取是由特征处理网络实现的,语义特征为包含语义信息的隐层特征。

10、本技术第二方面提供了一种意图识别模型的训练方法,包括:利用意图识别模型的特征处理模块提取样本语音数据的样本语义特征;以及利用意图识别模型的检测模块获取样本语音数据的样本语音边界信息,样本语音边界信息用于区分样本语音数据中的有效语音部分和无效语音部分;利用意图识别模型的特征抽取模块基于样本语音边界信息,对有效语音部分对应的样本语义特征进行特征抽取,得到样本意图特征;利用意图识别模型的第一分类模块基于样本意图特征确定样本语音数据的预测意图;利用预测意图以及样本语音数据的标注意图之间的第一差异,调整意图识别模型中各模块的参数。

11、其中,方法还包括:利用掩码语言模型的掩码模块对样本文本进行掩码处理,以得到掩码文本结果;利用特征处理模块提取经掩码文本结果的文本特征;利用掩码语言模型的文本预测模块基于文本特征对掩码文本结果进行还原,得到第一预测文本;利用第一预测文本与样本文本之间的第二差异,调整掩码语言模型中的各模块以及意图识别模型的特征处理模块的参数。

12、其中,在利用掩码语言模型的文本预测模块基于文本特征对掩码文本结果进行还原,得到第一预测文本的步骤之前,还包括:利用第二分类模块对特征处理模块的输出特征进行判别;响应于输出特征判别为文本特征,将输出特征输出至文本预测模块;响应于输出特征判别为语音数据的样本语义特征,将输出特征输出至特征处理模块的解码器,以利用解码器对样本语义特征进行识别,得到第二预测文本,其中,样本语义特征是由意图识别模型的特征提取模块提取得到样本语音数据的声学特征,并由特征处理模块对声学特征进行语义提取得到的;利用第一预测文本与样本文本之间的第二差异,调整掩码语言模型中的各模块以及意图识别模型的特征处理模块的参数,包括:利用第二差异以及第二预测文本与样本语音数据对应的标注文本之间的第三差异,进行参数调整,其中,第二差异用于指示掩码语言模型的各模块、意图识别模型的特征处理模块以及第二分类模块的参数调整,第三差异用于指示第二分类模块、以及意图识别模型的特征提取模块、特征处理模块的参数调整。

13、其中,样本语音边界信息是检测模块对样本语音数据的声学特征进行检测得到,声学特征是由意图识别模型的特征提取模块对样本语音数据提取得到;方法还包括:利用意图识别模型的检测模块对声学特征进行检测处理,得到样本语音数据的至少一种检测信息,至少有一个检测信息包括预测音素状态和预测字边界中的至少一种;利用至少一种检测信息以及对应的标注信息之间的第四差异,调整意图识别模型的特征提取模块和检测模块的参数。

14、其中,样本意图特征包括第一样本意图特征,基于样本语音边界信息,对有效语音部分对应的样本语义特征进行特征抽取,得到样本意图特征,包括:利用样本语音边界信息,查找有效语音部分对应的样本语义特征作为有效样本语义特征;对有效样本语义特征进行第一特征抽取,得到第一样本意图特征。

15、本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的语音意图识别方法,或实现上述第二方面中的意图识别模型的训练方法。

16、本技术第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的语音意图识别方法,或实现上述第二方面中的意图识别模型的训练方法。

17、上述方案,对待识别语音数据进行特征提取,得到语义特征,同时获取待识别语音数据中的语音边界信息,利用语音边界信息以区分待识别语音数据中的有效语音部分和无效语音部分,并根据语音边界信息中所指示的有效语音部分对应的语义特征进行特征抽取,得到意图特征,利用意图特征确定待识别语音数据的意图,使得集中关注有效语音部分,而非无效语音部分,并通过对有效语音部分对应的语义特征进行特征抽取,能更快的确定待识别语音数据中所要表达的意图,从而能够提升语音数据的识别速率和准确性,同时也能避免资源的浪费。而且,本技术能够识别出语音数据的意图,故即使该语音数据为用户自由表达的语音,也可识别出用户用意,进一步提升语音数据的准确性。

18、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23553.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。