技术新讯 > 乐器声学设备的制造及制作,分析技术 > 唤醒词识别模型的训练和执行方法、装置及存储介质与流程  >  正文

唤醒词识别模型的训练和执行方法、装置及存储介质与流程

  • 国知局
  • 2024-06-21 11:44:02

本技术涉及计算机,尤其涉及唤醒词识别模型的训练和执行方法、训练装置、唤醒词识别模型及计算机可读存储介质。

背景技术:

1、唤醒词识别任务旨在从音频中检测到一些预定义的唤醒词,当前业界的唤醒词识别系统有三种主流的建模方法。第一种是分类法,将输入的语音信号归类到一些预先设定好的唤醒词类别中。第二种方法是特征向量比对法,其通过比较两段音频的特征向量,从而确定它们是否包含相同的唤醒词。第三种方法是借助于语音识别模型,将解码得到的文本和唤醒词文本进行匹配。上述后两种建模方法自带支持自定义唤醒词的功能,而第一种分类法则无法对除预定唤醒词之外的词汇进行分类。然而,特征向量比对法在对比唤醒词信息的同时也比较了说话人的音色,使得其在识别来自多个说话人唤醒词的场景功能受限。基于语音识别系统的方法则需要借助一个强大的语音识别系统,语音识别系统的准确性则受到嵌入式系统的计算和存储限制。综上,尽管分类法缺少直接使用自定义唤醒词的能力,但其在较少参数量下依旧能有良好表现,因此分类法在唤醒词识别领域依然具有强大的竞争力。

2、随着智能产品的发展,用户对于能够使用自定义唤醒词的需求日益增加。在定制自定义唤醒词系统的过程中,通常需要使用大量录制好的自定义唤醒词录音,这个数据收集的过程耗时且成本高。

3、使用语音合成系统生成训练语料是增加训练数据的一种方法,现有技术大多使用基于语音识别模型的唤醒词识别。这些技术通常是在大量语音识别训练数据的基础上,针对一些需要识别但是在数据库中出现较少的词汇进行语音合成,随后将合成的语料加入到现有的数据集中一同使用。此外,有一些技术使用合成语料训练分类式唤醒词识别系统,然而这些技术中使用的语音合成系统能够合成的音色是固定的,不具有足够的多样性。所以这些技术仍然把合成的语料作为真实语料的额外附加项使用,无法真正脱离对真实语料的依赖。

4、因此,随着语音交互功能的快速发展,如何合成多样的唤醒词音频作为唤醒词系统的训练数据,并且移除自定义唤醒词系统对于真实数据的依赖是本领域亟需解决的技术问题之一。

技术实现思路

1、本技术旨在至少解决现有技术或相关技术中存在的技术问题之一,为此,本技术提供一种唤醒词识别模型的训练和执行方法、训练装置、唤醒词识别模型及计算机可读存储介质。

2、根据本技术的第一方面,提供了一种唤醒词识别模型的训练方法,唤醒词识别模型包括编码器、唤醒词分类分支和语音识别分支,该方法包括:获取音频样本;将音频样本输入至编码器以生成含有文本信息的特征向量;根据特征向量分别对唤醒词分类分支和语音识别分支进行训练,包括:向唤醒词分类分支和语音识别分支分别输入特征向量;其中,唤醒词分类分支用于将所输入的特征向量区分为包含唤醒词的正样本和不包括唤醒词的负样本,语音识别分支用于识别所输入的特征向量的文本序列;以及,利用唤醒词分类分支的输出结果和/或语音识别分支的输出结果调整编码器的参数,以得到更新后的编码器。

3、作为本技术的一个实施例,根据特征向量分别对唤醒词分类分支和语音识别分支进行训练还包括:利用唤醒词分类分支的输出结果和语音识别分支的输出结果分别调整唤醒词分类分支的参数和语音识别分支的参数,以得到更新后的唤醒词分类分支和语音识别分支分支。

4、作为本技术的一个实施例,音频样本包括正样本语料和负样本语料;其中正样本语料是指合成的唤醒词语料;负样本语料包括合成的负样本语料、真实的负样本语料以及真实噪音数据中的一种或多种。

5、作为本技术的一个实施例,唤醒词分类分支的所输入的特征向量源自合成的唤醒词语料、合成的负样本语料、真实的负样本语料以及真实噪音数据。

6、作为本技术的一个实施例,语音识别分支的所输入的特征向量至少源自合成的唤醒词语料、合成的负样本语料、真实的负样本语料。

7、作为本技术的一个实施例,该训练方法还包括:利用至少一种语音合成模型生成合成语音信号,以作为合成的唤醒词语料和/或合成的负样本语料。

8、作为本技术的一个实施例,语音合成模型包括文本编码器和语音特征解码器;并且,生成合成语音信号包括:利用给定的文本和参考语音音频进行语音合成,以生成合成的唤醒词语料和/或合成的负样本语料。

9、作为本技术的一个实施例,文本编码器选自以下至少一个:输入文本的文本编码器,用于将输入的文本编码为含有语义信息的语音特征表示;输入文本和参考语音的文本编码器,用于将输入的文本和参考语音编码为含有语义信息的语音特征表示;以及,输入文本和提示词的文本编码器,用于基于提示词将输入的文本编码为含有语义信息的语音特征表示。

10、作为本技术的一个实施例,语音特征解码器选自声码器解码器或神经编解码器;并且,生成合成语音信号还包括:从文本编码器获得语音特征表示;以及,将语音特征表示转换成合成语音信号。

11、作为本技术的一个实施例,语音合成模型还包括扩散解码器;并且,生成合成语音信号还包括:对文本编码器输出的语音特征表示进行去噪,以获得精细语音特征表示。

12、作为本技术的一个实施例,扩散解码器为引导式或微调式扩散解码器;并且,生成合成语音信号还包括:用于生成给定参考语音音色的语音特征表示。

13、作为本技术的一个实施例,生成合成语音信号还包括:将扩散解码器生成的精细语音特征表示输入语音特征解码器,以转换成合成语音信号。

14、作为本技术的一个实施例,唤醒词分类分支是神经网络结构,其至少包括与编码器连接的第一全连接层结构;利用唤醒词分类分支的输出结果,调整唤醒词分类分支的参数包括:获得用于唤醒词分类分支的第一标签数据;其中,第一标签数据用于表征特征向量中是否包含唤醒词;将第一标签数据作为第一监督学习目标输入至第一全连接层结构,以调整唤醒词分类分支和/或编码器的参数。

15、作为本技术的一个实施例,该训练方法还包括:确定唤醒词分类分支的第一损失函数;并且,调整唤醒词分类分支的参数还包括:根据第一损失函数的计算值迭代更新唤醒词分类分支的参数,直至收敛,以得到更新后的唤醒词分类分支。

16、作为本技术的一个实施例,语音识别分支是神经网络结构,其至少包括与编码器连接的第二全连接层结构;利用唤语音识别分支的输出结果,调整语音识别分支的参数包括:获得用于语音识别分支的第二标签数据;其中,第二标签数据用于表征特征向量对应的文本序列;将第二标签数据作为第二监督学习目标输入至第二全连接层结构,以调整语音识别分支和/或编码器的参数。

17、作为本技术的一个实施例,该训练方法还包括:确定语音识别分支的第二损失函数;并且,调整语音识别分支的的参数还包括:根据第二损失函数的计算值迭代更新语音识别分支的参数,直至收敛,以得到更新后的语音识别分支。

18、根据本技术的第二方面,还提供了一种唤醒词识别模型的执行方法,包括:获取待检测语音数据;将待检测语音数据输入至经过上述任意训练方法训练后的唤醒词识别模型中;获取唤醒词分类分支的输出结果;以及,基于唤醒词分类分支的输出结果输出唤醒词识别模型的唤醒结果。

19、根据本技术的第三方面,还提供了唤醒词识别模型的训练装置,唤醒词识别模型包括编码器、唤醒词分类分支和语音识别分支,装置包括获取模块、生成模块和训练模块;该获取模块用于获取音频样本;该生成模块用于将音频样本输入至编码器以生成特征向量;该训练模块用于根据特征向量分别对唤醒词分类分支和语音识别分支进行训练,包括:向唤醒词分类分支和语音识别分支分别输入特征向量;其中,唤醒词分类分支用于将所输入的特征向量区分为包含唤醒词的正样本和不包括唤醒词的负样本,以及语音识别分支用于识别所输入的特征向量的文本序列;以及,利用唤醒词分类分支的输出结果和/或语音识别分支的输出结果调整编码器的参数,以得到更新后的编码器。

20、根据本技术的第四方面,还提供了一种唤醒词识别模型,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现上述任意训练方法和/或上述任意执行方法。

21、根据本技术的第五方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意训练方法和/或上述任意执行方法。

22、根据本技术的第六方面,还提供了一种计算机程序,其被处理器执行时实现上述任意训练方法和/或上述任意执行方法。

23、本技术实施例的唤醒词识别模型的训练方法,一方面,利用唤醒词分支的输出结果和语音识别分支的输出结果对编码器进行训练,避免唤醒词识别模型的过拟合;另一方面,使用至少一种基于文本编码器和语音特征表示解码器的语音合成模型生成语料,增加合成语音的多样性,提升唤醒词识别模型的泛化能力;从而提高唤醒词识别模型的识别准确率。

24、另外,本技术实施例的唤醒词识别模型的执行方法基于上述经训练的唤醒词识别模型,能够显著提升唤醒词识别模型的识别准确率,极大提高唤醒词识别的性能。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23200.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。