技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音识别中的自监督学习的高级聚类的制作方法  >  正文

用于语音识别中的自监督学习的高级聚类的制作方法

  • 国知局
  • 2024-06-21 11:41:02

背景技术:

1、自动语音识别(asr)系统和其他语音处理系统用于处理和解码音频数据,以检测语音话语(例如,单词、短语和/或句子)。随后,经处理的音频数据被用于各种下游任务,诸如基于搜索的查询、语音到文本的转录、语言翻译等。训练自动语音识别系统通常需要大量经标记语音数据。因此,收集大量经转录数据的需求一直是一个长期存在的问题,尤其是对于资源匮乏的领域和语言而言。最近,自监督学习(ssl)已经成为解决这一问题的一种范式。用于语音任务的ssl利用未标记数据从输入语音中学习上下文表示。先前的工作已经完成,以通过以输入序列的其余部分为条件来掩蔽输入文本令牌(token)来训练机器学习模型。

2、然而,这种方法并不直接应用于大多数语音信号,因为与文本令牌不同,语音令牌是连续值序列,不容易用作预测目标。这是因为在语音信号中没有可以被用来将语音分割成具有语言意义的片段的明确边界。在一些办法中,已经使用伪标记来训练asr模型。然而,一些模型,诸如可以利用伪标记的来自变换器的隐藏单元双向编码器表示(hubert),需要执行两个或更多个阶段的迭代训练。这是因为伪标记质量在准确度方面受到一定限制,并且必须经历一轮或多轮预训练以提高伪标记和/或伪标记训练模型的准确度。鉴于上述情况,目前需要用于生成用于训练asr模型的伪标记训练数据的改进的系统和方法。

3、本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反,提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。

技术实现思路

1、所公开的实施例包括用于从未标记训练数据生成伪标记训练数据以及用于使用伪标记训练数据来预训练语音处理模型的系统、方法和设备。一些公开的系统还被配置成通过将伪标记训练数据应用于语音处理模型来生成经预训练的语音处理模型。

2、所公开的实施例包括被配置成访问未标记语音数据集并生成用于未标记语音数据的伪标记的系统和方法。在一些情况下,伪标记是通过基于将自动语音识别模型应用于未标记语音数据集而从该自动语音识别模型提取中间输出集合来生成的。该系统被配置成将该中间输出集合聚类到不同聚类中。不同聚类中的每一聚类包括中间输出集合的不同子集。然后,该系统生成第一伪标记集,该第一伪标记集包括与不同聚类相关联并且对应于未标记语音数据的聚类分配。

3、作为补充或替换,该系统通过将自动语音识别模型应用于未标记语音数据集来生成未标记语音数据的经解码单词序列集,来生成伪标记。该系统随后通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。在生成第一或第二伪标记集之后,该系统通过将未标记语音数据集与(i)第一伪标记集或(ii)第二伪标记集相组合来生成伪标记训练数据集。

4、提供本技术实现要素:以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,亦非旨在用于帮助确定所要求保护的主题的范围。

5、附加特征和优点将在以下描述中阐述,且部分会从描述中显而易见,或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见,或者可以通过如下文所阐述的本发明的实践来习得。

技术特征:

1.一种用于从未标记训练数据生成伪标记训练数据的方法,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,还包括:

3.根据权利要求2所述的方法,其特征在于,所述语音处理模型是声学模型。

4.根据权利要求2所述的方法,其特征在于,还包括:

5.根据权利要求4所述的方法,其特征在于,所述自动语音识别模型先前在所述经标记训练数据上进行了训练。

6.根据权利要求4所述的方法,其特征在于,所述自动语音识别模型先前在与所述经标记训练数据不同的经标记语音数据集上进行了训练。

7.根据权利要求2所述的方法,其特征在于,所述第二组伪标记包括音素序列。

8.根据权利要求7所述的方法,其特征在于,所述音素序列是在帧级别生成的。

9.根据权利要求8所述的方法,其特征在于,所述方法包括通过对所述伪标记训练数据集至少执行基于音素的掩蔽来训练所述语音处理模型。

10.根据权利要求1所述的方法,其特征在于,所述第二伪标记集包括字形单元。

11.根据权利要求1所述的方法,其特征在于,对所述中间输出集合进行聚类包括将k均值聚类算法或谱聚类算法中的一者应用于所述中间输出集合。

12.根据权利要求1所述的方法,其特征在于,所述聚类指派是在帧级别生成的。

13.根据权利要求1所述的方法,其特征在于,所述中间输出集合包括与所述自动语音识别模型的一个或多个隐藏层相关联的隐藏层嵌入。

14.根据权利要求1所述的方法,其特征在于,所述方法包括通过以下步骤为所述未标记语音数据集生成伪标记:

15.一种被配置成使用伪标记训练数据来生成经预训练的语音处理模型的计算系统,所述计算系统包括:

技术总结提供了用于通过以下中的至少一者来生成伪标记训练数据集的系统和方法:(1)基于将自动语音识别模型应用于未标记语音数据集,从自动语音识别模型提取中间输出集合,将中间输出集合聚类成不同聚类,以及生成包括与不同聚类相关联并且与未标记语音数据相对应的聚类分配的第一伪标记集,或者(2)通过将自动语音识别模型应用于未标记语音数据集来为未标记语音数据生成经解码单词序列集,以及通过将自动语音识别模型应用于(i)经解码单词序列集和(ii)未标记语音数据集这两者,来生成与未标记语音数据相关联的第二伪标记集。技术研发人员:王一鸣,王程一,李锦宇,吴俣,刘树杰受保护的技术使用者:微软技术许可有限责任公司技术研发日:技术公布日:2024/3/31

本文地址:https://www.jishuxx.com/zhuanli/20240618/22884.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。