技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于掩蔽语音建模的引导数据选择的制作方法  >  正文

用于掩蔽语音建模的引导数据选择的制作方法

  • 国知局
  • 2024-06-21 11:58:26

本公开涉及用于掩蔽语音建模的引导数据选择。

背景技术:

1、自动语音识别(asr),即获取音频输入并将音频输入转录为文本的过程已成为移动装置和其它装置中使用的一项重要技术。通常,自动语音识别试图通过获取音频输入(例如,语音话语)并将音频输入转录为文本而提供人已经说出的内容的准确转录。基于深度神经网络的不断发展,现代asr模型在准确性(例如,低词错率(wer))和时延(例如,用户说话与转录之间的延迟)方面不断提高。然而,开发基于深度学习的asr模型的一个挑战是asr模型的参数往往与训练数据过度拟合,从而导致当训练数据不够广泛时,asr模型难以归纳看不见的数据。因此,在较大的训练数据集上训练asr模型提高asr模型的准确性。能够合并合成语音和/或数据增强语音,以增加用于训练asr模型的训练数据量。

技术实现思路

1、本公开的一个方面提供一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使数据处理硬件执行用于掩蔽语音建模的引导数据选择的操作。该操作包括获得对应于话语的编码表示序列。对于编码表示序列中的每个相应编码表示,该操作包括:使用记分器模型处理相应编码表示以为相应编码表示生成在可能语音识别假设上的对应概率分布;以及向相应编码表示分配置信度分数,作为来自相应编码表示的在可能语音识别假设上的对应概率分布的最高概率。该操作还包括基于分配给编码表示序列的置信度分数,从编码表示序列中选择未掩蔽编码表示的集合以掩蔽。该操作还包括通过掩蔽所选择的未掩蔽编码表示的集合来生成掩蔽编码表示的集合。掩蔽编码表示的集合中的每个掩蔽编码表示对应于所选择的未掩蔽编码表示的集合中的未掩蔽编码表示中的相应一个。

2、本公开的实施方案可以包括以下可选特征中的一个或多个。在一些实施方案中,选择未掩蔽编码表示的集合以掩蔽包括:从编码表示序列中选择具有最高置信度分数的前k个编码表示。在这些实施方案中,k可以基于待掩蔽的编码表示序列中的编码表示的预定比率。可选地,预定比率可以等于百分之四十。

3、在一些示例中,该操作进一步包括:对于用于掩蔽的所选择的未掩蔽编码表示的集合中的每个相应未掩蔽编码表示,使用量化器为相应未掩蔽编码表示生成对应的目标上下文向量。在这些示例中,该操作还包括对于掩蔽编码表示的集合中的每个相应掩蔽编码表示:为相应掩蔽编码表示生成对应的对比上下文向量;以及基于对应的对比上下文向量和对应的目标上下文向量生成对比损失,该对应的目标上下文向量是为相应未掩蔽编码表示生成的,相应未掩蔽编码表示对应于相应掩蔽编码表示,并且使用为掩蔽编码表示的集合生成的对比损失预训练音频编码器。在一些实施方案中,操作进一步包括:对于用于掩蔽的所选择的未掩蔽编码表示的集合中的每个相应未掩蔽编码表示,使用聚类模块为相应未掩蔽编码表示生成对应的k均值聚类;对于掩蔽编码表示的集合中的每个相应掩蔽编码表示,基于对应的对比上下文向量和对应的k均值聚类来生成交叉熵损失,该对应的k均值聚类是为相应未掩蔽编码表示生成的,该相应未掩蔽编码表示对应于相应掩蔽编码表示;以及使用为掩蔽编码表示的集合生成的交叉熵损失预训练音频编码器。

4、操作可以进一步包括基于掩蔽编码表示的集合中的每个相应掩蔽编码表示的对比损失和交叉熵损失来确定最终训练目标,以及使用为掩蔽编码表示的集合生成的最终训练目标预训练音频编码器。在一些实施方案中,操作进一步包括:通过对掩蔽编码表示的集合中的置信度分数取平均来确定话语级置信度分数;基于话语级置信度分数对最终训练目标进行加权;以及使用加权的最终训练目标预训练音频编码器。可选地,操作进一步包括从对比上下文向量中提取瓶颈特征。此处,操作进一步包括使用所提取的瓶颈特征来细化每个对应的k均值聚类。

5、本公开的另一方面提供一种系统,该系统包括数据处理硬件和存储器硬件,该存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作。该操作包括获得对应于话语的编码表示序列。对于编码表示序列中的每个相应编码表示,该操作包括:使用记分器模型处理相应编码表示以为相应编码表示生成在可能语音识别假设上的对应概率分布;以及向相应编码表示分配置信度分数,作为来自相应编码表示的在可能语音识别假设上的对应概率分布的最高概率。该操作还包括基于分配给编码表示序列的置信度分数,从编码表示序列中选择未掩蔽编码表示的集合以掩蔽。该操作还包括通过掩蔽所选择的未掩蔽编码表示的集合来生成掩蔽编码表示的集合。掩蔽编码表示的集合中的每个掩蔽编码表示对应于所选择的未掩蔽编码表示的集合中的未掩蔽编码表示中的相应一个。

6、本公开的实施方案可以包括以下可选特征中的一个或多个。在一些实施方案中,选择未掩蔽编码表示的集合以掩蔽包括:从编码表示序列中选择具有最高置信度分数的前k个编码表示。在这些实施方案中,k可以基于待掩蔽的编码表示序列中的编码表示的预定比率。可选地,预定比率可以等于百分之四十。

7、在一些示例中,该操作进一步包括:对于用于掩蔽的所选择的未掩蔽编码表示的集合中的每个相应未掩蔽编码表示,使用量化器为相应未掩蔽编码表示生成对应的目标上下文向量。在这些示例中,该操作还包括对于掩蔽编码表示的集合中的每个相应掩蔽编码表示:为相应掩蔽编码表示生成对应的对比上下文向量;以及基于对应的对比上下文向量和对应的目标上下文向量生成对比损失,该对应的目标上下文向量是为相应未掩蔽编码表示生成的,相应未掩蔽编码表示对应于相应掩蔽编码表示,并且使用为掩蔽编码表示的集合生成的对比损失预训练音频编码器。在一些实施方案中,该操作进一步包括:对于用于掩蔽的所选择的未掩蔽编码表示的集合中的每个相应未掩蔽编码表示,使用聚类模块为相应未掩蔽编码表示生成对应的k均值聚类;对于掩蔽编码表示的集合中的每个相应掩蔽编码表示,基于对应的对比上下文向量和对应的k均值聚类来生成交叉熵损失,该对应的k均值聚类是为相应未掩蔽编码表示生成的,该相应未掩蔽编码表示对应于相应掩蔽编码表示;以及使用为掩蔽编码表示的集合生成的交叉熵损失预训练音频编码器。

8、操作可以进一步包括基于掩蔽编码表示的集合中的每个相应掩蔽编码表示的对比损失和交叉熵损失来确定最终训练目标,以及使用为掩蔽编码表示的集合生成的最终训练目标预训练音频编码器。在一些实施方案中,操作进一步包括:通过对掩蔽编码表示的集合中的置信度分数取平均值来确定话语级置信度分数;基于话语级置信度分数对最终训练目标进行加权;以及使用加权的最终训练目标预训练音频编码器。可选地,操作进一步包括从对比上下文向量中提取瓶颈特征。此处,操作进一步包括使用所提取的瓶颈特征来细化每个对应的k均值聚类。

9、下文在附图和具体实施方式中阐述本公开的一个或多个实施方案的细节。其它方面、特征和优点将从具体实施方式和附图以及从权利要求书变得显而易见。

技术特征:

1.一种用于掩蔽语音建模的引导数据选择的计算机实现的方法(500),所述计算机实现的方法(500)当在数据处理硬件(610)上执行时使所述数据处理硬件(610)执行操作,所述操作包括:

2.根据权利要求1所述的计算机实现的方法(500),其中选择所述未掩蔽编码表示(211)的集合以掩蔽包括:从所述编码表示(211)序列中选择具有最高置信度分数(416)的前k个编码表示(211)。

3.根据权利要求2所述的计算机实现的方法(500),其中k基于待掩蔽的所述编码表示(211)序列中的编码表示(211)的预定比率。

4.根据权利要求3所述的计算机实现的方法(500),其中所述预定比率等于百分之四十。

5.根据权利要求1至4中任一项所述的计算机实现的方法(500),其中所述操作进一步包括:

6.根据权利要求5所述的计算机实现的方法(500),其中所述操作进一步包括:

7.根据权利要求6所述的计算机实现的方法(500),其中所述操作进一步包括:

8.根据权利要求7所述的计算机实现的方法(500),其中所述操作进一步包括:

9.根据权利要求6至8中任一项所述的计算机实现的方法(500),其中所述操作进一步包括从所述对比上下文向量(215)中提取瓶颈特征(217)。

10.根据权利要求9所述的计算机实现的方法(500),其中所述操作进一步包括使用所提取的瓶颈特征(217)细化每个对应的k均值聚类(223)。

11.一种系统(100),包括:

12.根据权利要求11所述的系统(100),其中选择所述未掩蔽编码表示(211)的集合以掩蔽包括:从所述编码表示(211)序列中选择具有最高置信度分数(416)的前k个编码表示(211)。

13.根据权利要求12所述的系统(100),其中k基于待掩蔽的编码表示(211)序列中的编码表示(211)的预定比率。

14.根据权利要求13所述的系统(100),其中所述预定比率等于百分之四十。

15.根据权利要求11至14中任一项所述的系统(100),其中所述操作进一步包括:

16.根据权利要求15所述的系统(100),其中所述操作进一步包括:

17.根据权利要求16所述的系统(100),其中所述操作进一步包括:

18.根据权利要求17所述的系统(100),其中所述操作进一步包括:

19.根据权利要求16至18中任一项所述的系统(100),其中所述操作进一步包括从所述对比上下文向量(215)中提取瓶颈特征(217)。

20.根据权利要求19所述的系统(100),其中所述操作进一步包括使用所提取的瓶颈特征(217)细化每个对应的k均值聚类(223)。

技术总结一种用于掩蔽语音建模的引导数据选择的方法(500)包括获得对应于话语(100)的编码表示(211)序列。对于每个相应编码表示,所述方法包括:处理所述相应编码表示以生成在可能语音识别假设(412)上的对应概率分布(414);以及向所述相应编码表示分配置信度分数(416),作为来自在可能语音识别假设上的所述对应概率分布的最高概率。所述方法还包括基于分配给所述编码表示序列的所述置信度分数选择未掩蔽编码表示的集合以掩蔽。所述方法作还包括通过掩蔽所选择的未掩蔽编码表示的集合来生成掩蔽编码表示(211m)的集合。此处,每个掩蔽编码表示对应于所述所选择的未掩蔽编码表示的集合中的所述未掩蔽编码表示中的相应一个。技术研发人员:安德鲁·罗森伯格,布瓦那·拉马巴德兰,张羽,穆拉利·卡蒂克·巴什卡尔受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/6/13

本文地址:https://www.jishuxx.com/zhuanli/20240618/24813.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。