使用来自预先训练的语音至文本系统的编码器的编码的音频训练的语言识别分类器的制作方法

国知局
2024-06-21 10:42:56

背景技术：

1、本技术涉及语言识别分类。更具体来说，该技术涉及训练语言识别分类器。

技术实现思路

1、根据本文描述的实施例，一种系统可包括处理器，用于从预先训练的语音至文本(speech-to-text，stt)模型的编码器接收编码的音频。处理器还可进一步使用由语言标记的训练样本来训练语言识别(language identification，lid)分类器以检测编码的音频的语言。

2、根据本文描述的另一实施例，一种方法可包括经由处理器从预先训练的语音至文本(stt)模型的编码器接收编码的音频。该方法可以进一步包括经由处理器使用由语言标记的训练样本来训练语言识别(lid)分类器以检测编码的音频的语言。

3、根据本文描述的另一实施例，一种用于训练语言识别分类器的计算机程序产品可以包括计算机可读存储介质，该计算机可读存储介质具有程序代码。计算机可读存储介质本身不是瞬态信号。程序代码可由处理器执行以致使处理器从预先训练的语音至文本(stt)模型的编码器接收经编码的音频。程序代码还可以致使该处理器使用由语言标记的训练样本来训练语言识别(lid)分类器以检测编码的音频的语言。

技术特征：

1.一种系统，包括处理器，所述处理器用于：

2.根据权利要求1所述的系统，其中，所述编码器包括递归神经网络换能器(rnn-t)编码器。

3.根据权利要求1所述的系统，其中，所述编码器是在一种语言上预先训练的。

4.根据权利要求1所述的系统，其中，所述处理器用于：

5.根据权利要求1所述的系统，其中，所述stt模型包括专用于不同语言的多个预测器，其中，所述lid分类器用于将与待转换成文本的音频样本相对应的第二编码的音频进行分类，并且基于所述分类来选择相应的专用预测器。

6.根据权利要求1所述的系统，其中，所述stt模型的编码器是利用用于不同语言的多个预测器进行预先训练的。

7.根据权利要求1所述的系统，其中，所述编码的音频包括帧级特征向量。

8.一种计算机实现方法，包括：

9.根据权利要求8所述的计算机实现的方法，包括：

10.根据权利要求9所述的计算机实现的方法，包括：响应于检测到所述第二编码的音频未被分类为目标语言，经由处理器停止所述音频样本的处理。

11.根据权利要求9所述的计算机实现的方法，包括：响应于检测到所述第二编码的音频被分类为目标语言，经由处理器基于所述第二编码的音频以及来自所述预先训练的stt模型的预测器的预测生成所述目标语言的文本。

12.根据权利要求8所述的计算机实现的方法，包括：

13.根据权利要求12所述的计算机实现的方法，包括经由所述专用预测器从所述第二编码的音频生成所述文本。

14.根据权利要求12所述的计算机实现的方法，其中，对所述第二编码的音频进行分类包括将软最大值函数应用于汇集的加权平均值的线性投影并且基于具有最高十进制概率的语言种类对所述第二编码的音频进行分类。

15.一种用于训练语言识别分类器的计算机程序产品，所述计算机程序产品包括具有随其包含的程序代码的计算机可读存储介质，所述程序代码可由处理器执行以使所述处理器执行根据执行根据权利要求8-14中任意一项所述的计算机实现的方法。

16.一种系统，所述系统包括分别用于执行根据权利要求8-14中任意一项所述的计算机实现的方法的各个步骤的模块。

技术总结一种示例系统包括处理器，用于从预先训练的语音至文本(STT)模型的编码器接收编码的音频。处理器进一步用于使用由语言标记的训练样本来训练语言标识(LID)分类器以检测编码的音频的语言。技术研发人员：Z·孔受保护的技术使用者：国际商业机器公司技术研发日：技术公布日：2024/2/1

标签：编码器制作方法语音技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/21377.html

上一篇
音频编解码方法、装置、存储介质及计算机程序产品与流程

下一篇
返回列表

使用来自预先训练的语音至文本系统的编码器的编码的音频训练的语言识别分类器的制作方法

相关技术

最新技术

技术分类