技术新讯 > 乐器声学设备的制造及制作,分析技术 > 话音活动检测集成以改进自动讲话检测的制作方法  >  正文

话音活动检测集成以改进自动讲话检测的制作方法

  • 国知局
  • 2024-06-21 10:43:16

背景技术:

1、本文中的一个或多个实施例总体上涉及通常与话音(voice)活动检测(vad)模型一起部署以运行自动讲话(speech)识别(asr)的asr系统,并且更具体地涉及接收asr信息的递归神经网络换能器(rnn-t)的多任务训练。

技术实现思路

1、下文呈现概述以提供对本文描述的一个或多个实施例的基本理解。本概述并不旨在标识关键或重要的元素,或描绘特定实施例的任何范围或权利要求的任何范围。技术实现要素:的唯一目的是以简化形式呈现概念,作为稍后呈现的更详细描述的序言。在本文所描述的一个或多个实施例中,描述了可以促进一个或多个统计集的更新(诸如训练)的设备、系统、计算机实现的方法、装置和/或计算机程序产品。

2、根据实施例,系统可以包括存储计算机可执行组件的存储器和执行存储在存储器中的计算机可执行组件的处理器。计算机可执行组件可包括经由多任务训练接收自动讲话识别信息的递归神经网络换能器(rnn-t)。rnn-t可包括编码器,其中编码器的一个或多个输出可与rnn-t的联合网络集成。进一步,编码器的所述一个或一个以上输出可与话音活动检测(vad)模型的所述一个或一个以上输出集成。

3、根据另一实施例,一种计算机实现的方法可以包括由可操作地耦合到处理器的系统接收自动讲话识别(asr)信息。计算机实现的方法还可包括由处理器使用asr信息来多任务训练rnn-t。计算机实现的方法可由处理器将rnn-t的编码器与rnn-t的联合网络和/或vad模型的一个或多个输出集成,以改善噪声鲁棒性。

4、根据又一实施例,一种用于使用vad模型来训练rnn-t的计算机程序产品可包括计算机可读储存媒体,所述计算机可读储存媒体具有以其体现的程序指令,可由处理器执行的程序指令可致使处理器通过处理器接收asr信息。程序产品可使处理器使用asr信息来多任务训练rnn-t和/或将rnn-t的编码器与rnn-t的联合网络和vad模型的一个或多个输出集成。

技术特征:

1.一种系统,包括:

2.根据权利要求1所述的系统,其中,所述编码器用作用于所述vad模型和所述rnn-t的活动的共享层。

3.根据权利要求1所述的系统,其中,所述编码器经由预训练的vad模型将所述rnn-t的一个或多个输入分类为一个或多个讲话活动类别。

4.根据权利要求1所述的系统,其中,所述vad模型作为所述rnn-t的子任务来操作。

5.根据权利要求1所述的系统,其中,所述编码器的所述一个或多个输出被传输至所述联合网络。

6.根据权利要求1所述的系统,其中,所述编码器的所述一个或多个输出通过经由全连接层将所述vad模型的所述一个或多个输出投影到与所述编码器的所述一个或多个输出相同的维度中而与所述vad模型的所述一个或多个输出集成。

7.根据权利要求6所述的系统,其中,在所述编码器的所述一个或多个输出与所述vad模型的所述一个或多个输出之间应用逐元素求和运算,以提高对噪声的稳健性。

8.根据权利要求1所述的系统,其中,所述系统基于vad参数进行优化;并且所述vad模型和rnn-t进行联合优化。

9.根据权利要求8所述的系统,其中,通过冷冻所述asr信息和所述vad参数中的至少一个的一个或多个参数以确定反向传播来进一步优化所述系统。

10.根据权利要求1所述的系统,其中,一个或多个非讲话段被添加到所述asr信息的一个或多个讲话段,以主动地训练所述vad模型和所述rnn-t。

11.一种计算机实现方法,包括:

12.根据权利要求11所述的计算机实现方法,其中,所述编码器用作用于所述vad模型和所述rnn-t的活动的共享层。

13.根据权利要求11所述的计算机实现方法,进一步包括:

14.根据权利要求11所述的计算机实现方法,进一步包括:

15.根据权利要求11所述的计算机实现方法,进一步包括:

16.根据权利要求15所述的计算机实现的方法,进一步包括:

17.一种用于利用话音活动检测(vad)模型训练递归神经网络换能器(rnn-t)的计算机程序产品,所述计算机程序产品包括具有体现在其中的程序指令的计算机可读存储介质,所述程序指令可由处理器执行以使所述处理器:

18.根据权利要求17所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:

19.根据权利要求17所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:

20.根据权利要求19所述的计算机程序产品,其中,所述程序指令进一步使所述处理器:

技术总结本公开涉及话音活动检测集成以改进自动讲话检测。提供了用于促进使用自动讲话识别(ASR)信息对递归神经网络换能器(RNN‑T)进行多任务训练的系统、计算机实现的方法、和计算机程序产品。根据实施例,系统可以包括存储计算机可执行组件的存储器和执行存储在存储器中的计算机可执行组件的处理器。计算机可执行组件可包括可接收ASR信息的RNN‑T。计算机可执行组件可包括使用ASR信息来训练RNN‑T的话音活动检测(VAD)模型,其中RNN‑T可进一步包括编码器和联合网络。编码器的一个或多个输出可与联合网络和VAD模型的一个或多个输出集成。技术研发人员:S·诺维塔萨里,福田隆,仓田岳人受保护的技术使用者:国际商业机器公司技术研发日:技术公布日:2024/2/1

本文地址:https://www.jishuxx.com/zhuanli/20240618/21378.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。