技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种训练语音编码模型的方法、装置、设备及介质与流程  >  正文

一种训练语音编码模型的方法、装置、设备及介质与流程

  • 国知局
  • 2024-06-21 11:53:46

所属的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。关于上述实施例中的装置,其中各个模块的具体执行方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。基于相同的发明构思,本技术实施例提供一种训练语音编码模型的装置,该装置解决问题的原理与上述实施例的方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。如图10所示,本技术实施例提供一种训练语音编码模型的装置100,包括获取模块101和训练模块102。获取模块101,用于获取样本集,所述样本集中的每个样本包含样本语音及相应的增强语音,所述增强语音是对相应的样本语音进行增强处理后获得的;训练模块102,用于基于样本集对待训练的语音编码模型进行迭代训练,获得已训练的目标语音编码模型,其中,在每一轮迭代训练中,执行以下操作:将样本集中的至少两个样本分别输入语音编码模型的特征提取模块,获得每个样本对应的原始语音特征以及增强语音特征;针对各样本分别执行以下操作:将一个样本对应的原始语音特征与第一随机特征,输入语音编码模型的编码模块,获得第一随机特征的第一编码,以及将一个样本对应的增强语音特征与第二随机特征,输入语音编码模型的编码模块,获得第二随机特征的第二编码;第一随机特征和所述第二随机特征,分别表征样本语音和增强语音的全局信息;基于各样本各自对应的第一编码以及第二编码,确定第一损失值,并基于第一损失值对语音编码模型进行调参。本技术实施例中,在上述对语音编码模型训练过程中加入能够表征全局信息的第一随机特征与第二随机特征,以使在实际应用过程中,基于目标语音编码模型获得的目标语音编码中包括带有全局信息的语音编码,以使该目标语音编码在使用中不会局限于单个语音帧进行编码,而是兼顾整条语音的全局信息进行编码,进而提高对对象语音编码的准确性。在一种可能的实施例中,训练模块102具体用于:针对各样本分别执行以下操作:基于余弦距离算法,根据一个样本对应的第一编码的向量表示,以及一个样本对应的第二编码的向量表示,确定一个样本对应的第一编码和第二编码之间的第一相似度;以及基于余弦距离算法,根据一个样本对应的第一编码的向量表示,以及各个其它样本对应的第二编码的向量表示,确定一个样本对应的第一编码分别与各其它样本的第二编码之间的第二相似度;基于样本的个数,以及各样本各自对应的第一相似度以及各个第二相似度,确定第一损失值。在一种可能的实施例中,训练模块102还用于:针对各样本分别执行以下操作:将一个样本的原始语音特征进行量化处理,获得多个语音帧各自对应的量化特征,并基于获得的多个量化特征,确定每个量化特征对应的第二损失值;对多个量化特征各自对应的第二损失值进行加权平均处理,得到一个样本的量化对比损失值;对各样本各自对应的量化对比损失值进行加权平均处理,得到量化对比总损失值;则基于第一损失值对语音编码模型进行调参,包括:基于第一损失值以及量化对比总损失值,确定总损失值;并基于总损失值对语音编码模型进行调参。在一种可能的实施例中,训练模块102具体用于:针对多个量化特征中的任意一个量化特征,分别执行以下操作:从多个量化特征中获取一个量化特征对应的相邻量化特征以及各个非相邻量化特征;基于余弦距离算法,根据一个量化特征的向量表示,以及对应的相邻量化特征的向量表示,确定一个量化特征与对应的相邻量化特征之间的第三相似度;以及基于余弦距离算法,根据一个量化特征的向量表示,以及对应的各非相邻量化特征的向量表示,分别确定一个量化特征与对应的各非相邻量化特征之间的第四相似度;基于确定的第三相似度以及各第四相似度,确定一个量化特征对应的第二损失值。在一种可能的实施例中,训练模块102还用于:针对各样本分别执行以下操作:将一个样本的原始语音特征中包含的至少一个语音帧子特征进行掩码处理,获得包含各掩码子特征的原始语音特征;通过语音编码模型的编码模块,对包含各掩码子特征的原始语音特征进行编码,获得各掩码子特征各自对应的掩码编码;基于获得的各掩码编码以及一个样本的多个量化特征,确定每个掩码编码对应的第三损失值,并基于各掩码编码各自对应的第三损失值,确定一个样本的掩码对比损失值;基于各样本各自对应的掩码对比损失值,确定掩码对比总损失值;则基于第一损失值以及量化对比总损失值,确定总损失值,并基于总损失值对语音编码模型进行调参,还包括:基于第一损失值、量化对比总损失值以及掩码对比总损失值,确定总损失值,并基于总损失值对语音编码模型进行调参。在一种可能的实施例中,训练模块102具体用于:从一个样本的多个量化特征中选择至少一个目标量化特征,每个目标量化特征与一个掩码编码相对应;针对多个掩码编码中的任意一个掩码编码,分别执行以下操作:基于余弦距离算法,根据一个掩码编码的向量表示,以及对应的目标量化特征的向量表示,确定一个掩码编码与对应的目标量化特征之间的第五相似度;以及基于余弦距离算法,根据一个掩码编码的向量表示,以及对应的除各目标量化特征之外的其它量化特征的向量表示,分别确定一个掩码编码与对应的除各目标量化特征之外的其它量化特征之间的第六相似度;基于确定的第五相似度以及各第六相似度,确定一个掩码编码对应的第三损失值。在一种可能的实施例中,训练模块102还用于:获得多个目标语音,以及多个目标语音各自对应的指令文本;将多个目标语音输入目标语音编码模型,获得多个目标语音各自对应的目标语音编码,以及将多个指令文本分别输入文本编码模型,获得多个指令文本各自对应的文本编码;针对多个目标语音编码分别执行以下操作:基于一个目标语音编码与相应的文本编码,确定第四损失值;基于获得的多个第四损失值分别对目标语音编码模型与文本编码模型进行调参。在一些可能的实施方式中,根据本技术的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本技术各种示例性实施方式的训练语音编码模型的方法中的步骤。与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种电子设备,该电子设备解决问题的原理与上述实施例的方法相似,因此该电子设备的实施可以参见上述方法的实施,重复之处不再赘述。参阅图11所示,电子设备110可以至少包括处理器111、以及存储器112。其中,所述存储器112存储有程序代码,当所述程序代码被所述处理器111执行时,使得所述处理器111执行本技术上述实施例中的任一训练语音编码模型的方法的步骤。下面参照图12来描述根据本技术的这种实施方式的电子设备120。图12的电子设备120仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。如图12,电子设备120以通用电子设备的形式表现。电子设备120的组件可以包括但不限于:至少一个处理单元121、上述至少一个存储单元122、连接不同系统组件(包括存储单元122和处理单元121)的总线123。总线123表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元122可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)1221和/或高速缓存存储单元1222,还可以进一步包括只读存储器(rom)1223。存储单元122还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225,这样的程序模块1224包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。电子设备120也可以与一个或多个外部设备124(例如键盘、指向设备等)通信,还可与一个或者多个使得对象能与电子设备120交互的设备通信,和/或与使得该电子设备120能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口125进行。并且,电子设备120还可以通过网络适配器126与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器126通过总线123与用于电子设备120的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备120使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。与上述方法实施例基于同一发明构思,本技术提供的训练语音编码模型的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的训练语音编码模型方法中的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

背景技术:

1、随着语音识别技术在生活中的广泛应用,人们对识别语音的要求也越来越高,而语音编码是语音识别技术能够更准确识别语音的前提,因此,得到编码效果更好的语音编码尤为重要。

2、相关技术中,在语音编码模型的训练过程中,通常基于样本语音包含的每一语音帧的语音特征,对相应的语音帧进行编码,这使得采用已训练的语音编码模型,只能从语音帧维度对语音数据进行编码。

3、然而,当不同的语音数据具有相似的语音帧时,采用已训练的语音编码模型对其进行编码,将会获得多个较为相似的编码数据,从而无法准确区分语音数据和编码数据之间的对应关系,使得语音编码效果较差。

4、这样,当将上述语音编码模型应用于下游语音识别任务时(例如:机器人语音问答任务)时,会严重影响语音识别准确率。

技术实现思路

1、本技术提供了一种训练语音编码模型的方法、装置、设备及介质,用以提高语音编码效果,进而提高语音识别的准确率。

2、第一方面,本技术提供一种训练语音编码模型的方法,所述方法包括:

3、获取样本集,所述样本集中的每个样本包含样本语音及相应的增强语音,所述增强语音是对相应的样本语音进行增强处理后获得的;

4、基于所述样本集对待训练的语音编码模型进行迭代训练,获得已训练的目标语音编码模型,其中,在每一轮迭代训练中,执行以下操作:

5、将所述样本集中的至少两个样本分别输入所述语音编码模型的特征提取模块,获得每个样本对应的原始语音特征以及增强语音特征;

6、针对各样本分别执行以下操作:将一个样本对应的原始语音特征与第一随机特征,输入所述语音编码模型的编码模块,获得所述第一随机特征的第一编码,以及将所述一个样本对应的增强语音特征与第二随机特征,输入所述语音编码模型的编码模块,获得所述第二随机特征的第二编码;所述第一随机特征和所述第二随机特征,分别表征所述样本语音和所述增强语音的全局信息;

7、基于各样本各自对应的第一编码以及第二编码,确定第一损失值,并基于所述第一损失值对所述语音编码模型进行调参。

8、第二方面,本技术实施例提供一种训练语音编码模型的装置,包括:

9、获取模块,用于获取样本集,所述样本集中的每个样本包含样本语音及相应的增强语音,所述增强语音是对相应的样本语音进行增强处理后获得的;

10、训练模块,用于基于所述样本集对待训练的语音编码模型进行迭代训练,获得已训练的目标语音编码模型,其中,在每一轮迭代训练中,执行以下操作:

11、将所述样本集中的至少两个样本分别输入所述语音编码模型的特征提取模块,获得每个样本对应的原始语音特征以及增强语音特征;

12、针对各样本分别执行以下操作:将一个样本对应的原始语音特征与第一随机特征,输入所述语音编码模型的编码模块,获得所述第一随机特征的第一编码,以及将所述一个样本对应的增强语音特征与第二随机特征,输入所述语音编码模型的编码模块,获得所述第二随机特征的第二编码;所述第一随机特征和所述第二随机特征,分别表征所述样本语音和所述增强语音的全局信息;

13、基于各样本各自对应的第一编码以及第二编码,确定第一损失值,并基于所述第一损失值对所述语音编码模型进行调参。

14、在一种可能的实施例中,所述基于各样本各自对应的第一编码以及第二编码,确定第一损失值,所述训练模块具体用于:

15、针对各样本分别执行以下操作:基于余弦距离算法,根据所述一个样本对应的第一编码的向量表示,以及所述一个样本对应的第二编码的向量表示,确定所述一个样本对应的第一编码和第二编码之间的第一相似度;以及基于余弦距离算法,根据所述一个样本对应的第一编码的向量表示,以及各个其它样本对应的第二编码的向量表示,确定所述一个样本对应的第一编码分别与各其它样本的第二编码之间的第二相似度;

16、基于样本的个数,以及各样本各自对应的第一相似度以及各个第二相似度,确定所述第一损失值。

17、在一种可能的实施例中,所述训练模块还用于:

18、针对各样本分别执行以下操作:将所述一个样本的原始语音特征进行量化处理,获得多个语音帧各自对应的量化特征,并基于获得的多个量化特征,确定每个量化特征对应的第二损失值;对所述多个量化特征各自对应的第二损失值进行加权平均处理,得到所述一个样本的量化对比损失值;

19、对各样本各自对应的量化对比损失值进行加权平均处理,得到量化对比总损失值;

20、则所述基于所述第一损失值对所述语音编码模型进行调参,包括:

21、基于所述第一损失值以及所述量化对比总损失值,确定总损失值;并基于所述总损失值对所述语音编码模型进行调参。

22、在一种可能的实施例中,所述基于获得的多个量化特征,确定每个量化特征对应的第二损失值,所述训练模块具体用于:

23、针对所述多个量化特征中的任意一个量化特征,分别执行以下操作:

24、从所述多个量化特征中获取所述一个量化特征对应的相邻量化特征以及各个非相邻量化特征;

25、基于余弦距离算法,根据所述一个量化特征的向量表示,以及对应的相邻量化特征的向量表示,确定所述一个量化特征与对应的相邻量化特征之间的第三相似度;以及基于余弦距离算法,根据所述一个量化特征的向量表示,以及对应的各非相邻量化特征的向量表示,分别确定所述一个量化特征与对应的各非相邻量化特征之间的第四相似度;

26、基于确定的第三相似度以及各第四相似度,确定所述一个量化特征对应的第二损失值。

27、在一种可能的实施例中,所述训练模块还用于:

28、针对各样本分别执行以下操作:

29、将一个样本的原始语音特征中包含的至少一个语音帧子特征进行掩码处理,获得包含各掩码子特征的原始语音特征;通过所述语音编码模型的编码模块,对所述包含各掩码子特征的原始语音特征进行编码,获得所述各掩码子特征各自对应的掩码编码;

30、基于获得的各掩码编码以及所述一个样本的多个量化特征,确定每个掩码编码对应的第三损失值,并基于各掩码编码各自对应的第三损失值,确定所述一个样本的掩码对比损失值;

31、基于各样本各自对应的掩码对比损失值,确定掩码对比总损失值;

32、则所述基于所述第一损失值以及所述量化对比总损失值,确定总损失值,并基于所述总损失值对所述语音编码模型进行调参,还包括:

33、基于所述第一损失值、所述量化对比总损失值以及所述掩码对比总损失值,确定总损失值,并基于所述总损失值对所述语音编码模型进行调参。

34、在一种可能的实施例中,基于获得的各掩码编码以及一个样本的多个量化特征,确定每个掩码编码对应的第三损失值,训练模块具体用于:

35、从所述一个样本的多个量化特征中选择至少一个目标量化特征,每个目标量化特征与一个掩码编码相对应;

36、针对所述多个掩码编码中的任意一个掩码编码,分别执行以下操作:

37、基于余弦距离算法,根据所述一个掩码编码的向量表示,以及对应的目标量化特征的向量表示,确定所述一个掩码编码与对应的目标量化特征之间的第五相似度;以及基于余弦距离算法,根据所述一个掩码编码的向量表示,以及对应的除各目标量化特征之外的其它量化特征的向量表示,分别确定所述一个掩码编码与对应的除各目标量化特征之外的其它量化特征之间的第六相似度;

38、基于确定的第五相似度以及各第六相似度,确定所述一个掩码编码对应的第三损失值。

39、在一种可能的实施例中,所述训练模块还用于:

40、获得多个目标语音,以及所述多个目标语音各自对应的指令文本;

41、将所述多个目标语音输入所述目标语音编码模型,获得多个目标语音各自对应的目标语音编码,以及将多个指令文本分别输入文本编码模型,获得所述多个指令文本各自对应的文本编码;

42、针对多个目标语音编码分别执行以下操作:基于一个目标语音编码与相应的文本编码,确定第四损失值;

43、基于获得的多个第四损失值分别对所述目标语音编码模型与所述文本编码模型进行调参。

44、第三方面,本技术实施例提供一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行第一方面任一所述方法的步骤。

45、第四方面,本技术实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面任一所述方法的步骤。

46、第五方面,本技术实施例提供一种计算机程序产品,其包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行该计算机程序,使得所述电子设备执行第一方面任一所述方法的步骤。

47、本技术实施例采用上述技术方案,至少具有如下技术效果:

48、在本技术语音编码模型的训练过程中,每次输入样本语音及样本语音对应的增强语音后,经过语音编码模型中的特征提取层得到对应的原始语音特征及增强语音特征,基于原始语音特征及增强语音特征确定对应的能够表示全局信息的第一随机特征及第二随机特征,将原始语音特征及增强语音特征与第一随机特征及第二随机特征进行拼接,输入语音编码模型中的编码层,得到能够表征语音全局信息的第一随机特征的第一编码及第二随机特征的第二编码。

49、在上述对语音编码模型训练过程中加入能够表征全局信息的第一随机特征与第二随机特征,以使在实际应用过程中,基于目标语音编码模型获得的目标语音编码中包括带有全局信息的语音编码,以使该目标语音编码在使用中不会局限于单个语音帧进行编码,而是兼顾整条语音的全局信息进行编码,进而提高对对象语音编码的准确性。且基于每个样本对应的多个量化特征确定的第二损失值,可以增强特征提取层的提取能力,使每个样本中相似的音素更相似,不相似的音素更不相似,以使每个样本中的语音编码更加准确。

50、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24330.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。