技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于训练音频数据的基于变换器-中-变换器的神经网络模型的系统和方法与流程 > 正文

用于训练音频数据的基于变换器-中-变换器的神经网络模型的系统和方法与流程

国知局
2024-06-21 10:43:57

本公开涉及机器学习，特别涉及基于变换器架构的机器学习方法和系统。

背景技术：

1、在机器学习领域，a.vaswani等人在2017年第31届神经信息处理系统会议(日期为2017年12月6日)上发表的“注意力就是你所需要的一切”中公开的变换器用于自然语言处理和计算机视觉等领域。在最近的发展中，k.han等人在arxiv预印本arxiv:2103.00112,2021(日期为2021年7月5日)“transformer in transformer”中提出了变换器-中-变换器(transformer-in-transformer，tnt)架构，其中对局部和全局信息进行建模，使得句子位置编码可维持全局空间信息，而单词位置编码用于保持局部相对位置。然而，在诸如音频数据识别的音乐信息检索领域中的这类多级变换器架构尚未被提出或开发。同样地，在用于音频数据识别的变换器方面，该领域需要另外的发展。

技术实现思路

1、本文公开了与使装置使用基于变换器的神经网络模型生成音频数据的音乐信息相关的设备、系统和方法，该神经网络模型具有用于音频分析的多级变换器，使用频谱变换器和时间变换器。例如，该装置或使用该装置实现的方法可包括至少一个处理器和至少一个存储器，该存储器包括用于一个或多个程序的计算机程序代码，该存储器和计算机程序代码被配置为与处理器一起使使装置训练基于变换器的神经网络模型。该装置可被配置为训练多级变换器。

2、在一些示例中，该装置包括至少一个处理器和在其中存储计算机程序代码的非暂时性计算机可读介质，该计算机程序代码包括一个或多个程序的指令，该在由处理器执行时，使处理器执行以下步骤：获得音频数据；生成音频数据的时间-频率表示，该音频数据要被应用为基于变换器的神经网络模型的输入，该基于变换器的神经网络模型包括变换器-中-变换器模块，该模块包括频谱变换器和时间变换器；基于音频数据的时间-频率表示而确定音频数据的频谱嵌入和第一时间嵌入，频谱嵌入包括第一频率类别标记(fct)；通过使频谱嵌入中的第一fct的每个向量经过频谱变换器来确定第二fct的每个向量；通过将第二fct的线性投影添加到第一时间嵌入来确定第二时间嵌入；通过使第二时间嵌入经过时间变换器来确定第三时间嵌入；以及基于第三时间嵌入而生成音频数据的音乐信息。

3、在一些示例中，通过生成第一fct以包括来自频率区间的至少一个频谱特征和频率位置编码(fpe)以包括第一fct的至少一个频率位置来确定频谱嵌入。在一些示例中，频谱变换器和时间变换器中的每一个包括多个编码器层，每个编码器层包括多头自注意力模块、前馈网络模块和层归一化模块。在一些示例中，频谱变换器和时间变换器中的每一个均包括多个解码器层，该多个解码器层被配置为接收来自编码器层中的一个的输出，每个解码器层包括多头自注意力模块、前馈网络模块、层归一化模块和编码器-解码器注意力模块。

4、在一些示例中，频谱嵌入是具有矩阵维度的矩阵，该矩阵维度基于变换器-中-变换器模块所采用的频率区间(frequency bin)的数目和通道的数目而确定，并且频谱嵌入数目由变换器-中-变换器模块所采用的时间步长的数目来确定。在一些示例中，时间嵌入是具有由变换器-中-变换器模块所采用的特征的数目确定的向量长度的向量，并且时间嵌入的数目由变换器-中-变换器模块所采用的时间步长的数目来确定。

5、在一些示例中，基于变换器的神经网络模型包括呈堆叠配置的多个变换器-中-变换器模块，使得时间嵌入通过多个变换器-中-变换器模块中的每一个来更新。在一些示例中，频谱变换器和时间变换器被分层布置，使得频谱变换器被配置为生成音频数据的局部音乐信息，并且时间变换器被配置为生成音频数据的全局音乐信息。

6、根据另一实施方式，公开了一种由至少一个处理器实现的方法，其中该方法包括以下步骤：获得音频数据；生成音频数据的时间-频率表示，该音频数据要被应用为基于变换器的神经网络模型的输入，该基于变换器的神经网络模型包括变换器-中-变换器模块，该模块包括频谱变换器和时间变换器；基于音频数据的时间-频率表示而确定音频数据的频谱嵌入和第一时间嵌入，频谱嵌入包括第一频率类别标记(fct)；通过使频谱嵌入中的第一fct的每个向量经过频谱变换器来确定第二fct的每个向量；通过将第二fct的线性投影添加到第一时间嵌入来确定第二时间嵌入；通过使第二时间嵌入经过时间变换器来确定第三时间嵌入；以及基于第三时间嵌入而生成音频数据的音乐信息。

7、在一些示例中，该方法还包括通过生成第一fct以包括频率区间中的至少一个频谱特征并生成频率位置编码(fpe)以包括第一fct的至少一个频率位置来确定频谱嵌入的步骤。在一些示例中，频谱变换器和时间变换器中的每一个包括多个编码器层，每个编码器层包括多头自注意力模块、前馈网络模块和层归一化模块。在一些示例中，频谱变换器和时间变换器中的每一个均包括多个解码器层，该多个解码器层被配置为接收来自编码器层中的一个的输出，每个解码器层包括多头自注意力模块、前馈网络模块、层归一化模块和编码器-解码器注意力模块。

8、在一些示例中，频谱嵌入是具有矩阵维度的矩阵，该矩阵维度基于变换器-中-变换器模块所采用的频率区间的数目和通道的数目而确定，并且频谱嵌入数目由变换器-中-变换器模块所采用的时间步长的数目来确定。在一些示例中，时间嵌入是具有由变换器-中-变换器模块所采用的特征的数目确定的向量长度的向量，并且时间嵌入的数目由变换器-中-变换器模块所采用的时间步长的数目来确定。

9、在一些示例中，基于变换器的神经网络模型包括呈堆叠配置的多个变换器-中-变换器模块，使得时间嵌入通过多个变换器-中-变换器模块中的每个模块来更新。在一些示例中，频谱变换器和时间变换器被分层布置，使得频谱变换器被配置为生成音频数据的局部音乐信息，并且时间变换器被配置为生成音频数据的全局音乐信息。

技术特征：

1.一种装置，包括：

2.根据权利要求1所述的装置，其中所述频谱嵌入通过生成包括来自频率区间的至少一个频谱特征和频率位置编码(fpe)以包括所述第一fct的至少一个频率位置而被确定。

3.根据权利要求1所述的装置，其中所述频谱变换器和所述时间变换器中的每一项包括多个编码器层，每个编码器层包括多头自注意力模块、前馈网络模块和层归一化模块。

4.根据权利要求3所述的装置，其中所述频谱变换器和所述时间变换器中的每一项包括多个解码器层，所述多个解码器层被配置为接收来自所述编码器层中的一个编码器层的输出，每个解码器层包括多头自注意力模块、前馈网络模块、层归一化模块和编码器-解码器注意力模块。

5.根据权利要求1所述的装置，其中所述频谱嵌入是具有矩阵维度的矩阵，所述矩阵维度基于变换器-中-变换器模块所采用的频率区间的数目和通道的数目而被确定，并且所述频谱嵌入的数目由所述变换器-中-变换器模块所采用的时间步长的数目来确定。

6.根据权利要求1所述的装置，其中所述时间嵌入是向量，所述向量具有由所述变换器-中-变换器模块所采用的特征的数目确定的向量长度，并且所述时间嵌入的数目由所述变换器-中-变换器模块所采用的时间步长的数目来确定。

7.根据权利要求1所述的装置，其中所述基于变换器的神经网络模型包括以堆叠配置的多个变换器-中-变换器模块，使得所述时间嵌入通过所述多个变换器-中-变换器模块中的每一项而被更新。

8.根据权利要求1所述的装置，其中所述频谱变换器和所述时间变换器被分层布置，使得所述频谱变换器被配置为生成所述音频数据的局部音乐信息，并且所述时间变换器被配置为生成所述音频数据的全局音乐信息。

9.一种由至少一个处理器实现的方法，包括：

10.根据权利要求9所述的方法，还包括：所述频谱嵌入通过生成所述第一fct以包括来自频率区间的至少一个频谱特征并生成频率位置编码(fpe)以包括所述第一fct的至少一个频率位置而被确定。

11.根据权利要求9所述的方法，其中所述频谱变换器和所述时间变换器中的每一项包括多个编码器层，每个编码器层包括多头自注意力模块、前馈网络模块和层归一化模块。

12.根据权利要求11所述的方法，其中所述频谱变换器和所述时间变换器中的每一项包括多个解码器层，所述多个解码器层被配置为接收来自所述编码器层中的一个编码器层的输出，每个解码器层包括多头自注意力模块、前馈网络模块、层归一化模块和编码器-解码器注意力模块。

13.根据权利要求9所述的方法，其中所述频谱嵌入是具有矩阵维度的矩阵，所述矩阵维度基于所述变换器-中-变换器模块所采用的频率区间的数目和通道的数目而被确定，并且所述频谱嵌入的数目由所述变换器-中-变换器模块所采用的时间步长的数目来确定。

14.根据权利要求9所述的方法，其中所述时间嵌入是向量，所述向量具有由所述变换器-中-变换器模块所采用的特征的数目确定的向量长度，并且所述时间嵌入的数目由所述变换器-中-变换器模块所采用的时间步长的数目来确定。

15.根据权利要求9所述的方法，其中所述基于变换器的神经网络模型包括以堆叠配置的多个变换器-中-变换器模块，使得所述时间嵌入通过所述多个变换器-中-变换器模块中的每一项而被更新。

16.根据权利要求9所述的方法，其中所述频谱变换器和所述时间变换器被分层布置，使得所述频谱变换器被配置为生成所述音频数据的局部音乐信息，并且所述时间变换器被配置为生成所述音频数据的全局音乐信息。

技术总结本文公开了与使装置使用基于变换器的神经网络模型生成音频数据的音乐信息相关的设备、系统和方法，该神经网络模型具有使用频谱和时间变换器的用于音频分析的多级变换器。该处理器生成所获得的音频数据的时间‑频率表示，该音频数据要被应用为基于变换器的神经网络模型的输入；基于音频数据的时间‑频率表示而确定音频数据的频谱嵌入和第一时间嵌入；通过使频谱嵌入中的第一FCT的每个向量经过频谱变换器来确定第二频率类别标记(FCT)的每个向量；通过将第二FCT的线性投影添加到第一时间嵌入来确定第二时间嵌入；通过使第二时间嵌入经过时间变换器来确定第三时间嵌入；以及基于第三时间嵌入而生成音乐信息。技术研发人员：吕维宗,王如江,元民主,K·崔,宋旭晨受保护的技术使用者：脸萌有限公司技术研发日：技术公布日：2024/2/1