技术新讯 > 计算推算,计数设备的制造及其应用技术 > 神经网络处理方法、神经网络及自然语言处理方法与流程  >  正文

神经网络处理方法、神经网络及自然语言处理方法与流程

  • 国知局
  • 2024-10-09 15:48:35

本公开涉及人工智能领域,尤其涉及一种神经网络处理方法、神经网络及自然语言处理方法。

背景技术:

1、层归一化(layer normalization)是机器学习中常见的归一化方法,尤其在自然语言处理(natural language processing,nlp)中有广泛应用。比如transformer中使用使用了层归一化。

2、虽然现有的层归一化操作有助于提高神经网络的训练稳定性和性能,但在神经网络的训练中,仍然面临着例如梯度饱和等问题。

技术实现思路

1、根据本公开实施例的第一方面,提出了一种神经网络处理方法,其中,所述神经网络具有堆叠的l个子结构,所述l个子结构的结构相同,所述l是不小于2的整数,所述方法包括:第一子结构基于所述第一子结构的前一层输出的特征表示,计算得到第一子结构输出的特征表示;第二子结构基于所述第一子结构输出的特征表示,计算得到第二子结构输出的特征表示,其中,所述第二子结构与所述第一子结构相邻且位于所述第一子结构之后;对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示一并进行归一化处理;以及基于所述归一化处理的结果进行所述神经网络当前推理的后续计算。

2、可选地,对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示进行归一化处理包括:针对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示中各自包含的节点,计算均值和方差;以及基于所述均值和所述方差,对所述第二子结构输出的特征表示进行归一化,以获取经归一化的第二子结构输出的特征表示。

3、可选地,对第一子结构输出的特征表示和第二子结构输出的特征表示一并进行归一化处理包括:使用所述第二子结构的多层归一化层对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示进行所述归一化处理。

4、可选地,第三子结构与所述第二子结构相邻且位于所述第二子结构之后,其中基于所述归一化处理的结果进行所述神经网络当前推理的后续计算包括:第三子结构基于经归一化的第二子结构输出的特征表示,计算得到第三子结构输出的特征表示;所述第三子结构的多层归一化层对所述经归一化的第二子结构输出的特征表示和所述第三结构输出的特征表示一并进行归一化处理,得到经归一化的第三子结构输出的特征表示;以及所述第三子结构的后一结构基于所述经归一化的第三子结构输出的特征表示进行计算。

5、可选地,第三子结构与所述第二子结构相邻且位于所述第二子结构之后,第四子结构与所述第三子结构相邻且位于所述第三子结构之后,其中,基于所述归一化处理的结果进行所述神经网络当前推理的后续计算包括:所述第三子结构基于经归一化的第二子结构输出的特征表示,计算得到第三子结构输出的特征表示;所述第四子结构基于所述第三子结构输出的特征表示,计算得到第四子结构输出的特征表示,使用所述第四子结构的多层归一化层对所述第三子结构输出的特征表示和所述第四结构输出的特征表示进行归一化处理,得到经归一化的第四子结构输出的特征表示;以及所述第四子结构的后一结构基于所述经归一化的第四子结构输出的特征表示进行计算。

6、可选地,第三子结构与所述第二子结构相邻且位于所述第二子结构之后,并且所述方法还包括:所述第三子结构基于所述第二子结构输出的特征表示,计算得到第三子结构输出的特征表示,其中,对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示一并进行归一化处理包括:使用所述第三子结构的多层归一化层对所述第一子结构输出的特征表示、所述第二子结构输出的特征表示和所述第三子结构输出的特征表示一并进行归一化处理,得到经归一化的第三子结构输出的特征表示,以及基于所述归一化处理的结果进行所述神经网络当前推理的后续计算包括:所述第三子结构的后一结构基于所述经归一化的第三子结构输出的特征表示进行计算。

7、可选地,所述l个子结构各自包括n个隐藏层,并且对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示进行归一化处理包括:使用所述第二子结构的第n隐藏层后接的多层归一化层对所述第一子结构的第n隐藏层输出的特征表示和所述第二子结构的第n隐藏层输出的特征表示一并进行归一化处理,得到经归一化的第二子结构的第n隐藏层输出的特征表示,其中,所述n是不小于2的整数,且n≥n≥1。

8、可选地,第二子结构基于所述第一子结构输出的特征表示,计算得到第二子结构输出的特征表示包括:第二子结构基于所述第一子结构输出的特征表示,计算得到第二子结构的第1隐藏层输出的特征表示,并且对所述第一子结构输出的特征表示和所述第二子结构输出的特征表示一并进行归一化处理包括:使用所述第二子结构的第1隐藏层后接的多层归一化层对所述第一子结构的第1隐藏层输出的特征表示和所述第二子结构的第1隐藏层输出的特征表示一并进行归一化处理,得到经归一化的第二子结构的第1隐藏层输出的特征表示;所述第二子结构的第2隐藏层基于所述经归一化的第二子结构的第1隐藏层输出的特征表示,计算得到第二子结构的第2隐藏层输出的特征表示;以及使用所述第二子结构的第2隐藏层后接的多层归一化层对所述第一子结构的第2隐藏层输出的特征表示和所述第二子结构的第2隐藏层输出的特征表示一并进行归一化处理,得到经归一化的第二子结构的第2隐藏层输出的特征表示。

9、根据本公开实施例的第二方面,提出了一种神经网络处理方法,其中,所述神经网络包括堆叠的l个子结构,每个所述子结构各自包括至少两个一个或多个归一化层,所述方法包括在相邻的两个所述子结构中:后一个所述子结构的归一化层接收来自本身的非归一化层输出的中间特征表示以及接收来自前一个所述子结构的非归一化层输出的中间特征表示,以生成归一化序列。

10、可选地,后一个所述子结构的归一化层接收来自本身的非归一化层输出的中间特征表示以及接收来自前一个所述子结构的非归一化层输出的中间特征表示,以生成归一化序列,包括:后一个所述子结构的注意力归一化层接收来自本身的注意力层输出的中间特征表示和前一个所述子结构的注意力层输出的中间特征表示,以生成注意力层归一化序列;以及后一个所述子结构的前馈归一化层接收来自本身的前馈层输出的中间特征表示和前一个所述子结构的前馈层输出的中间特征表示,以生成前馈层归一化序列。

11、可选地,后一个所述子结构的注意力归一化层接收来自本身的注意力层输出的中间特征表示和前一个所述子结构的注意力层输出的中间特征表示,以生成注意力层归一化序列,包括:后一个所述子结构的自注意力归一化层接收来自本身的自注意力层输出的中间特征表示和前一个所述子结构的自注意力层输出的中间特征表示,以生成自注意力层归一化序列;和/或后一个所述子结构的交互注意力归一化层接收来自本身的交互注意力层输出的中间特征表示和前一个所述子结构的交互注意力层输出的中间特征表示,以生成交互注意力层归一化序列。

12、可选地,前一个所述子结构的归一化层接收自身的非归一化层输出的中间特征表示,以生成归一化序列。

13、根据本公开实施例的第三方面,提出了一种神经网络,包括:堆叠的l个子结构,其中,每个所述子结构包括一个或多个归一化层,在相邻的两个所述子结构中,前一个所述子结构的非归一化还被连接至后一个子结构的归一化层。

14、根据本公开实施例的第四方面,提出了一种自然语言处理方法,包括:获取文本输入;使用第一和/或第二方面所述的方法进行处理;以及基于所述处理结果生成文本、图像或视频作为响应。

15、根据本公开实施例的第五方面,提出了一种终端设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行基于如第一、第二和/或第四方面所述的方法。

16、根据本公开实施例的第六方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行基于如第一、第二和/或第四方面所述的方法。

17、根据本公开实施例的第七方面,提出了一种计算机程序产品,包括计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现基于如第一、第二和/或第四方面所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240929/310222.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。