技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据处理方法、装置、设备和存储介质与流程  >  正文

数据处理方法、装置、设备和存储介质与流程

  • 国知局
  • 2024-08-08 16:54:32

本公开涉及人工智能领域,更具体地,涉及一种数据处理方法、装置、设备和存储介质。

背景技术:

1、transformer模型作为一种革命性的神经网络架构,摒弃了传统的循环神经网络(rnn)和卷积神经网络(cnn),在处理序列数据时采用了自注意力机制,使得模型能够全局地捕捉不同元素之间的依赖关系。然而,这种结构的优势也带来了一个问题,即丢失了序列中的词序信息。由于自注意力机制并不考虑元素在序列中的位置,因此在输入序列的任何位置置换下都是不变的,这就意味着模型无法区分序列中元素的相对位置。

2、实际上,对于任何一门语言,单词在句子中的位置以及词序都是非常重要的信息。因此,为了使transformer模型能够更好地学习序列数据中的词序信息,位置编码(positional encoding)变得至关重要。位置编码用于将词序信息引入模型对序列数据的处理中,从而帮助模型理解输入序列中不同单词的相对位置关系。

3、因此,需要一种有效的数据处理方法,使得可以对用于transformer模型的位置编码进行改进,以提高模型在序列数据处理任务中的性能。

技术实现思路

1、本公开的实施例提供了一种数据处理方法、装置、设备和计算机可读存储介质。

2、本公开的实施例提供了一种数据处理方法,对于包括多个词元(token)的输入序列,基于所述多个词元的第一词元集合,确定所述输入序列的位置编码列表,所述位置编码列表包括与所述第一词元集合中的词元相关的位置编码,并且对于第二词元集合,与所述第二词元集合中的词元相关的位置编码能够利用所述位置编码列表确定,所述第二词元集合为所述第一词元集合在所述多个词元中的补集;利用所述位置编码列表,通过注意力模型对所述输入序列进行处理。

3、本公开的实施例提供了一种数据处理装置,包括:列表创建模块,被配置为对于包括多个词元的输入序列,基于所述多个词元的第一词元集合,确定所述输入序列的位置编码列表,所述位置编码列表包括与所述第一词元集合中的词元相关的位置编码,并且对于第二词元集合,与所述第二词元集合中的词元相关的位置编码能够利用所述位置编码列表确定,所述第二词元集合为所述第一词元集合在所述多个词元中的补集;以及序列处理模块,被配置为利用所述位置编码列表,通过注意力模型对所述输入序列进行处理。

4、本公开的实施例提供了一种数据处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中,所述一个或多个存储器中存储有计算机可执行程序,当由所述处理器执行所述计算机可执行程序时,执行如上所述的数据处理方法。

5、本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如上所述的数据处理方法。

6、本公开的实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开的实施例的数据处理方法。

7、本公开的实施例所提供的方法针对包括多个词元的输入序列,仅使用其中的一部分词元来创建位置编码列表,并基于该位置编码列表来实现对整个输入序列的位置编码,其中,该输入序列中未用于创建位置编码列表的词元可以通过查表的方式从位置编码列表确定其相应的位置编码。通过本公开的实施例的方法能够利用词元的位置编码之间的关联来由基于一部分词元确定的位置编码导出与剩余部分词元相关的位置编码,从而避免了大量的重复计算操作,减少了存储空间和计算资源浪费,改进了位置编码处理,提高了模型在序列数据处理任务中的性能。

技术特征:

1.一种数据处理方法,包括:

2.如权利要求1所述的方法,其中,利用所述位置编码列表,通过注意力模型对所述输入序列进行处理包括:

3.如权利要求2所述的方法,其中,基于所述多个词元的第一词元集合,确定所述输入序列的位置编码列表包括:

4.如权利要求3所述的方法,其中,从所述多个词元中选择所述第一词元集合包括:

5.如权利要求3所述的方法,其中,从所述多个词元中选择所述第一词元集合包括:

6.如权利要求5所述的方法,其中,利用所述位置编码列表,基于所述多个词元确定所述输入序列的位置编码矩阵包括:

7.如权利要求3所述的方法,其中,基于所确定的所述输入序列的位置编码矩阵,利用注意力模型对所述输入序列进行处理包括:

8.如权利要求2所述的方法,其中,基于所述多个词元的第一词元集合,确定所述输入序列的位置编码列表包括:

9.如权利要求8所述的方法,其中,所述第一词元集合包括所述多个词元中的与所述多种相对位置相对应的多个词元对,每个词元对之间具有所述多种相对位置中的相应的一种相对位置。

10.如权利要求8所述的方法,其中,利用所述位置编码列表,基于所述多个词元确定所述输入序列的位置编码矩阵包括:

11.如权利要求8所述的方法,其中,基于所确定的所述输入序列的位置编码矩阵,利用注意力模型对所述输入序列进行处理包括:

12.如权利要求8所述的方法,其中,所述相对位置为词元之间的相对距离。

13.一种数据处理设备,包括:

14.一种计算机程序产品,所述计算机程序产品存储在计算机可读存储介质上,并且包括计算机指令,所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现权利要求1-12中任一项所述的方法。

技术总结本公开的实施例提供了一种数据处理方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法针对包括多个词元的输入序列,仅使用其中的一部分词元来创建位置编码列表,并基于该位置编码列表来实现对整个输入序列的位置编码,其中,该输入序列中未用于创建位置编码列表的词元可以通过查表的方式从位置编码列表确定其相应的位置编码。通过本公开的实施例的方法能够利用词元的位置编码之间的关联来由基于一部分词元确定的位置编码导出与剩余部分词元相关的位置编码,从而避免了大量的重复计算操作,减少了存储空间和计算资源浪费,改进了位置编码处理,提高了模型在序列数据处理任务中的性能。技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名受保护的技术使用者:上海壁仞科技股份有限公司技术研发日:技术公布日:2024/8/5

本文地址:https://www.jishuxx.com/zhuanli/20240808/271130.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。