信息处理设备、控制方法和介质与流程
- 国知局
- 2024-07-31 22:40:51
本发明一般涉及信息处理设备、控制方法和介质,特别地涉及特征量的生成。
背景技术:
1、近年来,由于深度神经网络(dnn)的出现,诸如图像分类、物体检测和物体追踪等的图像识别技术的精度已经显著提高。dnn结构有多种,在图像识别中,主要使用在多层中进行卷积运算的卷积神经网络(cnn)。另一方面,在dosovitskiy et al.,"an image isworth 16x16 words:transformers for image recognition at scale",arxiv:2010.11929,2020(非专利文献1)中,提出了将自然语言处理中使用的变换器(transformer)应用于图像识别的视觉变换器(vision transformer(vit))。变换器是在自然语言处理中使用注意力来表示单词之间的关系的结构。然而,在vit中,参数数量和计算量较大。
2、在yu et al.,"metaformer is actually what you need for vision",cvpr,2021(非专利文献2)中,提出了将作为vit中的运算的关键的多头自注意力(multi-headself attention(msa))改变为更轻量的处理的方法。更具体地,msa被改变为诸如池化或多层感知机(multi-layer perceptron(mlp))等的处理。此外,在liu et al.,"swintransformer:hierarchical vision transformer using shifted windows",arxiv:2103.14030,2021(非专利文献3)中,提出了将特征量分割为若干矩形窗口并对各窗口进行msa的方法。
3、上述msa、池化或mlp是在令牌级对特征量进行混合(相混合)的处理。如果在该处理中,所有特征量高效地混合,则可以容易地识别各种图案,并且作为结果,提高了识别精度。
4、然而,在上述常规技术中,难以有效地混合所有特征量。例如,在非专利文献3中,在针对各层将窗口移位其大小的1/2的情况下进行窗口分割,从而使属于某个层中的不同组的令牌(token)属于另一层中的相同组。然而,由于1/2个窗口大小的令牌与在前一层中混合的令牌重叠,因此难以高效地混合大量类型的令牌。另一方面,如果要混合更多类型的令牌,则注意力的参数数量和计算量增加。
技术实现思路
1、根据本发明的一个方面,一种信息处理设备,包括:一个或多个存储器,其存储指令;以及一个或多个处理器,用于执行所述指令以:获得输入数据;根据所获得的输入数据生成特征量;以及在所生成的特征量的空间方向上不规则地混合所述特征量中所包括的多个令牌。
2、根据本发明的另一方面,一种信息处理设备的控制方法,包括:获得输入数据;根据所获得的输入数据生成特征量;以及在所生成的特征量的空间方向上不规则地混合所述特征量中所包括的多个令牌。
3、根据本发明的又一方面,一种存储程序的介质,所述程序在被计算机执行时使所述计算机进行信息处理设备的控制方法,所述控制方法包括:获得输入数据;根据所获得的输入数据生成特征量;以及在所生成的特征量的空间方向上不规则地混合所述特征量中所包括的多个令牌。
4、本发明使得可以在抑制参数数量或计算量增加的同时实现更精确的任务。
5、根据以下(参考附图)对示例性实施例的描述,本发明的进一步特征将变得明显。
技术特征:1.一种信息处理设备,包括:
2.根据权利要求1所述的信息处理设备,其中,所述处理单元包括:
3.根据权利要求2所述的信息处理设备,其中,所述处理单元还包括第三单元,所述第三单元被配置为将通过所述第二单元的混合而获得的多个令牌的位置返回到所述第一单元的分割之前的所述空间方向上的位置。
4.根据权利要求2所述的信息处理设备,其中,所述第一单元根据针对所述多个令牌中的各令牌设置的权重,将所述多个令牌分割为所述多个组。
5.根据权利要求4所述的信息处理设备,其中,所述第一单元根据预先给予的多个随机种子,设置针对所述多个令牌中的各令牌的权重。
6.根据权利要求2所述的信息处理设备,其中,所述第一单元关于所述特征量的空间方向和通道方向这两者,将所述多个令牌不规则地分割为多个组。
7.根据权利要求2所述的信息处理设备,其中,所述第一单元将所述多个令牌分割为所述多个组,使得各组包括相同数量的令牌。
8.根据权利要求2所述的信息处理设备,其中,所述第二单元包括多头自注意力即msa、多层感知机即mlp和全连接层中的至少一个。
9.根据权利要求1所述的信息处理设备,还包括任务进行单元,所述任务进行单元被配置为基于所述处理单元所获得的特征量使用神经网络即nn来进行预定任务。
10.根据权利要求9所述的信息处理设备,其中,
11.根据权利要求1至10中任一项所述的信息处理设备,其中,所述生成单元使用卷积神经网络来生成所述特征量。
12.一种信息处理设备的控制方法,包括:
13.根据权利要求12所述的方法,其中,所述不规则地混合包括:
14.根据权利要求13所述的方法,其中,所述不规则地混合还包括将通过所述混合而获得的多个令牌的位置返回到所述分割之前的所述空间方向上的位置。
15.根据权利要求12至14中任一项所述的方法,其中,在所述生成中,使用卷积神经网络生成所述特征量。
16.一种存储程序的介质,所述程序在被计算机执行时使所述计算机进行信息处理设备的控制方法,所述控制方法包括:
技术总结本发明提供信息处理设备、控制方法和介质。信息处理设备获得输入数据;根据所获得的输入数据生成特征量;以及在所生成的特征量的空间方向上不规则地混合特征量中所包括的多个令牌。技术研发人员:小川修平受保护的技术使用者:佳能株式会社技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/194107.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表