技术新讯 > 计算推算,计数设备的制造及其应用技术 > 张量精度处理方法、装置、电子设备、介质、程序产品与流程  >  正文

张量精度处理方法、装置、电子设备、介质、程序产品与流程

  • 国知局
  • 2024-08-05 11:47:22

本申请的实施例涉及人工智能,且更具体地涉及张量精度处理方法、张量精度处理装置、非暂时计算机可读存储介质、电子设备、计算机程序产品。

背景技术:

1、随着机器学习模型规模的快速增大,对设备端的人工智能芯片的内存和算力的需求越来越大,模型量化是一种模型压缩技术,能够减少模型的存储大小,提高计算效率。模型量化主要将高精度(例如浮点(floating point, fp)32、fp16、或脑浮点(brainfloating point, bf)16)等格式的权重张量或激活张量的元素量化为低精度的整数(integer,int)8、fp8、fp4等格式,而模型反量化是将低精度的格式转换为高精度的格式。

技术实现思路

1、根据本申请的一个方面,至少一个实施例提供一种张量精度处理方法,包括:通过分别加载第一张量中的第一精度的多个第一元素到存储器中得到第二精度的一个第二元素,以形成包括多个第二元素的第二张量,其中,第一精度的比特数低于第二精度的比特数;对存储器中的第二张量进行反量化以得到第三精度的第三张量,其中第三精度的比特数高于第一精度的比特数。

2、根据本申请的另一个方面,至少一个实施例提供一种张量精度处理装置,包括:加载部件,被配置为通过分别加载第一张量中的第一精度的多个第一元素到存储器中得到第二精度的一个第二元素,以形成包括多个第二元素的第二张量,其中,第一精度的比特数低于第二精度的比特数;反量化部件,被配置为对存储器中的第二张量进行反量化以得到第三精度的第三张量,其中第三精度的比特数高于第一精度的比特数。

3、根据本申请的另一个方面,至少一个实施例提供一种张量精度处理装置,包括:存储单元,用于存储计算机指令;处理单元,用于读取存储单元中的计算机指令,并执行根据本申请的至少一个实施例的方法。

4、根据本申请的另一个方面,至少一个实施例提供一种非暂时计算机可读存储介质,其上存储了计算机指令,其中,计算机指令在被处理单元执行时,使得处理单元执行根据本申请的至少一个实施例的方法。

5、根据本申请的另一个方面,至少一个实施例提供一种计算机程序产品,包括计算机指令,其中,计算机指令在被处理单元执行时,使得处理单元执行根据本申请的至少一个实施例的方法。

6、根据本申请的另一个方面,至少一个实施例提供一种电子设备,包括:根据本申请的至少一个实施例的张量精度处理装置、存储器。

技术特征:

1.一种张量精度处理方法,包括:

2.根据权利要求1所述的方法,还包括:

3.根据权利要求1所述的方法,其中,所述第二精度的比特数是所述第一精度的比特数的n倍,其中n为大于1的正整数,

4. 根据权利要求3所述的方法,其中,

5.根据权利要求3所述的方法,其中,所述预定顺序基于如下因素中的一种或多种来确定:

6.根据权利要求5所述的方法,其中,所述寄存器的位宽为w,所述计算单元的数量为u,其中,w和u为正整数,所述预定顺序包括:

7. 根据权利要求6所述的方法,其中,所述第一精度是int 4精度,所述第二精度是int32精度,所述寄存器的位宽是32比特,所述计算单元的数量是16,

8.根据权利要求3所述的方法,其中,所述对所述存储器中的所述第二张量进行反量化以得到第三精度的第三张量,包括:

9.一种张量精度处理装置,包括:

10.一种电子设备,包括:

11.一种非暂时计算机可读存储介质,其上存储了计算机指令,

技术总结提供张量精度处理方法、张量精度处理装置、电子设备、非暂时计算机可读存储介质、计算机程序产品。该方法包括:通过分别加载第一张量中的第一精度的多个第一元素到存储器中得到第二精度的一个第二元素,以形成包括多个第二元素的第二张量,其中,第一精度的比特数低于第二精度的比特数;对存储器中的第二张量进行反量化以得到第三精度的第三张量,其中第三精度的比特数高于所述第一精度的比特数。技术研发人员:请求不公布姓名,请求不公布姓名受保护的技术使用者:北京壁仞科技开发有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/259415.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。