技术新讯 > 信息存储应用技术 > 一种基于2T-2C铁电存储单元的布尔逻辑存内运算电路 > 正文

一种基于2T-2C铁电存储单元的布尔逻辑存内运算电路

国知局
2024-07-31 19:51:31

本发明属于集成电路领域，涉及一种基于2t-2c铁电存储单元的布尔逻辑存内运算电路。

背景技术：

1、近年来，随着人工智能、物联网等技术的不断发展，各种深度学习算法层出不穷，对于芯片算力的要求也不断提高，传统的冯·诺依曼架构已经无法满足日益庞大的数据计算要求。在冯·诺依曼架构中，数据的存储与处理是分离的，存储器与处理器之间通过数据总线进行传输，这样的结构会有几个缺点。首先，存储器的访问速度远远小于处理器的运算速度，所以系统整体的运算速度会受到带宽的限制，导致处理器的实际算例远低于理论算力，难以满足智能芯片计算快，响应准的需求，这一问题被称为“内存墙”问题。通过增加总线的带宽和时钟频率可以提高数据传输的速度，从而在一定程度上提高处理器的性能，但同时这会导致大的功耗和集成成本，且其扩展性也严重受限。其次，在冯.诺依曼架构中存储模块与计算模块分离，数据会频繁的在存储模块和计算模块之间传输，这会产生巨大的传输功耗(传输功耗占整体功耗的70％)，这也被成为“功耗墙”问题。例如，英伟达的研究报告指出，浮点运算所需要的数据传输功耗是数据处理功耗的大约200倍。上述的“内存墙”和“功耗墙”问题并称为冯.诺依曼架构的瓶颈。

2、为了突破冯·诺依曼架构的瓶颈，目前提出了近存算架构和存内计算架构两种新型架构，其中近存计算架构是通过高速借口，三维堆叠和增加片上缓存等方法来增加数据的带宽，同时把处理器和存储器之间的距离缩小以减小功耗。采用三维堆叠技术和增加片上缓存两种方法在业界已经得到了广泛的应用。然而近存算架构还是属于冯·诺依曼架构，只能通过增加带宽和减少存储模块与计算模块的传输距离来缓解冯·诺依曼架构的“内存墙”和“功耗墙”瓶颈，并不能从根本上解决冯·诺依曼架构瓶颈。于是业界提出了全新的存内计算架构，存内计算架构利用存储器本身对数据进行运算和处理，不需要数据在处理器和存储器之间来回调用，实现了存储和计算的融合，有望突破冯·诺依曼架构的“内存墙”和“功耗墙”瓶颈。由于存内计算有望大幅度提升计算速度并降低计算的功耗，这一技术在智能芯片中有广泛的应用前景。

3、迄今为止，业界已经开发出了基于静态随机存储器(sram)，动态随机存储器(dram)，闪存(flash)，阻变存储器(reram)，相变存储器(pcm)，铁电晶体管(fefet)，磁存储器(mram)等多种存算一体架构，但是他们在产业化的路上仍然面对着各种问题与挑战。sram具有工艺成熟，工艺节点先进的优点，但是属于易失性存储器，掉电会导致数据丢失。sram的存算一体单元占用面积也较大，不利于高度集成，高计算性能的存内计算芯片。dram同样具有成熟的工艺，并且dram的存算一体单元面积较小，但是和sram一样属于易失性存储器，无法在掉电的情况下保存数据。并且由于dram采用电容存储数据，需要定期刷新且存在漏电现象，难以实现高精度的存内计算，dram被广泛的应用于三维堆叠的近存计算架构中。reram具有非易失性，可以在掉电的情况下保存数据，并且能够实现大规模的交叉点阵列，是未来实现存算一体芯片产业化的潜力芯片之一；但是目前reram的工艺尚不成熟，reram需要较大的编程电压所以难以采用先进节点制造，reram存内计算的多比特存内计算精度较差(一般低于8bit)，且鲁棒性较差。相变存储器pcm同样属于非易失存储器，且能够实现大规模的交叉阵列，但是pcm的读写功耗较大，读写速度慢并且耐久性差。fefet为非易失性存储器，且能够实现交叉点阵列，但是目前工艺还不成熟，且数据保持特性差，读写耐受力较差。mram是非易失存储器，具有高耐久性、高速度、低功耗等优点，且mram的工艺相对成熟，扩展性好，但是mram的高阻值状态和低阻值状态的比率较低(约250％)，在多比特存内计算时的可靠性较低。flash是非易失性存储器，且工艺成熟，成本低，已经实现了量产的存内计算芯片；但是flash在微缩性方面仍然有待进一步的提升，并且flash的编程时间较长。

4、本发明首次提出了基于2t-2c铁电存储器(fram)单元的存内计算单元，并设计了在fram存内计算单元内实现布尔逻辑运算的方法和时序。相较于dram和sram，fram作为非易失存储器，具有在掉电时保存数据的能力，有利于低功耗设计；而且铁电电容不存在漏电的问题，相较于dram，fram的存内计算有更好的可靠性。与其余用于存内计算的非易失存储器相比(reram，pcm，mram，flash，fefet)fram存储器具有低于mram，flash和pcm的读写功耗，拥有比flash，pcm更快的读写速度，还拥有高于flash，reram，pcm的读写次数；除此以外，基于氧化铪薄膜的fram还具有和cmos工艺兼容度高以及抗辐射能力强的优势。因此，本发明提出的2t-2c铁电单元存内计算结构拥有高可靠性，高耐受性，低功耗等优点，有望应用人工智能芯片和ai神经网络中。

技术实现思路

1、本发明设计并提出了基于电容式铁电存储单元fram的存内计算单元架构，并给出了在fram存内计算单元中实现与、或、非布尔逻辑运算的方法，并对其功能，时序进行了仿真验证。

2、为了实现高可靠性的存内运算，本发明设计了基于2t-2c的fram存内运算单元，该单元以铁电电容来实现数据的非失存储。铁电存内运算结构如图1所示，由大于等于三个的2t-2c fram单元组成，该单元采用数据互补的铁电电容作为参考单元，在做存储时，一次仅激活一条字线；在做存内计算时，一次至少激活三条字线将存储单元的数据在bl(位线)相加(如图2所示)。与bl相连的铁电电容叫做计算单元，与bln(互补位线)相连的铁电电容为参考单元，在对存储单元写入数据时，由于bln上的电位与bl的电位相反，因此写入参考单元与计算单元的数值相反，将bln接到锁存型灵敏放大器的一端作为参考电压，并将bl接到锁存型灵敏放大器的另一端(锁存型灵敏放大器会对比两端的电压，将高电位的一端电压拉升到vdd，低电位的一端电压拉低到0)。以一次激活三条字线为例，如图2所示，在计算时同时激活w1,w2,w3，三条字线，并在板线pl上施加一个脉冲，将a1，b1，c1中存储的数据全部输送到bl上，同时a2,b2,c2中存储的数据全部输送到bln上，由于bl与bln连接在锁存型灵敏放大器的两端，bl与bln中电压更大的会被拉高到vdd，电压更小的会被拉低到0。以图2为例，如果在a1,b1,c1中写入数据110，在a2,b2,c2中写入的数据则为001，当激活w1,w2,w3后，bl处的电压将大于bln处的电压，在经过锁存型灵敏放大器放大后，bl位线上的电压将被拉升到vdd，bln的电压将被拉低到0，输出bl结果为vdd。可以看到由于采用互补的铁电电容作为参考，对于三个输入a、b、c，当有2个或3个输入为1时，输出为1，当只有1个或者0个输入为1时，输出为0。基于此可以得到2t-2c铁电存内运算单元的表达式：

3、out＝a+b+c (1)

4、化简过后，可以得到

5、

6、因此，这里的c相当于一个决定运算类型的使能信号，通过设置c的值，我们可以实现或运算和与运算。当c为1时，out＝a+b；当c为0时，out＝ab。基于图1所示的fram存内运算单元，本发明可以实现布尔逻辑或和逻辑与运算。

7、要实现所有逻辑，除了或运算和与运算外，还需要非运算。为了在fram存内运算单元中实现非运算，本发明设计了一个4t-2c单元，如图3所示。在2t-2c结构的基础上增加了两个晶体管和一个字线wln，原本连接bl和bln的铁电电容通过wln控制的两个晶体管分别连接到bln和bl上，因此可以将计算结果的非逻辑写入到该单元中，从而实现非运算。

8、进行包括与非、或非运算的完整fram存内计算单元结构如图4所示，由三个2t-2c单元a、b、c和一个4t-2c单元d组成。在ab中写入待计算数据并在c中写入决定ab计算类型的使能信号，然后将abc单元的字线wl1，wl2，wl3全部接通，在位线bl上经过锁存型灵敏放大器完成计算后，再将4t2c单元的wln字线接通，将d1接到位线bln，d2接到位线bl上，配合板线将运算结果的非逻辑写入到4t-2c单元中，实现或非或者与非逻辑运算。要读取该数据或者需要该数据参与运算时，将字线wl导通即可完成计算。

9、参与进行布尔逻辑计算的fram存内计算单元2t-2c的数量可以是多个的，并不局限于3个。一对bl，bln上可以挂载多个2t-2c fram存储单元，在计算时按照要实现的逻辑，可能会对多个2t-2c fram单元进行调用，下面给出进行同或和异或计算的结构和操作流程。

10、用fram进行同或和异或计算的结构由5个2t-2c单元和2个4t-2c单元组成，其计算结构如图5所示。同或计算的结果计算操作为：首先打开wl1和wln6，将a和分别写入对应的2t-2c fram存储单元和4t-2c fram存储

11、单元中，关闭wl1和wln6，再打开字线wl2和wln7，将b和分别写入对应的2t-2cfram存储单元和4t-2c fram存储单元中，关闭wl2和wln7，打开wl3和wl4，在对应的2t-2c单元中写入0，关闭wl4，打开wl5，在对应的2t-2c单元中写入1，打开wl1，wl2，wl3进行计算得到z1＝ab，待bl上信号稳定后关闭wl2和wl3，将z1写入wl1控制的2t-2c单元中，关闭wl1，打开wl4，wl6，wl7进行计算得到关闭wl6和wl7，将z2写入wl4控制的2t-2c单元中，

12、关闭wl4，打开wl1，wl4，wl5进行计算得到得到a同或b的计算结果。

13、异或计算的结果计算操作为：首先打开wl1和wln6，将a和分别写入对应的2t-2c fram存储单元和4t-2c fram存储单元中，关闭wl1和wln6，再打开字线wl2和wln7，将b和分别写入对应的2t-2c fram存储单元和4t-2cfram存储单元中，关闭wl2和wln7，打开wl3和wl4，在对应的2t-2c单元中写入0，关闭wl4，打开wl5，在对应的2t-2c单元中写入1，打开wl1，wl3，wl7进行计算得到待bl上信号稳定后关闭wl3和wl7，将z1写入wl1

14、控制的2t-2c单元中，关闭wl1，打开wl2，wl4，wl6进行计算得到关闭wl4和wl6，将z2写入wl2控制的2t-2c单元中，关闭wl2，打开wl1，wl2，wl5进行计算得到得到a异或b的计算结果。

15、通过以上结构可以实现与或非三种基础运算，在此基础上可以实现包括与非，或非，同或，异或在内的所有的布尔逻辑运算。

16、本发明的有益效果：

17、本发明设计并提出了基于fram的存内计算单元，能够实现与、或、非逻辑运算，并基于此可以实现所有的布尔逻辑运算。相较于其他的存内计算单元，我们提出的fram存内计算单元拥有高可靠性，高耐受性，低功耗等优点，有望应用于人工智能芯片和ai神经网络中。