技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于事态流和自回归模型实现可学习模型和芯片的方法与流程 > 正文

基于事态流和自回归模型实现可学习模型和芯片的方法与流程

国知局
2024-09-11 14:20:52

本发明涉及人工智能，尤其涉及基于事态流和自回归模型实现可学习模型和芯片的方法。

背景技术：

1、aigc的发展如火如荼，以gpt技术为首的自然语言生成、图像生成以及视频生成等技术，已经有不少的落地产品。这些产品提供了创新的方法来生成文本、图像和音频等多媒体内容，从而改变了传统的内容创作方式，提高了创作效率。

2、aigc技术的快速发展，被人们誉为第四次工业革命的来临。虽然以transformer技术为首的aigc技术一度让设计师和程序员等岗位工程师感受到了压力，但是其是否能够带来工业革命，还必须有在工业上应用实例的加持。当前，openai等公司正在将aigc技术应用在机器人领域，被称作ai-agent。

3、另一方面，动态神经网络(dnn)作为前沿研究领域被广泛关注。类似动态神经网络这样的可变模型被认为是更具有适应性的新一代人工智能模型。支持可变模型的忆阻器等硬件基础正蓬勃发展。

4、可学习模型和芯片的主要实现方法，是基于可变模型的。但可变模相对不可变模型来说，实现难度和训练成本要高的多。基于transformer架构的神经网络大模型，是当前可训练的最复杂的神经网络模型，那么是否可以将两者结合起来，以部分的实现可学习模型和芯片。

技术实现思路

1、本发明的目的是为了解决现有技术中存在的缺点，而提出的基于事态流和自回归模型实现可学习模型和芯片的方法。

2、为了实现上述目的，本发明采用了如下技术方案：

3、设计基于事态流和自回归模型实现可学习模型和芯片的方法，具体包括如下步骤：

4、m1.事态流数据的收集：

5、基于自回归大模型的可学习模型和芯片，为了有效的模仿人类处理任务的过程，必须收集人类智能生命从事真实任务过程中所产生的数据，每段事态流数据中的事态，都需要包括输入数据、输出数据和状态数据，其中状态数据内蕴含了智能体在从事任务处理过程中期望达成的目标；

6、如可学习模型和芯片技术中所提到的，智能体总是期望自身的状态数据，以尽可能快的速度稳定到某个稳定点；

7、m2.事态流自回归模型的训练：

8、基于事态流训练的大模型，其训练目标是对下一个事态的预测，通常做法是堆叠前n个事态数据作为输入对下一个事态进行预测。在这里，将这种堆叠操作视为模型的一部分，这样模型整体的输入为一个完整的事态,对事态的预测，保证了模型对产生数据的智能体实现了更完备的模仿；

9、m3.利用事态流自回归模型获得可学习模型：

10、事态大模型的输入事态，包括了输入信息、输出信息和状态信息，同时事态大模型的输出也包括了输入信息、输出信息和状态信息，对比可学习模型，其输入信息包括输入信息和状态输入信息，输出信息仅包含输出信息，对事态流回归模型的输入事态和输出事态中不需要的部分，进行屏蔽，并对输出信息进行自回归处理，即预测的输出信息，作为下一个事态的输出信息；

11、m4.事态流自回归模型的优化方法：

12、处理后的事态流自回归模型，可以看出它形式上是一个递归的可学习模型,作为可学习模型，其智力水平受限于收集到的用于模仿的智能体的智商,为了获得更高智商的可学习模型，可以通过训练可学习模型的方法进一步训练和微调；

13、具体方法是，使用装载可学习模型的代理，在具体任务上做递归执行，评估可学习模型的执行效果，利用演化算法对事态流自回归模型的参数进行调整；

14、m5.事态流自回归模型的应用：

15、微调完成后的事态流自回归模型，就可以制作成可学习模型和芯片产品，广泛的应用于机器人和广义机器人领域。

16、优选的，m4步骤中包括：

17、事态流自回归模型在训练阶段，会增加一些冗余的维度，这些冗余的维度在训练事态流自回归模型的时候，其预测行为是被遮蔽的，不参与误差的计算和梯度的回归；在自回归处理的时候，对其做类似于输出维度的自回归处理，以帮助模型在使用演化算法进行微调的时候，有更大的参数空间。

18、优选的，m4步骤中还包括：

19、将右端预测的输入信息和状态信息，不做屏蔽，而是通过某种方式，连接到这些无用维度之上，以供演化算法进行微调，整体的可学习模型最终是一个大的递归模型，该模型由于具备自主学习能力，可以制作成可学习芯片产品。

20、本发明提出的基于事态流和自回归模型实现可学习模型和芯片的方法，有益效果在于：基于transformer架构的大语言模型之所以强大，内在原因是因为其拟合了自然语言动力学方程。为此，将这种拟合动力学方程的方法用于可学习模型和芯片，虽然这样的实现方法会降低可学习模型和芯片的智力上限，但可以通过进一步的优化，来让事态大模型的智力水平获得提升。

技术特征：

1.基于事态流和自回归模型实现可学习模型和芯片的方法，其特征在于，具体包括如下步骤：

2.基于事态流和自回归模型实现可学习模型和芯片的方法，其特征在于，m4步骤中包括：

3.基于事态流和自回归模型实现可学习模型和芯片的方法，其特征在于，m4步骤中还包括：

技术总结本发明涉及人工智能技术领域，尤其是设计基于事态流和自回归模型实现可学习模型和芯片的方法，包括事态流数据的收集、事态流自回归模型的训练、事态流自回归模型的应用、事态流自回归模型获得可学习模型以及事态流自回归模型的优化方法。本发明基于Transformer架构的大语言模型之所以强大，内在原因是因为其拟合了自然语言动力学方程。为此，将这种拟合动力学方程的方法用于可学习模型和芯片，虽然这样的实现方法会降低可学习模型和芯片的智力上限，但可以通过进一步的优化，来让事态大模型的智力水平获得提升。技术研发人员：朱宝受保护的技术使用者：合肥自然秩序科技有限公司技术研发日：技术公布日：2024/9/9