深度学习模型非侵入可逆化转换方法、装置、设备及介质与流程
- 国知局
- 2024-09-05 14:35:00
本发明涉及人工智能,尤其涉及一种深度学习模型非侵入可逆化转换方法、装置、设备及介质。
背景技术:
1、深度学习模型的可逆化技术是一种能在模型训练过程中对计算、带宽和存储资源利用效率进行有效优化的技术方案。具体的实现方式是将深度学习模型中的某些局部结构(也可以称为可逆结构)等价转换成特定的可逆模式。
2、现有技术中,主要通过具有丰富知识储备和经验的开发人员手动进行模型结构分析的方式来人工识别可以进行可逆化转换的可逆结构以及相适配的可逆模式。之后,手动通过侵入式的方式,进行深度学习模型源码的修改,以实现上述可逆化转换过程。例如revnet,reformer这两项学术领域的前沿研究,都是通过直接修改pytorch模型源码来实现的可逆化转换。
3、显然,这样的实现方式严重依赖开发人员实际经验,人力成本高、繁琐且易出错,同时,这种依赖经验的手动实现方式很难泛化、扩展到更多的模型和应用场景中。
技术实现思路
1、本发明提供了一种深度学习模型非侵入可逆化转换方法、装置、设备及介质,以达到非侵入式的实现可逆化转换的技术效果。
2、根据本发明实施例的一方面,提供了一种深度学习模型非侵入可逆化转换方法,包括:
3、获取目标深度学习模型的抽象语法树以及设定的可逆转换形式;
4、其中,抽象语法树中的节点对应目标深度学习模型中的算子,可逆转换形式中包括:目标深度学习模型中至少一个转换可逆结构,以及与每个转换可逆结构分别对应的唯一转换可逆转换模式;转换可逆结构为包含至少一个节点的无分支结构;
5、根据所述可逆转换形式,分别生成用于将每个转换可逆结构转换为匹配的转换可逆转换模式的目标注入代码;
6、生成与每个目标注入代码分别对应的转换子树,并根据各转换子树对目标深度学习模型的抽象语法树进行更新,得到与可逆转换形式对应的更新抽象语法树。
7、根据本发明实施例的另一方面,还提供了一种深度学习模型非侵入可逆化转换装置,包括:
8、可逆转换形式获取模块,用于获取目标深度学习模型的抽象语法树以及设定的可逆转换形式;
9、其中,抽象语法树中的节点对应目标深度学习模型中的算子,可逆转换形式中包括:目标深度学习模型中至少一个转换可逆结构,以及与每个转换可逆结构分别对应的唯一转换可逆转换模式;转换可逆结构为包含至少一个节点的无分支结构;
10、目标注入代码生成模块,用于根据所述可逆转换形式,分别生成用于将每个转换可逆结构转换为匹配的转换可逆转换模式的目标注入代码;
11、更新抽象语法树生成模块,用于生成与每个目标注入代码分别对应的转换子树,并根据各转换子树对目标深度学习模型的抽象语法树进行更新,得到与可逆转换形式对应的更新抽象语法树。
12、根据本发明实施例的另一方面,还提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的深度学习模型非侵入可逆化转换方法。
16、根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的深度学习模型非侵入可逆化转换方法。
17、本发明实施例的技术方案,通过获取目标深度学习模型的抽象语法树以及设定的可逆转换形式;根据所述可逆转换形式,分别生成用于将每个转换可逆结构转换为匹配的转换可逆转换模式的目标注入代码;生成与每个目标注入代码分别对应的转换子树,并根据各转换子树对目标深度学习模型的抽象语法树进行更新,得到与可逆转换形式对应的更新抽象语法树的技术手段,提供了一种以非侵入的方式自动化实现可逆化转换的新技术,无需人工参与,彻底避免了由人工操作所引起的各类错误,实现方式简单、灵活,进而可以有效泛化、扩展到更多的机器学习模型或者应用场景中。
18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种深度学习模型非侵入可逆化转换方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据所述可逆转换形式,分别生成用于将每个转换可逆结构转换为匹配的转换可逆转换模式的目标注入代码,包括:
3.根据权利要求2所述的方法,其特征在于,在预设的可逆转换代码模板库中,检测是否存在用于将当前转换可逆结构转换为当前转换可逆转换模式的目标可逆转换代码模板之后,还包括:
4.根据权利要求1-3任一项所述的方法,其特征在于,生成与每个目标注入代码分别对应的转换子树,包括:
5.根据权利要求1-3任一项所述的方法,其特征在于,根据各转换子树对目标深度学习模型的抽象语法树进行更新,得到与可逆转换形式对应的更新抽象语法树,包括:
6.根据权利要求1所述的方法,其特征在于,在得到与可逆转换形式对应的更新抽象语法树之后,还包括:
7.根据权利要求6所述的方法,其特征在于,在采用编译器对更新抽象语法树进行合法性检测之后,还包括:
8.一种深度学习模型非侵入可逆化转换装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的深度学习模型非侵入可逆化转换方法。
技术总结本发明公开了一种深度学习模型非侵入可逆化转换方法、装置、设备及介质。该方法包括:获取目标深度学习模型的抽象语法树以及设定的可逆转换形式;根据所述可逆转换形式,分别生成用于将每个转换可逆结构转换为匹配的转换可逆转换模式的目标注入代码;生成与每个目标注入代码分别对应的转换子树,并根据各转换子树对目标深度学习模型的抽象语法树进行更新,得到与可逆转换形式对应的更新抽象语法树。本发明实施例的技术方案提供了一种以非侵入的方式自动化实现可逆化转换的新技术,无需人工参与,彻底避免了由人工操作所引起的各类错误,实现方式简单、灵活,进而可以有效泛化、扩展到更多的机器学习模型或者应用场景中。技术研发人员:石恒,胡维,鲍国庆,张亚林,姚建国受保护的技术使用者:上海燧原科技股份有限公司技术研发日:技术公布日:2024/9/2本文地址:https://www.jishuxx.com/zhuanli/20240905/287098.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。