技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大模型保护方法、装置、设备及存储介质与流程 > 正文

大模型保护方法、装置、设备及存储介质与流程

国知局
2024-11-19 09:52:53

本申请涉及人工智能，尤其是涉及一种大模型保护方法、装置、设备及存储介质。

背景技术：

1、大模型是指具有大规模参数和复杂计算结构的深度学习模型，其在自然语言处理、计算机视觉、语音识别和推荐系统等领域有着广泛的应用。大模型的训练过程需要高昂的设备和人力成本，而大模型最具有价值的部分则是训练之后的大模型权重文件，这也是企业构建人工智能(ai)竞争力的重要资产，为防止模型被窃取或被未授权访问和使用，通常需要对大模型权重文件进行保护。

2、大模型保护的常用方法是对大模型权重文件进行加密，在使用大模型权重文件时再对加密文件进行解密，目前常用的加密方法通常是直接对大模型权重文件整体进行加解密，由于大模型权重文件一般几十吉字节(gigabyte，gb)大小，文件过大，因此整体加密解密需要耗费大量的时间，从而导致模型加载时间变长，影响用户体验。

技术实现思路

1、为了有助于解决大模型权重文件过大，整体加密解密需要耗费大量的时间，从而导致模型加载时间变长，影响用户体验的问题，本申请提供一种大模型保护方法、装置、设备及存储介质。

2、第一方面，本申请提供一种大模型保护方法，采用如下技术方案：所述方法包括：

3、获取大模型权重文件，所述大模型权重文件为需要进行保护的大模型的文件；

4、将所述大模型权重文件按预设的数据大小拆分为若干原始数据块，并对若干所述原始数据块设置数据块索引；

5、采用国密算法对每个所述原始数据块进行部分加密，并生成若干加密数据块；

6、将若干所述加密数据块按所述数据块索引进行拼接，并生成大模型密文数据。

7、在一个具体的可实施方案中，所述采用国密算法对每个所述原始数据块进行部分加密，并生成若干加密数据块包括：

8、创建若干加密处理线程，所述加密处理线程的数量与所述原始数据块的数量一致，一个所述加密处理线程处理一个所述原始数据块；

9、对每个所述原始数据块随机生成随机加密起始位置和随机加密长度；

10、采用国密算法sm4根据所述随机加密起始位置和所述随机加密长度对所述原始数据块中的部分数据段进行加密，将加密后的部分数据段替换原始数据段，并生成若干加密数据块。

11、在一个具体的可实施方案中，在所述对每个所述原始数据块随机生成随机加密起始位置和随机加密长度之前，还包括：

12、采用国密算法sm3计算每个所述原始数据块的摘要，并生成若干数据明文摘要。

13、在一个具体的可实施方案中，所述将若干所述加密数据块按所述数据块索引进行拼接，并生成大模型密文数据包括：

14、创建数据文件头；

15、根据每个所述原始数据块部分加密的信息生成与每个所述原始数据块对应的数据块描述信息；

16、将若干所述加密数据块按所述数据块索引依次进行拼接，并将所述加密数块对应的数据块描述信息以及所述数据明文摘要，按所述数据块索引依次存入所述数据文件头；

17、将拼接的若干所述加密数据块以及存入数据块描述信息的所述数据文件头设定为大模型密文数据。

18、在一个具体的可实施方案中，所述大模型密文数据包括数据文件头和若干所述加密数据块，所述方法还包括：

19、当获取所述大模型密文数据时，读取并解析所述数据文件头，获得解析后的数据块描述信息以及加密数据块的数量，所述数据块描述信息包括数据块索引；

20、根据所述加密数据块的数量和所述数据块描述信息采用国密算法对若干所述加密数据块进行解密，获得若干所述解密数据块；

21、将若干所述解密数据块按所述数据块索引进行拼接，生成大模型明文数据。

22、在一个具体的可实施方案中，所述数据块描述信息包括数据明文摘要、加密起始位置和加密长度；

23、所述根据所述加密数据块的数量和所述数据块描述信息采用国密算法对若干所述加密数据块进行解密，获得若干所述解密数据块包括：

24、根据所述加密数据块的数量创建对应数量的解密处理线程，一个所述解密处理线程处理一个所述加密数据块；

25、根据所述加密起始位置和所述加密长度确定待解密的数据段；

26、采用国密算法sm4对所述待解密的数据段进行解密，并将解密后的数据段替换原加密数据段，生成若干所述解密数据块。

27、在一个具体的可实施方案中，在所述采用国密算法sm4对所述待解密的数据段进行解密，并将解密后的数据段替换原加密数据段，生成若干所述解密数据块之后，还包括：

28、采用国密算法sm3计算每个所述解密数据块的摘要，生成若干数据解密摘要；

29、将若干所述数据解密摘要和对应的若干所述数据明文摘要进行比对；

30、若比对结果不一致，则发出数据篡改隐患警告；

31、若比对结果一致，则所述大模型密文数据解密完成。

32、第二方面，本申请提供一种大模型保护装置，采用如下技术方案：所述装置包括：

33、文件获取模块，用于获取大模型权重文件，所述大模型权重文件为需要进行保护的大模型的文件；

34、文件拆分模块，用于将所述大模型权重文件按预设的数据大小拆分为若干原始数据块，并对若干所述原始数据块设置数据块索引；

35、部分加密模块，用于采用国密算法对每个所述原始数据块进行部分加密，并生成若干加密数据块；

36、数据拼接模块，用于将若干所述加密数据块按所述数据块索引进行拼接，并生成大模型密文数据。

37、第三方面，本申请提供一种计算机设备，采用如下技术方案：包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述任一种大模型保护方法的计算机程序。

38、第四方面，本申请提供一种计算机可读存储介质，采用如下技术方案：存储有能够被处理器加载并执行上述任一种大模型保护方法的计算机程序。

39、综上所述，本申请具有以下有益技术效果：

40、1、对模型进行数据拆分，划分为若干数据块，对每个数据块进行部分加密，代替目前常用方法中的整体加密方式，从而可以减少加密耗费的时间以及模型加载的时间，提高模型保护操作的效率，进而可以提升用户体验；通过计算摘要进行完整性校验，防止数据被篡改；

41、2、在处理过程中，创建并启动多个线程处理加解密操作，线程的个数和拆分的原始数据块的数量一致，以尽可能的加快加解密的速度，减少加解密所耗费的时间。此外，随机生成每个数据块中加密的位置和加密的长度，增加了加密的随机性，从而可以尽可能提高加密后的安全性，并且尽可能避免加密文件被轻易破解。

技术特征：

1.一种大模型保护方法，其特征在于：所述方法包括：

2.根据权利要求1所述的方法，其特征在于：所述采用国密算法对每个所述原始数据块进行部分加密，并生成若干加密数据块包括：

3.根据权利要求2所述的方法，其特征在于：在所述对每个所述原始数据块随机生成随机加密起始位置和随机加密长度之前，还包括：

4.根据权利要求3所述的方法，其特征在于：所述将若干所述加密数据块按所述数据块索引进行拼接，并生成大模型密文数据包括：

5.根据权利要求1所述的方法，其特征在于：所述大模型密文数据包括数据文件头和若干所述加密数据块，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于：所述数据块描述信息包括数据明文摘要、加密起始位置和加密长度；

7.根据权利要求6所述的方法，其特征在于：在所述采用国密算法sm4对所述待解密的数据段进行解密，并将解密后的数据段替换原加密数据段，生成若干所述解密数据块之后，还包括：

8.一种大模型保护装置，其特征在于：所述装置包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。

技术总结本申请涉及一种大模型保护方法、装置、设备及存储介质，应用在人工智能领域，包括获取大模型权重文件，所述大模型权重文件为需要进行保护的大模型的文件；将所述大模型权重文件按预设的数据大小拆分为若干原始数据块，并对若干所述原始数据块设置数据块索引；采用国密算法对每个所述原始数据块进行部分加密，并生成若干加密数据块；将若干所述加密数据块按所述数据块索引进行拼接，并生成大模型密文数据。本申请具有的技术效果是：减少加密耗费的时间以及模型加载的时间，提高模型保护操作的效率，进而可以提升用户体验。技术研发人员：请求不公布姓名,请求不公布姓名受保护的技术使用者：深存科技（无锡）有限公司技术研发日：技术公布日：2024/11/14