技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大规模语言模型的APP敏感特征检测方法及系统  >  正文

基于大规模语言模型的APP敏感特征检测方法及系统

  • 国知局
  • 2024-09-11 14:34:20

本发明涉及信息安全检测,尤其涉及一种基于大规模语言模型的app敏感特征检测方法及系统。

背景技术:

1、近年来,个人信息保护的新型问题引起了国家的广泛关注,作为与app权限相关的敏感信息,隐私策略披露了如何以及为什么收集、共享、使用和存储用户的敏感数据。然而,由于隐私策略法律和技术术语的复杂性,文档过于冗杂且来源路径复杂,用户难以在app运行阶段快速捕获和理解敏感数据所涉及和收集的隐私信息,而快速操作下的“无察觉”的授权行为严重威胁隐私信息安全。因此,能够自动分析检测隐私策略的合规性并帮助用户理解应用程序的隐私访问行为对于用户的信息安全保护具有重要的意义。

2、在现有技术中例如申请号为“202311842713.8”名称为“一种移动应用中文隐私政策收集个人信息合规性检测方法”采用的是经典的bert对标注的移动应用隐私政策短句数据集进行模型训练,而在标注过程中则是根据一般的个人信息收集的基本要求中的内容来实施,然而此种数据集处理方法并没有考虑到不同的业务模式(如社交媒体、电子商务、游戏等)会涉及不同类型的数据收集和处理方式,以及如何针对不同类别app进行多粒度敏感特征的提取。因此,该合规性检测方法得到的检测结果并不能满足准确性要求。

技术实现思路

1、因此,本发明的目的在于提供一种基于大语言模型的app敏感特征分析与检测系统,该系统聚焦于与app权限相关的隐私策略,构建基于不同粒度的敏感特征约束模式和标注数据集,利用nlp技术、通用信息抽取统一框架uie和基于大规模的无监督预训练技术的t5模型框架,提出一种基于大语言模型的敏感特征分类检测和检测模型,并能够根据相关法规规定和应用市场需求,检测app收集的信息是否满足相关法规要求,同时基于构建的敏感特征约束模式生成隐私策略的摘要,为规范app相关信息的收集提供理论基础,帮助用户保护隐私安全,解决用户隐私泄露的实际问题。

2、为了实现上述目的,本发明提供了一种基于大规模语言模型的app敏感特征检测方法,包括以下步骤:

3、s1、爬取与应用程序敏感资源文件相关的页面,从所爬取页面的html数据中解析并提取出多种类型元素信息,并按照不同的等级分别保存在相应类型的元素里;

4、s2、对保存的元素信息进行预处理;

5、s3、基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式;基于多维隐私策略敏感特征约束模式构建标注语料库;

6、s4、构建基于大规模语言模型的敏感特征分类检测模型,采用标注语料库的数据对构建的基于大规模语言模型的敏感特征分类检测模型进行训练,并微调模型参数;

7、s5、采用微调后的基于大规模语言模型的敏感特征分类检测模型,对输入的app敏感特征数据进行检测。

8、进一步优选的,在s1中,所述多种类型元素信息包括网址信息、图片信息、文字信息、音频信息和视频信息。

9、进一步优选的,还包括通过应用程序的排名、下载量和类别覆盖采用多策略收集种子链接;根据获取的种子链接,创建不同的筛选标准筛选高质量敏感资源文档。

10、进一步优选的,在s2中,对保存的元素信息进行预处理,所述预处理包括如下步骤:

11、s201、对不同类型的元素信息进行自然语言处理;

12、s202、根据权限机制,将与敏感信息相关的危险权限映射到对应权限组。

13、进一步优选的,在s3中,所述基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式,包括根据主题信息提取、法律法规分析、应用市场要求三个层次按照以下15个主题特征分别构建隐私策略敏感特征约束模式;所述15个主题特征包括:隐私策略简介,隐私策略标题,开发者信息,动作目的,处理技术,数据分享,数据安全,用户权利,数据保留,国际数据传输,隐私策略的变化,法律依据,广告使用,儿童保护,链接有效性。

14、进一步优选的,在动作目的主题特征中,还包括按照主体、行为、敏感信息、条件和目的,五个维度生成敏感特征访问的细粒度检测模式;

15、所述主体为检测数据收集者,需清晰说明开发者或者运营者,或参与数据收集的第三方服务或机构;

16、所述条件为检测数据收集条件,隐私策略中是否说明在什么情况下会收集用户的数据;

17、所述行为是指检测app运行过程中涉及的三个基本行为:访问数据、收集数据、使用数据;

18、目的:检测数据获取的目的:开发者应清晰地列出数据的使用目的,例如提供特定服务、改善用户体验、个性化推荐等。在进行这些行为时,开发者需要遵守适用的隐私法规,并在隐私策略中明确告知用户,以建立信任并保护用户的隐私权。

19、所述敏感信息包括用户个人信息和危险权限;其中,个人信息包括健康数据信息、生物特征数据、性别、年龄、姓名、地址;

20、所述危险权限包括:用于与用户日历相关的运行时权限;用于与访问摄像头或从设备捕获图像/视频相关联的权限;用于与此设备上的联系人和配置文件相关的运行时权限;用于允许访问设备位置的权限;用于与从设备访问麦克风音频相关联的权限;用于与电话功能相关联的权限;用于与访问身体或环境传感器相关联的权限;用于与用户的短信消息相关的运行时权限;用于与共享外部存储相关的运行时权限。

21、进一步优选的,所述基于大规模语言模型的敏感特征分类检测模型包括:

22、采用uie模型对标注数据进行抽取,并进行整体框架建模;

23、采用verot5模型根据隐私策略文本的不同类别对整体框架进行嵌入,将编码器和解码器的位置编码采用旋转位置编码,所述旋转位置编码为对提取出的特征向量进行旋转,使旋转后的特征在自注意力机制中能自动感知相对位置信息,所述根据隐私策略文本的不同类别对整体框架进行嵌入包括根据隐私策略文本进行隐私策略识别、隐私策略标题识别、开发者信息识别、敏感数据动作与目的识别,根据识别结果进行嵌入;

24、所述敏感数据动作与目的识别包括采用相似度计算原则判断隐私标题所在位置,根据位置获取隐私内容,根据所述隐私内容获取敏感权限信息,并进行摘要信息提取。

25、本发明还提供一种基于大规模语言模型的app敏感特征检测系统,包括:

26、数据获取模块,用于爬取与应用程序敏感资源文件相关的页面,从所爬取页面的html数据中解析并提取出多种类型元素信息,并按照不同的等级分别保存在相应类型的元素里;

27、数据预处理模块,用于对保存的元素信息进行预处理;

28、模型构建模块,用于基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式;基于多维隐私策略敏感特征约束模式构建标注语料库;

29、模型训练模块,构建基于大规模语言模型的敏感特征分类检测模型,采用标注语料库的数据对构建的基于大规模语言模型的敏感特征分类检测模型进行训练,并微调模型参数;

30、敏感特征检测模块,采用微调后的基于大规模语言模型的敏感特征分类检测模型,对输入的app敏感特征数据进行检测。

31、本发明还提供一种电子设备,包括:

32、存储器,存储有计算机程序指令;

33、处理器,当所述计算机程序指令被所述处理器执行时实现如上述基于大规模语言模型的app敏感特征检测方法的步骤。

34、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储指令,当存储的指令在计算机上运行时,使得所述计算机执行如上述基于大规模语言模型的app敏感特征检测方法的步骤。

35、本技术公开的基于大规模语言模型的app敏感特征检测方法及系统,相比于现有技术,至少具有以下优点:

36、本技术提出了基于不同类别的多维隐私策略敏感特征约束模式,综合考虑了主题信息、法律法规和应用市场要求等多个维度,不仅关注与用户隐私直接相关的通用数据访问和处理的描述,更关注该领域的特定术语和要求,为开发者提供了实施隐私保护措施的指导和参考,为隐私保护领域的研究提供了一个共同的评估基准。

37、将自然语言处理技术应用于隐私保护领域,是大语言模型技术在移动应用安全任务中的应用创新,具有重要的理论意义。

38、本技术能够有效地对开发者app的隐私策略进行合规性检测,辅助开发者分析其app的隐私政策和数据处理实践,确保合规性,有助于推动应用程序更好地遵守隐私法规,保护用户隐私,降低可能的法律风险。

39、通过对隐私策略和相对性检测,进一步增强用户对个人隐私的保护意识,降低数据被滥用的风险,保障用户个人数据的安全。将法律法规融入隐私策略的检测任务中,通过提供检测系统,提供了实证数据和技术依据,推动隐私保护法规和政策的发展与完善。

本文地址:https://www.jishuxx.com/zhuanli/20240911/291433.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。