技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于自然语言处理的敏感信息提取方法及系统与流程 > 正文

一种基于自然语言处理的敏感信息提取方法及系统与流程

国知局
2024-11-21 12:11:33

本申请涉及数据处理，尤其涉及一种基于自然语言处理的敏感信息提取方法及系统。

背景技术：

1、随着互联网技术的飞速发展，信息量呈爆炸性增长，如何从海量、非结构化的文本数据中高效、准确地提取出敏感信息至关重要。敏感信息，如个人身份信息、财务信息、商业机密等，对于个人隐私保护、企业安全及国家安全具有重要意义。传统的敏感信息提取方法多依赖于人工规则或简单的关键词匹配，这些方法在处理复杂多变的文本数据时显得力不从心，且效率低下。随着自然语言处理（nlp）技术的不断进步，特别是深度学习、机器学习等技术的广泛应用，为敏感信息提取带来了新的解决方案。然而，现有的方法多依赖于大量标注好的训练数据，这些数据集的构建成本高、周期长，限制了技术的广泛应用。此外，单一的敏感信息提取模型往往难以全面覆盖所有类型的敏感信息，不同模型在处理特定类型敏感信息时表现出不同的优势。如何整合多个模型的优势，提高敏感信息提取的准确性和效率，成为重要研究方向。

技术实现思路

1、有鉴于此，本申请提供一种基于自然语言处理的敏感信息提取方法及系统。本申请的技术方案是这样实现的：

2、一方面，本申请提供一种基于自然语言处理的敏感信息提取方法，所述方法包括：获取拟提取文本，并将所述拟提取文本传入目标敏感信息提取算法，得到所述拟提取文本对应的敏感字符序列集合；所述目标敏感信息提取算法采用如下操作进行训练：获取第一训练文本库；所述第一训练文本库为无监督信息的训练文本库；将所述第一训练文本库中的各个第一训练文本传入基础敏感信息提取算法，得到所述各个第一训练文本分别对应的基础字符序列集合；所述第一训练文本对应的基础字符序列集合包括所述基础敏感信息提取算法中各个敏感信息提取算子分别执行得到的基础字符序列和基础字符序列对应的敏感信息分类；对于相同的基础字符序列集合，结合属于相同的敏感信息分类的基础字符序列之间的字符序列相似评分，将目标敏感信息提取算子执行得到的基础字符序列分别和各个其它敏感信息提取算子执行得到的基础字符序列进行对比，得到目标敏感信息提取算子执行得到的基础字符序列对应的相似字符序列；将基础字符序列和对应的各个相似字符序列进行合并，得到假字符序列，结合相同的第一训练文本对应的各个假字符序列，得到第一训练文本对应的假字符序列集合；结合所述第一训练文本库和对应的各个假字符序列集合，对所述基础敏感信息提取算法进行迭代更新，得到目标敏感信息提取算法。

3、另一方面，本申请提供一种计算机系统，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上所述方法中的步骤。

4、本申请的有益效果包括：本申请提供的基于自然语言处理的敏感信息提取方法及系统，通过获取第一训练文本库，第一训练文本库为无监督信息的训练文本库，将第一训练文本库中的各个第一训练文本传入基础敏感信息提取算法，得到各个第一训练文本分别对应的基础字符序列集合，第一训练文本对应的基础字符序列集合包括基础敏感信息提取算法中各个敏感信息提取算子分别执行得到的基础字符序列和基础字符序列对应的敏感信息分类，对于相同的基础字符序列集合，结合属于相同的敏感信息分类的基础字符序列之间的字符序列相似评分，将目标敏感信息提取算子执行得到的基础字符序列分别和各个其它敏感信息提取算子执行得到的基础字符序列进行对比，得到目标敏感信息提取算子执行得到的基础字符序列对应的相似字符序列，将基础字符序列和对应的各个相似字符序列进行合并，得到假字符序列，结合相同的第一训练文本对应的各个假字符序列，得到第一训练文本对应的假字符序列集合，结合第一训练文本库和对应的各个假字符序列集合，对基础敏感信息提取算法进行迭代更新，得到目标敏感信息提取算法。如此，将没有监督信息的训练文本传入算法进行敏感信息提取，结合提取的基础字符序列集合为没有监督信息的训练文本赋予伪标签，将没有监督信息的训练文本和伪标签确定成算法的训练样本，不样本标注的前提下进行算法的训练，节约成本。而在假字符序列的生成环节，将算法中的不同敏感信息提取算子对于相同的训练文本执行得到的基础字符序列进行对比，相似的基础字符序列属于相同的敏感信息分类，将相同的基础字符序列对应的各个相似字符序列进行合并，得到的假字符序列更准确，促使算法迭代更新更准确，进而增加敏感信息提取的效率和准确性。

技术特征：

1.一种基于自然语言处理的敏感信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括敏感信息提取算法的前置调试的过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述对于相同的基础字符序列集合，结合属于相同的敏感信息分类的基础字符序列之间的字符序列相似评分，将目标敏感信息提取算子执行得到的基础字符序列分别和各个其它敏感信息提取算子执行得到的基础字符序列进行对比，得到目标敏感信息提取算子执行得到的基础字符序列对应的相似字符序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述结合所述第一训练文本库和对应的各个假字符序列集合，对所述基础敏感信息提取算法进行迭代更新，得到目标敏感信息提取算法，包括：

5.根据权利要求4所述的方法，其特征在于，所述结合相同的第一训练文本，根据相同的选定敏感信息提取算子执行得到的子基础字符序列集合和对应的假字符序列集合之间的区别，获取选定敏感信息提取算子对应的目标误差，得到各个选定敏感信息提取算子分别对应的目标误差，包括：

6.根据权利要求1~5任一项所述的方法，其特征在于，所述结合所述第一训练文本库和对应的各个假字符序列集合，对所述基础敏感信息提取算法进行迭代更新，得到目标敏感信息提取算法，包括：

7.根据权利要求6所述的方法，其特征在于，所述结合所述第一训练文本库和对应的各个假字符序列集合，对所述基础敏感信息提取算法进行算法参数优化，得到过渡敏感信息提取算法，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取第三训练文本库，包括：

9.根据权利要求1所述的方法，其特征在于，所述将所述拟提取文本传入目标敏感信息提取算法，得到所述拟提取文本对应的敏感字符序列集合，包括：

10.一种计算机系统，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。

技术总结本申请提供一种基于自然语言处理的敏感信息提取方法及系统，将没有监督信息的训练文本传入算法进行敏感信息提取，结合提取的基础字符序列集合为没有监督信息的训练文本赋予伪标签，将没有监督信息的训练文本和伪标签确定成算法的训练样本，不样本标注的前提下进行算法的训练，节约成本。而在假字符序列的生成环节，将算法中的不同敏感信息提取算子对于相同的训练文本执行得到的基础字符序列进行对比，相似的基础字符序列属于相同的敏感信息分类，将相同的基础字符序列对应的各个相似字符序列进行合并，得到的假字符序列更准确，促使算法迭代更新更准确，进而增加敏感信息提取的效率和准确性。技术研发人员：程赛受保护的技术使用者：沥泉科技（成都）有限公司技术研发日：技术公布日：2024/11/18