文档脱敏方法、装置、计算机程序产品及电子设备与流程
- 国知局
- 2024-07-31 22:38:27
本技术涉及人工智能领域、金融科技领域或者其他,具体而言,涉及一种文档脱敏方法、装置、计算机程序产品及电子设备。
背景技术:
1、现有技术中在金融机构的信贷流程中,业务人员在贷前需要对贷款申请客户进行评估。在业务人员的评估过程中对了解金融机构历史业务办理的情况有强烈的诉求。但是出于安全性和合规性的需求,业务报告仅限于总分行管理人员阅读。
2、传统的文档权限控制方案根据不同业务人员的身份和权限,对文档获取渠道以及加密进行权限把控。虽然这样的方法可以保证文档的安全性,但是这些文档的无法发挥出其自身的最大价值。如果向业务人员开放或调整文档阅读权限,则有可能会导致金融机构中客户信息泄露,降低了金融机构的数据安全性。
3、针对相关技术中业务人员在评估客户信贷风险时需要参考历史业务文档,由于历史业务文档可能包含客户敏感信息,导致金融机构的数据安全性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术的主要目的在于提供一种文档脱敏方法、装置、计算机程序产品及电子设备,以解决相关技术中业务人员在评估客户信贷风险时需要参考历史业务文档,由于历史业务文档可能包含客户敏感信息,导致金融机构的数据安全性较低的问题。
2、为了实现上述目的,根据本技术的一个方面,提供了一种文档脱敏方法,该方法包括:获取待脱敏处理的目标文档,并解析所述目标文档中的文本数据;通过预先训练的第一模型识别所述文本数据中的敏感信息,并将识别出的敏感信息替换为预设字符,更新所述目标文档,其中,所述敏感信息是指需要保密的客户信息,所述第一模型是用于执行命名实体识别的模型;识别更新后的目标文档中包含敏感信息的图像数据,并将包含敏感信息的图像数据替换为预设图像,得到脱敏后的目标文档。
3、进一步地,所述敏感信息中至少包括:股权信息,通过预先训练的第一模型识别所述文本数据中的敏感信息,包括:采用所述第一模型识别所述文本数据中的所述股权信息,得到第一识别结果,其中,所述第一模型是指采用目标训练集对基于转换器模型的双向编码器进行训练得到的模型,其中,所述基于转换器模型的双向编码器包含处理序列到序列标注任务的结构;采用基于正则表达式的方式识别所述文本数据中的所述股权信息,得到第二识别结果;对所述第一识别结果和所述第二识别结果进行合并操作、去重操作和过滤操作,识别出所述文本数据中的敏感信息。
4、进一步地,所述第一模型由以下步骤训练得到:获取命名实体识别任务对应的训练集;按照预设比例构建目标种类的样本数据,其中,所述预设比例用于指示所述目标种类的正样本和所述目标种类的负样本之间的比例,所述目标种类的样本数据是指所述训练集中样本数据的数量少于预设数量的样本数据,所述目标种类的样本数据至少包括预设语言类型的样本数据;将所述目标种类的样本数据添加至所述训练集中,得到所述目标训练集;采用所述目标训练集对所述基于转换器模型的双向编码器进行迭代训练,得到所述第一模型。
5、进一步地,所述敏感信息中至少包括:股权信息,识别更新后的目标文档中包含敏感信息的图像数据,包括:通过预先训练的第二模型对所述更新后的目标文档进行识别,识别包含敏感信息的第一图像数据,其中,所述第二模型是指构建图像数据的向量的嵌入模型;在所述更新后的目标文档中确定图像数据的上下文信息,得到上下文信息集合;在所述上下文信息集合中存在包含所述股权信息的目标文本的情况下,确定所述目标文本对应的图像数据,得到第二图像数据;依据所述第一图像数据和所述第二图像数据确定所述更新后的目标文档中包含敏感信息的图像数据。
6、进一步地,通过预先训练的第二模型对所述更新后的目标文档进行识别,识别包含敏感信息的第一图像数据,包括:采用所述第二模型将所述更新后的目标文档中的图像数据转换为目标向量,得到第一向量集合;计算预设向量集合中向量与所述目标向量的相似度,其中,所述预设向量集合是指包含所述股权信息的图像数据对应的向量的集合;在所述相似度大于预设阈值的情况下,将所述相似度对应的图像数据作为所述第一图像数据。
7、进一步地,所述第二模型由以下步骤训练得到:采用预设模型将金融机构中业务文档包含的图像数据转换为向量,得到第二向量集合;接收针对所述第二向量集合中每个向量的标注信息;依据所述业务文档包含的图像数据和所述第二向量集合中每个向量的标注信息对所述预设模型进行迭代训练,得到所述第二模型。
8、进一步地,在将包含敏感信息的图像数据替换为预设图像,得到脱敏后的目标文档之后,所述方法还包括:依据所述脱敏后的目标文档分析目标客户的资产信息,生成分析报告;依据所述分析报告评估所述目标客户的信贷风险;依据所述目标客户的信贷风险确定向所述目标客户推荐的目标信贷产品,并将所述目标信贷产品发送至所述目标客户。
9、为了实现上述目的,根据本技术的另一方面,提供了一种文档脱敏装置,该装置包括:解析单元,用于获取待脱敏处理的目标文档,并解析所述目标文档中的文本数据;第一替换单元,用于通过预先训练的第一模型识别所述文本数据中的敏感信息,并将识别出的敏感信息替换为预设字符,更新所述目标文档,其中,所述敏感信息是指需要保密的客户信息,所述第一模型是用于执行命名实体识别的模型;第二替换单元,用于识别更新后的目标文档中包含敏感信息的图像数据,并将包含敏感信息的图像数据替换为预设图像,得到脱敏后的目标文档。
10、进一步地,所述敏感信息中至少包括:股权信息,所述第一替换单元包括:第一识别子单元,用于采用所述第一模型识别所述文本数据中的所述股权信息,得到第一识别结果,其中,所述第一模型是指采用目标训练集对基于转换器模型的双向编码器进行训练得到的模型,其中,所述基于转换器模型的双向编码器包含处理序列到序列标注任务的结构;第二识别子单元,用于采用基于正则表达式的方式识别所述文本数据中的所述股权信息,得到第二识别结果;处理子单元,用于对所述第一识别结果和所述第二识别结果进行合并操作、去重操作和过滤操作,识别出所述文本数据中的敏感信息。
11、进一步地,所述第一替换单元包括:获取子单元,用于获取命名实体识别任务对应的训练集;构建子单元,用于按照预设比例构建目标种类的样本数据,其中,所述预设比例用于指示所述目标种类的正样本和所述目标种类的负样本之间的比例,所述目标种类的样本数据是指所述训练集中样本数据的数量少于预设数量的样本数据,所述目标种类的样本数据至少包括预设语言类型的样本数据;添加子单元,用于将所述目标种类的样本数据添加至所述训练集中,得到所述目标训练集;第一训练子单元,用于采用所述目标训练集对所述基于转换器模型的双向编码器进行迭代训练,得到所述第一模型。
12、进一步地,所述敏感信息中至少包括:股权信息,所述第二替换单元包括:第三识别子单元,用于通过预先训练的第二模型对所述更新后的目标文档进行识别,识别包含敏感信息的第一图像数据,其中,所述第二模型是指构建图像数据的向量的嵌入模型;第一确定子单元,用于在所述更新后的目标文档中确定图像数据的上下文信息,得到上下文信息集合;第二确定子单元,用于在所述上下文信息集合中存在包含所述股权信息的目标文本的情况下,确定所述目标文本对应的图像数据,得到第二图像数据;第三确定子单元,用于依据所述第一图像数据和所述第二图像数据确定所述更新后的目标文档中包含敏感信息的图像数据。
13、进一步地,所述第三识别子单元包括:转换模块,用于采用所述第二模型将所述更新后的目标文档中的图像数据转换为目标向量,得到第一向量集合;计算模块,用于计算预设向量集合中向量与所述目标向量的相似度,其中,所述预设向量集合是指包含所述股权信息的图像数据对应的向量的集合;确定模块,用于在所述相似度大于预设阈值的情况下,将所述相似度对应的图像数据作为所述第一图像数据。
14、进一步地,所述第二替换单元包括:转换子单元,用于采用预设模型将金融机构中业务文档包含的图像数据转换为向量,得到第二向量集合;接收子单元,用于接收针对所述第二向量集合中每个向量的标注信息;第二训练子单元,用于依据所述业务文档包含的图像数据和所述第二向量集合中每个向量的标注信息对所述预设模型进行迭代训练,得到所述第二模型。
15、进一步地,所述装置还包括:替换单元,用于在将包含敏感信息的图像数据替换为预设图像,得到脱敏后的目标文档之后,依据所述脱敏后的目标文档分析目标客户的资产信息,生成分析报告;评估单元,用于依据所述分析报告评估所述目标客户的信贷风险;确定单元,用于依据所述目标客户的信贷风险确定向所述目标客户推荐的目标信贷产品,并将所述目标信贷产品发送至所述目标客户。
16、为了实现上述目的,根据本技术的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述文档脱敏方法,所述计算机程序被处理器执行时实现本技术各个实施例中所述文档脱敏方法的步骤。
17、为了实现上述目的,根据本技术的一个方面,提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项所述文档脱敏方法。
18、通过本技术,采用以下步骤:获取待脱敏处理的目标文档,并解析所述目标文档中的文本数据;通过预先训练的第一模型识别所述文本数据中的敏感信息,并将识别出的敏感信息替换为预设字符,更新所述目标文档,其中,所述敏感信息是指需要保密的客户信息,所述第一模型是用于执行命名实体识别的模型;识别更新后的目标文档中包含敏感信息的图像数据,并将包含敏感信息的图像数据替换为预设图像,得到脱敏后的目标文档,解决了相关技术中业务人员在评估客户信贷风险时需要参考历史业务文档,由于历史业务文档可能包含客户敏感信息,导致金融机构的数据安全性较低的问题。通过解析目标文档中的文本数据和图像数据,能够识别并替换文本数据中的敏感信息,以及识别并替换图像数据中的敏感信息,得到脱敏后的目标文档,避免了目标文档中的敏感信息泄露的问题,达到了提高金融机构的数据安全性的效果,同时有利于金融机构的业务人员参考脱敏后的目标文档完成工作,进一步达到了提高金融机构业务人员的工作效率的效果。
本文地址:https://www.jishuxx.com/zhuanli/20240730/193955.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。