一种基于隐私计算的可信医疗数据安全流通系统及方法与流程
- 国知局
- 2024-11-06 14:23:53
本发明涉及数据安全,具体涉及一种基于隐私计算的可信医疗数据安全流通系统及方法。
背景技术:
1、随着医疗技术的不断进步和数字化转型的加速,精准医疗已经成为现代医疗发展的重要方向。精准医疗依赖于对大量医疗数据的分析和处理,从而提供个性化的治疗方案和健康管理。然而,医疗数据的迅速增长和数字化带来了数据隐私和安全方面的严峻挑战。保护医疗数据的隐私和安全已经成为实现精准医疗的基础性要求。
2、在当前的医疗数据共享和流通过程中,主要面临数据泄露风险、隐私保护不足、数据使用不当等挑战。传统的数据安全技术,如访问控制、数据加密等,虽然在一定程度上可以保护数据安全,但在数据共享和流通的复杂场景下,难以充分解决以上问题,而隐私计算技术为流通过程中数据的“可用不可见”提供了保障。隐私计算(privacy computation)是一种在保护数据本身不对外泄露的前提下,实现数据分析计算的技术集合,旨在实现数据“可用、不可见”的目标。包括基于密码学的安全多方计算(mpc)、基于硬件的可信执行环境(tee)和基于人工智能的联邦学习(fl)等技术。
3、不同数据拥有者在联邦学习(又名联合学习)过程中可能存在某些模态数据缺失的情况,且依然存在数据隐私泄露的风险,如何利用隐私计算技术在保护数据和隐私安全的前提下,实现数据价值的转化和释放成为需要解决的问题。
技术实现思路
1、针对医疗数据在共享和流通过程中的数据泄露风险和模态数据缺失的情况,本发明提供一种基于隐私计算的可信医疗数据安全流通系统及方法,来保障医疗数据高效流通,有助于推动精准医疗的发展,提升医疗服务的质量和效率,同时确保患者隐私得到充分保护。
2、为了实现上述目的,本发明通过如下的技术方案来实现:
3、一种基于隐私计算的可信医疗数据安全流通系统,所述系统包括:
4、初始化模块,用于初始化隐私计算平台和所有参与方,生成加密密钥和私钥,所述参与方包括数据提供方和数据使用方;
5、数据提供方,用于提供和处理原始医疗数据,通过原始医疗数据训练本地模型并进行权重聚类,生成聚类中心和权重映射,以及用于加密聚类中心并生成权重映射的指纹数组;
6、数据流通模块,用于各个模块间的数据传输和通信,并管理各个模块的访问权限和使用记录;
7、隐私计算平台,用于数据加密、解密和安全计算,根据加密后的聚类中心和指纹数组,重建权重映射并进行安全聚合,生成全局模型并分发给数据使用方;
8、数据使用方,用于在可信执行环境中接收并使用全局模型进行分析和决策。
9、作为本发明的一种优选方案,所述初始化模块包括:
10、平台单元,用于对隐私计算平台执行初始化过程,生成所有参与方均能够访问的公共参数;
11、参与方单元,用于对所有参与方执行初始化过程,所有参与方使用隐私计算平台提供的唯一标识符和公共参数独立创建自己的密钥对,包括私钥和公钥,使用公钥作为加密密钥,并生成功能解密密钥。
12、作为本发明的一种优选方案,所述数据提供方包括本地模型训练单元、聚类单元和加密单元;
13、所述本地模型训练单元用于在原始医疗数据上对本地模型进行训练,得到优化后的模型权重;
14、所述聚类单元用于使用聚类算法对优化后的模型权重进行聚类,生成聚类中心和相应的权重映射;
15、所述加密单元用于使用加密密钥对所述聚类中心进行加密,生成加密后的聚类中心,并将权重映射插入到布隆过滤器中,通过哈希操作生成指纹数组;
16、哈希操作的公式为:
17、
18、式中,hn表示第n个数据提供方的指纹数组;un为第n个数据提供方需要进行哈希操作的键的集合;φ(a)表示计算键a在指纹数组h中的位置,指纹数组hn的构建依赖于第n个数据提供方的唯一的种子sn;
19、将所述加密后的聚类中心和所述指纹数组通过数据流通模块上传至隐私计算平台。
20、作为本发明的一种优选方案,所述使用聚类算法对优化后的模型权重进行聚类,具体为采用k-means聚类算法,将模型权重分配到不同的聚类中心,权重聚类损失函数lwc表示为:
21、
22、式中,为第n个数据提供方的本地模型优化后的模型权重,为模型权重中的第i个权重;zn为第n个数据提供方的聚类中心,zn,j为第n个数据提供方的第j个聚类中心;k为聚类中心的数量,d为模型权重的维度;uij为指示函数,第i个权重属于第j个聚类中心时uij=1,否则uij=0。
23、作为本发明的一种优选方案,所述在原始医疗数据上对本地模型进行训练,还包括应用多模态联合学习方法来处理和融合原始医疗数据的多种数据模态并进行联合学习,具体包括:
24、对于模态缺失的原始医疗数据,通过预训练的图像生成模型从文本描述生成缺失的图像数据,通过预训练的文本生成模型从图像生成缺失的文本描述;
25、使用预训练的图像编码器和文本编码器分别提取图像特征和文本特征,采用跨模态注意力机制,将所述图像特征和文本特征进行融合,生成联合表示,具体为:给定一个图像-文本对{xi,xt}作为输入,使用一个非重叠的补丁嵌入层和预训练的文本编码器来获取图像特征序列icom和文本特征序列tcom tcom,所述图像特征序列icom和文本特征序列tcom均属于公共维度dcom;经过位置嵌入操作后,图像特征序列和文本特征序列被输入到跨模态融合层,所述跨模态融合层包括一个从视觉到语言的注意力模块和一个从语言到视觉的注意力模块,两个注意力模块都基于跨模态注意力,能够有效融合两个输入模态嵌入之间的表示,以图像到文本的嵌入xi→t来展示跨模态注意力:
26、
27、式中,cmi→t表示从图像到文本的跨模态注意力机制,用于将图像特征序列和文本特征序列进行融合,生成联合表示;wq表示查询权重矩阵,将图像特征序列icom转换为查询向量;wk表示键值权重矩阵,将文本特征序列tcom转换为键向量;t表示转置操作;wv表示值权重矩阵,将文本特征序列tcom转换为值向量;softmax()为用于归一化权重的激活函数;
28、以同样方式得到文本到图像的嵌入xt→i,将得到的xi→t和xt→i连接在一起,并通过共享投影头fshared(·)和自注意力层投影到潜在空间,作为最终的联合嵌入xjoint:
29、
30、式中,selfattention()表示自注意力层。
31、作为本发明的一种优选方案,隐私计算平台使用指纹数组hn和唯一的种子sn重建每个数据提供方的布隆过滤器,以估算每个数据提供方的权重映射,第n个数据提供方的权重映射pn的公式为:
32、pn={j∣member(i,j)=true};
33、式中,member()函数表示执行成员查询以确定权重i是否属于聚类中心j;
34、用加密后的聚类中心替换权重映射中的相应位置,生成加密后的模型权重,表示为:
35、
36、式中,wn为第n个数据提供方加密后的模型权重,为第n个数据提供方加密后的第j个聚类中心;
37、结合接收到的功能解密密钥,执行安全聚合,得到全局模型参数以生成全局模型,表示为:
38、θr+1={dec({wrn}n∈n,dkr)};
39、式中,θr+1为第r轮的全局模型参数,dec()表示解密操作;wrn为第n个数据提供方在第r轮中的加密后的模型权重;n为数据提供方集合;dkr为第r轮的功能解密密钥,其中dkr=dkeycomb({f(skn,∣dn∣)}n∈n),skn表示第n个数据提供方的密钥,∣dn∣为数据提供方n的数据样本数量,f()为功能解密密钥函数,dkeycomb()表示组合所有数据提供方的功能解密密钥,生成完整的功能解密密钥函数。
40、一种基于隐私计算的可信医疗数据安全流通方法,所述方法包括:
41、对隐私计算平台执行初始化过程,生成所有参与方均能够访问的公共参数;
42、对所有参与方执行初始化过程,所有参与方使用隐私计算平台提供的唯一标识符和公共参数独立创建自己的密钥对,包括私钥和公钥,使用公钥作为加密密钥,并生成功能解密密钥;
43、数据提供方在原始医疗数据上对本地模型进行训练,得到优化后的模型权重,使用聚类算法对优化后的模型权重进行聚类,生成聚类中心和相应的权重映射,使用加密密钥对所述聚类中心进行加密,生成加密后的聚类中心,并将权重映射插入到布隆过滤器中,通过哈希操作生成指纹数组;
44、将所述加密后的聚类中心和所述指纹数组通过数据流通模块上传至隐私计算平台;
45、隐私计算平台使用指纹数组hn和唯一的种子sn重建每个数据提供方的布隆过滤器,以估算每个数据提供方的权重映射,第n个数据提供方的权重映射pn的公式为:
46、pn={j∣member(i,j)=true};
47、式中,member()函数表示执行成员查询以确定权重i是否属于聚类中心j;
48、用加密后的聚类中心替换权重映射中的相应位置,生成加密后的模型权重,表示为:
49、
50、式中,wn为第n个数据提供方加密后的模型权重,为第n个数据提供方加密后的第j个聚类中心;
51、结合接收到的功能解密密钥,执行安全聚合,得到全局模型参数以生成全局模型,表示为:
52、θr+1={dec({wrn}n∈n,dkr)};
53、式中,θr+1为第r轮的全局模型参数,dec()表示解密操作;wrn为第n个数据提供方在第r轮中的加密后的模型权重;n为数据提供方集合;dkr为第r轮的功能解密密钥,其中dkr=dkeycomb({f(skn,∣dn∣)}n∈n),skn表示第n个数据提供方的密钥,∣dn∣为数据提供方n的数据样本数量,f()为功能解密密钥函数,dkeycomb()表示组合所有数据提供方的功能解密密钥,生成完整的功能解密密钥函数;
54、数据使用方在可信执行环境中接收并使用全局模型进行分析和决策。
55、作为本发明的一种优选方案,所述使用聚类算法对优化后的模型权重进行聚类,具体为采用k-means聚类算法,将模型权重分配到不同的聚类中心,权重聚类损失函数lwc表示为:
56、
57、式中,为第n个数据提供方的本地模型优化后的模型权重,为模型权重中的第i个权重;zn为第n个数据提供方的聚类中心,zn,j为第n个数据提供方的第j个聚类中心;k为聚类中心的数量,d为模型权重的维度;uij为指示函数,第i个权重属于第j个聚类中心时uij=1,否则uij=0。
58、作为本发明的一种优选方案,所述在原始医疗数据上对本地模型进行训练,还包括应用多模态联合学习方法来处理和融合原始医疗数据的多种数据模态并进行联合学习,具体包括:
59、对于模态缺失的原始医疗数据,通过预训练的图像生成模型从文本描述生成缺失的图像数据,通过预训练的文本生成模型从图像生成缺失的文本描述;
60、使用预训练的图像编码器和文本编码器分别提取图像特征和文本特征,采用跨模态注意力机制,将所述图像特征和文本特征进行融合,生成联合表示,具体为:给定一个图像-文本对{xi,xt}作为输入,使用一个非重叠的补丁嵌入层和预训练的文本编码器来获取图像特征序列icom和文本特征序列tcom tcom,所述图像特征序列icom和文本特征序列tcom均属于公共维度dcom;经过位置嵌入操作后,图像特征序列和文本特征序列被输入到跨模态融合层,所述跨模态融合层包括一个从视觉到语言的注意力模块和一个从语言到视觉的注意力模块,两个注意力模块都基于跨模态注意力,能够有效融合两个输入模态嵌入之间的表示,以图像到文本的嵌入xi→t来展示跨模态注意力:
61、
62、式中,cmi→t表示从图像到文本的跨模态注意力机制,用于将图像特征序列和文本特征序列进行融合,生成联合表示;wq表示查询权重矩阵,将图像特征序列icom转换为查询向量;wk表示键值权重矩阵,将文本特征序列tcom转换为键向量;t表示转置操作;wv表示值权重矩阵,将文本特征序列tcom转换为值向量;softmax()为用于归一化权重的激活函数;
63、以同样方式得到文本到图像的嵌入xt→i,将得到的xi→t和xt→i连接在一起,并通过共享投影头fshared(·)和自注意力层投影到潜在空间,作为最终的联合嵌入xjoint:
64、
65、式中,selfattention()表示自注意力层。
66、本发明的有益效果是:针对缺失模态的数据,通过已有模态的数据进行预测和补全,确保联合模型的完整性和有效性;通过加密技术和隐私计算平台实现了医疗数据在流通过程中的高度安全性,保护患者隐私;采用聚类算法和联合学习技术,提高了大规模医疗数据的处理效率,减少了计算资源的消耗;通过建立可信的隐私计算平台,不同医疗机构可以在保障数据安全的前提下,实现数据的高效共享和利用,本发明中的加密方法具有良好的可扩展性,能够适应不同规模和复杂度的数据集,实现高效的联合学习。
本文地址:https://www.jishuxx.com/zhuanli/20241106/321816.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表