医疗数据隐私保护与AI模型训练之间的矛盾,一直是行业痛点——医院间数据难以共享,导致AI诊断模型泛化能力不足;手机、智能手表等边缘设备的海量用户数据,因隐私问题无法集中利用。如何让分散的数据在不共享的情况下共同训练出优质AI模型?近日,浙江大学团队在《Frontiers of Information Technology & Electronic Engineering》发表研究,提出联邦无监督表示学习(FURL)框架及FedCA算法,通过“共享字典”和“对齐校准”技术,在保护数据隐私的同时,让分布式模型的表示空间一致性提升,在CIFAR-10数据集上分类准确率达71.25%,较传统方法提高3.15个百分点。
联邦学习的“拦路虎”:数据孤岛与表示错位
联邦学习(FL)让数据“不动模型动”,客户端仅上传模型参数而非原始数据,有效保护隐私。但当面对无标签数据时,新的难题出现了:
表示空间不一致:不同客户端数据分布差异大(non-IID),比如甲医院只有肺癌数据,乙医院以胃病数据为主,各自训练的模型会“各执一词”,无法统一理解数据特征;
表示错位:即便数据分布一致,训练随机性也会导致模型对同一事物的表示“旋转错位”,如同两个人用不同方言描述同一物体,服务器难以聚合出有效模型。
传统方法要么简单拼接联邦学习与无监督学习(如FedSimCLR),导致模型在非IID数据上表现骤降;要么依赖大量标注数据,失去无监督学习的优势。
FedCA双模块:给AI装上“共享字典”和“翻译官”
字典模块:构建跨客户端的“特征词汇表”
想象每个客户端都在学习一门“方言”,字典模块则像一本“共享词典”。客户端在本地训练时,将样本特征(如图片的边缘、纹理信息)编码为标准化向量,上传至服务器汇总成“全局字典”。其他客户端下载字典后,将其作为“通用负样本”参与对比学习——比如甲医院的模型通过字典“见过”胃病数据的特征,即便本地没有这类数据,也能在表示空间中为其预留合理位置。实验显示,引入字典模块后,CIFAR-10非IID场景下的特征聚类效果显著提升,异类样本边界清晰化(如图2b所示)。
对齐模块:用公共数据校准“表示方言”
为解决表示错位,团队训练了一个基于公共小数据集(如STL-10的3200张图片)的“基础模型”,作为所有客户端的“翻译官”。本地模型在训练时,不仅要最小化自身对比损失,还要模仿基础模型的输出,确保不同客户端的特征表示“说同一种语言”。数据显示,对齐后模型间的特征夹角从20°以上降至10°以内,聚合效率提升。
实测:准确率超基线方法,非IID场景优势显著
在CIFAR-10、CIFAR-100和MiniImageNet数据集上,FedCA展现出强大性能:
线性分类任务:ResNet-50作为编码器时,CIFAR-10 IID场景准确率达71.25%,较FedSimCLR(68.10%)提升3.15个百分点;非IID场景下仍达68.01%,领先第二名4.05个百分点。
半监督学习:当仅1%数据有标签时,FedCA在CIFAR-10上准确率达50.67%,接近全监督训练水平。
迁移学习:在MiniImageNet预训练的模型迁移到CIFAR-10时,准确率达94.94%,证明特征的强泛化能力。
更重要的是,FedCA无需中心化数据,参数规模与传统方法相当,却能处理百万级边缘设备的协同训练,为医疗、金融等敏感领域的AI应用开辟新路径。
从“数据共享”到“知识共享”:隐私保护AI的新范式
FedCA的创新在于将“数据孤岛”转化为“知识联盟”——字典模块实现跨客户端特征共享,对齐模块确保知识表示一致。未来,该技术可用于手机相册的跨设备智能分类(无需上传照片)、医院间联合训练癌症筛查模型(数据本地留存)等场景。团队计划进一步扩展至跨模态数据,让文本、图像、音频等不同类型的分散数据也能协同学习。