当医院、手机厂商、金融机构都想训练AI模型却不敢共享数据时,如何打破“数据孤岛”?我国浙江大学团队提出的FedCA算法给出新解——让分散在不同设备的数据“隔空协作”,在不泄露隐私的前提下共同训练AI模型。这项发表于《Frontiers of Information Technology & Electronic Engineering》的研究,首次将联邦学习与无监督表示学习结合,在CIFAR-10图像分类任务中,准确率较传统方法提升3.15个百分点,为医疗、金融等敏感领域的AI应用开辟新路径。
数据“各守家门”,AI如何“集思广益”?
联邦学习(FL)让数据“足不出户”即可参与模型训练——手机、医院服务器等客户端仅上传模型参数,中央服务器聚合后再下发更新。但面对海量无标签数据(如用户相册、未诊断的医学影像),传统方法陷入困境:
- “方言困境”:不同客户端数据分布差异大(non-IID),比如甲医院专攻眼科,乙医院侧重骨科,模型会“各说各话”,无法形成统一的特征表示空间;
- “口音错位”:即便数据分布一致,训练随机性也会让模型对同一事物的特征描述“角度偏移”,如同两人用相似但不同的方言描述同一场景,服务器难以整合。
此前最优方法FedSimCLR在非IID场景下准确率骤降至64.06%,而FedCA通过双模块设计破解了这两大难题。
两大核心模块:给AI装“共享字典”和“校准器”
字典模块:构建跨设备的“特征词典”
每个客户端在训练时,会将本地样本特征(如图片的纹理、轮廓)编码成标准化向量,上传至服务器汇总成“全局字典”。其他客户端下载字典后,相当于“借阅”了其他领域的特征知识——比如眼科模型通过字典“见过”骨科影像的特征分布,即便本地没有这类数据,也能在表示空间中为其预留合理位置。这种“知识共享”让模型在非IID场景下的特征聚类效果显著提升,异类样本边界清晰化(如图2b所示)。
对齐模块:用公共数据校准“特征口音”
团队用3200张公共图片(STL-10数据集)训练了一个“基础模型”,作为所有客户端的“普通话校准器”。本地模型在训练时,不仅要优化自身对比损失,还要模仿基础模型的输出,确保不同客户端的特征表示“发音一致”。实验显示,校准后模型间的特征夹角从20°以上降至10°以内,聚合效率提升。
实测:三类任务全面领先,非IID场景优势显著
在CIFAR-10、CIFAR-100和MiniImageNet数据集上,FedCA展现出强大性能:
- 线性分类:ResNet-50作为编码器时,CIFAR-10 IID场景准确率达71.25%,较FedSimCLR(68.10%)提升3.15个百分点;非IID场景下仍达68.01%,领先第二名4.05个百分点;
- 半监督学习:仅1%数据有标签时,CIFAR-10准确率达50.67%,接近全监督训练水平;
- 迁移学习:MiniImageNet预训练模型迁移至CIFAR-10时准确率94.94%,证明特征泛化能力强。
值得注意的是,FedCA参数规模与传统方法相当,却能处理百万级边缘设备协同训练,且无需中心化数据,完美适配医疗影像分析、手机本地AI等隐私敏感场景。
从“数据共享”到“知识协同”:AI隐私保护新范式
FedCA的创新在于将“数据孤岛”转化为“知识联盟”——字典模块实现跨领域特征共享,对齐模块消除表示偏差。未来,该技术可用于:
- 医疗:多家医院联合训练癌症筛查模型,无需共享病历;
- 手机:不同品牌机型协同优化相册分类,用户照片不上云;
- 工业:工厂设备本地训练预测模型,生产数据全程保密。
团队计划下一步扩展至跨模态数据,让文本、图像、音频等异构数据也能“隔空对话”。