版权归原作者所有,如有侵权,请联系我们

联邦学习突破“数据孤岛”难题:浙大团队提出FedCA算法,无监督表示学习准确率提升3%

Engineering前沿
工程院Engineering系列期刊内容精选
收藏

当医院、手机厂商、金融机构都想训练AI模型却不敢共享数据时,如何打破“数据孤岛”?我国浙江大学团队提出的FedCA算法给出新解——让分散在不同设备的数据“隔空协作”,在不泄露隐私的前提下共同训练AI模型。这项发表于《Frontiers of Information Technology & Electronic Engineering》的研究,首次将联邦学习与无监督表示学习结合,在CIFAR-10图像分类任务中,准确率较传统方法提升3.15个百分点,为医疗、金融等敏感领域的AI应用开辟新路径。

数据“各守家门”,AI如何“集思广益”?

联邦学习(FL)让数据“足不出户”即可参与模型训练——手机、医院服务器等客户端仅上传模型参数,中央服务器聚合后再下发更新。但面对海量无标签数据(如用户相册、未诊断的医学影像),传统方法陷入困境:

  • “方言困境”:不同客户端数据分布差异大(non-IID),比如甲医院专攻眼科,乙医院侧重骨科,模型会“各说各话”,无法形成统一的特征表示空间;
  • “口音错位”:即便数据分布一致,训练随机性也会让模型对同一事物的特征描述“角度偏移”,如同两人用相似但不同的方言描述同一场景,服务器难以整合。

此前最优方法FedSimCLR在非IID场景下准确率骤降至64.06%,而FedCA通过双模块设计破解了这两大难题。

两大核心模块:给AI装“共享字典”和“校准器”

字典模块:构建跨设备的“特征词典”

每个客户端在训练时,会将本地样本特征(如图片的纹理、轮廓)编码成标准化向量,上传至服务器汇总成“全局字典”。其他客户端下载字典后,相当于“借阅”了其他领域的特征知识——比如眼科模型通过字典“见过”骨科影像的特征分布,即便本地没有这类数据,也能在表示空间中为其预留合理位置。这种“知识共享”让模型在非IID场景下的特征聚类效果显著提升,异类样本边界清晰化(如图2b所示)。

对齐模块:用公共数据校准“特征口音”

团队用3200张公共图片(STL-10数据集)训练了一个“基础模型”,作为所有客户端的“普通话校准器”。本地模型在训练时,不仅要优化自身对比损失,还要模仿基础模型的输出,确保不同客户端的特征表示“发音一致”。实验显示,校准后模型间的特征夹角从20°以上降至10°以内,聚合效率提升。

实测:三类任务全面领先,非IID场景优势显著

在CIFAR-10、CIFAR-100和MiniImageNet数据集上,FedCA展现出强大性能:

  • 线性分类:ResNet-50作为编码器时,CIFAR-10 IID场景准确率达71.25%,较FedSimCLR(68.10%)提升3.15个百分点;非IID场景下仍达68.01%,领先第二名4.05个百分点;
  • 半监督学习:仅1%数据有标签时,CIFAR-10准确率达50.67%,接近全监督训练水平;
  • 迁移学习:MiniImageNet预训练模型迁移至CIFAR-10时准确率94.94%,证明特征泛化能力强。

值得注意的是,FedCA参数规模与传统方法相当,却能处理百万级边缘设备协同训练,且无需中心化数据,完美适配医疗影像分析、手机本地AI等隐私敏感场景。

从“数据共享”到“知识协同”:AI隐私保护新范式

FedCA的创新在于将“数据孤岛”转化为“知识联盟”——字典模块实现跨领域特征共享,对齐模块消除表示偏差。未来,该技术可用于:

  • 医疗:多家医院联合训练癌症筛查模型,无需共享病历;
  • 手机:不同品牌机型协同优化相册分类,用户照片不上云;
  • 工业:工厂设备本地训练预测模型,生产数据全程保密。

团队计划下一步扩展至跨模态数据,让文本、图像、音频等异构数据也能“隔空对话”。

评论
风轻云淡22
大学士级
谢谢分享
2025-07-25