KDD 2025 | 人大团队提出多任务贝叶斯联邦学习算法，同时处理分类和回归

原创吕俊良 2024-12-27 12:31 北京

本文介绍了中国人民大学统计学院的一篇关于多任务贝叶斯联邦学习的文章。

©PaperWeekly 原创 · 作者 | 吕俊良

单位 | 中国人民大学统计学院

本文介绍了中国人民大学统计学院的一篇关于多任务贝叶斯联邦学习的文章“Task Diversity in Bayesian Federated Learning: Simultaneous Processing of Classification and Regression”，本文被 KDD 2025 接收，代码已经开源。

论文标题：

Task Diversity in Bayesian Federated Learning: Simultaneous Processing of Classification and Regression

论文链接：

https://doi.org/10.48550/arXiv.2412.10897

代码链接：

https://github.com/JunliangLv/task_diversity_BFL

背景

近些年来，边缘设备（edge devices）和物联网设备（Internet of Things devices）的激增引发了对分布式算法的强烈需求。联邦学习（federated learning，FL）使用分散在多个局部设备上的数据进行训练，避免大规模数据传输，从而增强局部隐私。

然而，现有的联邦学习工作集中于处理同质性任务，即只使用每台局部设备的数据进行分类任务训练，或只进行回归任务训练。这与现实情况中每台设备的数据可用于多种训练任务不符。

以健康监测设备为例，其收集的步频、心率、睡眠情况等传感器数据既可用于运动状态分析（分类任务），也可用于健康状况评估与预测（回归任务）。因此，有必要将多任务学习（multi-task learning，MTL）与联邦学习结合，处理局部设备中的多样性任务。

另一方面，贝叶斯联邦学习（Bayesian federated learning，BFL）通过对参数引入合适的先验分布作为正则项，缓解了有限数据下的过拟合，同时得到不确定性的估计。BFL 的优势使其在风险决策、样本外（out-of-distribution）检测等方面表现出竞争力。

方法

本文的核心思路是使用概率模型，将局部水平下的多任务学习与全局水平下的联邦学习结合。

具体而言，在局部设备中，基于给定的先验分布，多输出高斯过程（multi-output Gaussian processes，MOGP）被用于联合建模多个相关的分类和回归任务并得出后验分布；在全局处理器中，来自不同设备的后验分布被上传聚合得到更新的全局 MOGP 先验，再分发回局部设备进行下一轮训练。

值得注意的是，由于分类似然函数与 MOGP 先验非共轭，直接在局部设备执行后验推断不可行。为解决这一挑战，本文采用 Polya-Gamma 数据增强技术将非共轭问题转化为共轭问题，并通过 mean-field 变分推断得到后验分布的闭式解。

文献中指出在条件共轭模型中执行 mean-field 变分推断等价于使用步长为 1 的自然梯度下降优化似然函数的证据下界。这种近似二阶优化算法相比于传统的一阶方法展现出更快的收敛速度。

为了进一步增强 MOGP 的建模效果，作者使用深度核技术（deep neural network）。深度核通过神经网络将输入数据转化为潜在表示，再将其作为传统核函数的输入。

不同于依赖欧氏距离的传统核方法，深度核方法以数据驱动的方式实现了更为灵活的数据转换。同时，为增强局部样本量较大时的计算效率，作者介绍了诱导点技术（inducing points），将局部设备中立方计算复杂度降低为线性计算复杂度，并给出带有诱导点的 mean-field 变分推断方法的显式后验分布。

实验

1. 准确性

下图展现了本文提出的多任务学习方法，pFed-Mul，在模拟数据集中成功拟合真实值。与单任务模型相比，pFed-Mul 不仅提高了拟合的精度，而且降低了预测不确定性。

下表报告了在三种小样本学习情境下，评估模型在分类任务上的准确率和在回归任务上的均方误差。与基线模型相比，pFed-Mul 在脸部特征数据集 CelebA 和增强的猫狗分类数据集均取得较好的效果。其中针对回归任务，最显著的改进为提高均方误差 0.155；针对分类任务，最显著的改进为提高准确率 3.86%。