链载Ai

标题: WASP:基于加权多预训练语言模型融合的对比式隐私数据合成 [打印本页]

作者: 链载Ai    时间: 1 小时前
标题: WASP:基于加权多预训练语言模型融合的对比式隐私数据合成


WASP:基于加权多预训练语言模型融合的对比式隐私数据合成


摘要:数据规模与质量是构建优质训练数据集的黄金准则,而样本隐私保护同样关键。在确保差分隐私(DP)这一形式化隐私保障的前提下,生成与高质量隐私数据相似的合成样本,具有可扩展性和实用价值。然而,现有基于预训练模型的数据合成方法在数据稀缺场景中表现欠佳,面临样本规模受限、生成噪声难以避免以及预训练模型偏差等问题。为此,我们提出 WASP 框架——一种基于加权多预训练语言模型(PLM)融合的对比式隐私数据合成方法。WASP 通过 Top-Q 加权投票机制,利用有限隐私样本实现更精准的隐私数据分布估计,并通过动态加权的多预训练模型协作,借助低质量合成样本进行对比式生成。在 6 个成熟数据集、6 个开源与 3 个闭源 PLM 上的实验表明,WASP 在提升多样化下游任务模型性能方面具有显著优势。代码已开源在https://github.com/Lindalydia/WASP。


引言


在 AI 模型与智能体快速发展的背景下,无论是大语言模型(LLMs)还是小规模任务专用模型(STMs),其性能都依赖于高质量训练数据的丰富性,然而实际可用的样本量往往有限。更复杂的是,跨学科任务如医疗记录摘要、个性化减重聊天机器人和指令微调 LLM 都依赖于从真实用户处收集的高质量隐私数据,这不可避免地带来显著的隐私问题。


差分隐私合成数据通过生成与真实隐私数据集相似的新数据集,同时为每个样本提供 DP 保障,成为了一种有前景的解决方案。当前生成 DP 合成数据的研究主要分为两类:第一类工作采用 DP-SGD 对预训练语言模型(PLM)进行微调,但这种方法计算成本高且需要大量数据进行有效微调;第二类工作——隐私进化(PE)则无需微调,仅通过预训练模型的API在隐私样本的 DP 保护指导下生成数据。这种基于 API 的特性使得 DP 合成数据生成更高效,并能同时利用开源和闭源预训练模型,使 PE 成为更实用的解决方案。


尽管现有 PE 方法有效,但这类方法仍面临三大挑战:



图1:

(a) 使用Top-$Q$投票前(Aug-PE)后(Refine)的合成数据与真实隐私数据相似度度量(FID)以及训练的小型任务专用模型的任务表现(括号中数据)对比;

(b) 使用不同 PLM 生成合成数据训练的小型任务专用模型的任务表现对比。


针对这些挑战,我们提出 WASP 框架——通过加权多 PLM 融合实现对比式 DP 数据合成:


本文贡献如下:




理论基础


(一) 差分隐私(DP)


若两个数据集 $\mathcal{D}$ 和 $\mathcal{D}'$ 仅相差单个条目,则称为相邻数据集。机制 $\mathcal{M}$ 满足 $(\epsilon,\delta)$- 差分隐私,当且仅当对任意相邻数据集 $\mathcal{D},\mathcal{D}'$ 及 $\mathcal{M}$ 的任意输出子集 $E$,满足:


$$

\Pr[\mathcal{M}(\mathcal{D}) \in E] \leq e^{\epsilon} \cdot \Pr[\mathcal{M}(\mathcal{D}') \in E] + \delta.

$$



需注意,对 $(\epsilon,\delta)$-DP 机制输出的后处理不会引入额外隐私损失。


(二) 高斯机制


通过向统计量添加服从 $\mathcal{N}(0, \sigma^2)$ 的高斯噪声可实现 $(\epsilon,\delta)$-DP,其中 $\sigma = \Delta \sqrt{2 \ln(1.25/\delta)} / \epsilon$,$\Delta$为机制 $\mathcal{M}$ 的敏感度。


方法论


(一) 问题定义


本文目标是通过少量隐私数据 $\mathcal{B} = \{(\mathbf{z}_j, u_j)\}_{j=1}^M$ 生成 DP 合成数据集 $\mathcal{D} = \{(\mathbf{x}_i, y_i)\}_{i=1}^N$,并利用 $K$ 个黑盒 PLM 的 API 协作实现。具体而言:


$\mathbf{z}_j, u_j$表示隐私样本$j$的特征和标签;


使用$\mathcal{D}$训练小型任务专用模型(STM)$m$,并在未参与训练的真实测试集$\mathcal{A}$上评估性能;



由于本文主要考虑隐私数据数量不足的场景,因此本文 $M$ 通常至多数百。


为实现这上述目标,我们通过 API 调用 $K$ 个黑盒预训练语言模型 $\{\mathcal{P}_k\}_{k=1}^K$ 的协同生成能力,同时通过高斯差分隐私(Gaussian DP)机制保护隐私数据。在评估阶段,我们使用合成数据集 $\mathcal{D}$ 训练一个小型任务专用模型(STM)$m$,并在包含真实样本的测试集$\mathcal{A}$上评估模型性能,该测试集在训练过程中从未被使用过。

同时,这套框架可扩展至联邦数据场景(各数据方持有非独立同分布隐私数据),详见 3.3 节。



(二)WASP 整体流程


WASP 的工作流程如图 2 和算法 1 所示,共迭代执行 $T$ 轮,每轮包含四步:


1.加权并行数据生成(算法 1 行 4-6):






2.差分隐私Top-Q投票(算法 1 行 7-8):



$$d(\mathbf{z}_j, \mathbf{x}_i) = \|\varphi(\mathbf{z}_j) - \varphi(\mathbf{x}_i)\|_2 $$











3.PLM 重要性加权(算法 1 行 10):


$$ w_k = \frac{\sum_{(\mathbf{x}_i,y_i)\in\mathcal{D}_k} s_i}{|\mathcal{D}_k| / |\mathcal{D}|}, \quad s_i = \frac{H^n[i]}{\sum_{i'=1}^{|\mathcal{D}|} H^n[i']} $$



4.跨 PLM 的对比式上下文学习(算法 1 行 5)




最后,本文给出WASP的安全性定理及证明。


定理4.1:WASP(算法1)满足隐私预算为$\epsilon$的差分隐私。详细证明见论文原文:openreview.net/pdf?id=CPOFZJ8DlT。


(三)WASP 在联邦数据场景下的应用


WASP 算法框架除了可以在单数据方设定下工作,页可轻松扩展至联邦数据场景。在此场景中,每个数据方仅持有少量隐私数据,并通过协作完成隐私任务。这种设定在现实场景中极为常见,例如医疗公司间的联合研究。


具体而言,我们考虑存在\( L \)个数据方\(\{\mathcal{C}_l\}_{l=1}^L\),每个数据方持有真实隐私数据集\(\mathcal{B}_l = \{(\mathbf{z}_{l,j}, y_{l,j})\}_{j=1}^{M_l}\)(规模为\( M_l \))。这些数据方的目标是协作生成一个**差分隐私合成数据集**,同时保护本地数据隐私。完整算法详见算法2。


当扩展至联邦数据场景时,各数据方\(\mathcal{C}_l\)使用本地隐私样本 \(\mathcal{B}_l\) 执行**差分隐私 Top-Q 投票**,其中噪声参数设置为:


$$ \sigma = \frac{4\sqrt{2 \ln(1.25/\delta_{iter}) \sqrt{T-1}}{\epsilon \sqrt{L}} $$




以此保障隐私。生成的本地最近邻与最远邻投票直方图\(\{H_l^n\}_{l=1}^L\)和\(\{H_l^f\}_{l=1}^L\)将通过安全聚合协议汇总。




实验分析


(一) 实验设置


1. 模型选择



2. 数据集


实验覆盖 6 个任务:



3. 基线方法



4. 实现细节



(二)主要结果


1. 单数据方场景(表 1,3)





2. 联邦数据场景(表 2)



3. 计算与通信开销





(三) 消融实验


1. 各部分有效性(表 4)




2. 投票数 $Q$ 影响(表 5)



3. 隐私预算 $\epsilon$ 敏感性(表 6)




结论与未来工作


本文提出了一种新颖的差分隐私(DP)合成数据生成框架 WASP,该框架通过利用多个预训练语言模型(PLM)的协同能力,解决现实场景中隐私样本有限的问题,同时严格遵守差分隐私约束。在6 个任务上的实验表明WASP具有以下性质:



这些特性使 WASP 成为实际应用中实用且可扩展的解决方案。


未来工作方向包括:








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5