2013-Transfer Feature Learning with Joint Distribution Adaptation(JDA)
2013-Transfer Feature Learning with Joint Distribution Adaptation(JDA)
SK乌拉乌拉论文阅读
2013-Transfer Feature Learning with Joint Distribution Adaptation(JDA)
论文背景:
计算机视觉中,迁移学习被提出用作利用源域中丰富的标记数据为目标域构建准确的分类器。
动机:
在进行源域与目标域仅考虑对两域的边缘分布对齐,而没有对齐条件分布。如上图所示,两域的边缘分布与条件分布大概率是都不行同的,因此仅考虑边缘分布是不够的。
方法提出:
在跨域问题中,源域与目标域的采样不同导致两者的分布差异。迁移学习/域自适应主要的计算问题就是如何减少两者的差异。分布差异主要包括了两方面,即:边缘分布与条件分布。现有的大多数方法是基于边
际分布或条件分布来衡量分布差异,这样仅考虑一方面是不够充分的。论文提出了一种新颖的迁移学习解决方案,称为联合分布适应( Joint Distribution Adaptation,JDA),在保留数据主要信息的降维过程中联合适应边缘分布和条件分布。具体来说,使用了非参数最大平均差异(MMD)来测量边际分布和条件分布的差异(这里说的非参数也就是说不需要对数据分布做假设),并将其与主成分分析(PCA)集成以构建有效且鲁棒的特征表示。
接下来,具体介绍 JDA算法。源域和目标域分布差异大致可以被认为是边缘分布差异以及联合分布差异的总和,即 \[ \begin{aligned}&\min_{T}\left\|\mathbb{E}_{P(\mathbf{x}_s,y_s)}\left[T\left(\mathbf{x}_s\right),y_s\right]-\mathbb{E}_{P(\mathbf{x}_t,y_t)}\left[T\left(\mathbf{x}_t\right),y_t\right]\right\|^2\\&\approx\left\|\mathbb{E}_{P_s(\mathbf{x}_s)}\left[T\left(\mathbf{x}_s\right)\right]-\mathbb{E}_{P_t(\mathbf{x}_t)}\left[T\left(\mathbf{x}_t\right)\right]\right\|^2\\&+\left\|\mathbb{E}_{Q_s(y_s|\mathbf{x}_s)}\left[y_s|T\left(\mathbf{x}_s\right)\right]-\mathbb{E}_{Q_t(y_t|\mathbf{x}_t)}\left[y_t|T\left(\mathbf{x}_t\right)\right]\right\|^2\end{aligned} \] 度量边缘分布:使用基础的MMD即可 \[ \left\|\frac1{n_\text{s}}\sum_{i=1}^{n_s}\mathrm{A}^\mathrm{T}\mathrm{x}_i-\frac1{n_t}\sum_{j=n_s+1}^{n_s+n_t}\mathrm{A}^\mathrm{T}\mathrm{x}_j\right\|^2=\mathrm{tr}\left(\mathrm{A}^\mathrm{T}\mathbf{X}\mathrm{M}_0\mathbf{X}^\mathrm{T}\mathrm{A}\right) \] 条件分布度量:这个就比较困难,因为目标域是只有样本特征\(X_t\),而缺乏对应的标签。因此论文提出可以使用伪标签(pseudo label)进行评估 \[ \left\|\frac{1}{n_{s}^{(c)}}\sum_{\mathbf{x}_{i}\in\mathcal{D}_{s}^{(c)}}\mathrm{A}^{\mathrm{T}}\mathbf{x}_{i}-\frac{1}{n_{t}^{(c)}}\sum_{\mathbf{x}_{j}\in\mathcal{D}_{t}^{(c)}}\mathrm{A}^{\mathrm{T}}\mathbf{x}_{j}\right\|^{2}=\mathrm{tr}\left(\mathrm{A}^{\mathrm{T}}\mathbf{X}\mathrm{M}_{c}\mathbf{X}^{\mathrm{T}}\mathbf{A}\right) \] 尽管由于边缘分布和条件分布的差异,许多伪目标标签是不正确的,但仍然可以利用它们将条件分布相匹配。理由是论文是通过探索足够的统计数据而不是密度估计来匹配分布。这样,就可以利用源分类器来改进目标分类器。
PCA降维: \[ \max_{\mathbf{A}^\mathrm{T}\mathbf{A}=\mathbf{I}}\operatorname{tr}\left(\mathbf{A}^\mathrm{T}\mathbf{X}\mathbf{H}\mathbf{X}^\mathrm{T}\mathbf{A}\right) \] 结合PCA, 边缘MMD以及条件MMD,JDA的目标函数可记作 \[ \min_{\mathbf{A}^\mathrm{T}\mathbf{X}\mathbf{H}\mathbf{X}^\mathrm{T}\mathbf{A}=\mathbf{I}}\sum_{c=0}^C\mathrm{tr}\left(\mathbf{A}^\mathrm{T}\mathbf{X}\mathrm{M}_c\mathrm{X}^\mathrm{T}\mathbf{A}\right)+\lambda\left\|\mathbf{A}\right\|_F^2 \] 对应拉格朗日函数\(L=\mathrm{tr}\left(\mathbf{A}^\mathrm{T}\left(\mathbf{X}\sum_{c=0}^C\mathrm{M}_c\mathrm{X}^\mathrm{T}+\lambda\mathrm{I}\right)\mathbf{A}\right)+\mathrm{tr}\left(\left(\mathbf{I}-\mathbf{A}^\mathrm{T}\mathbf{X}\mathrm{H}\mathrm{X}^\mathrm{T}\mathrm{A}\right)\Phi\right)\)
优化:$(_{c=0}^C_c+)=$