2010-Domain Adaptation via Transfer Component Analysis(TCA)

2010-Domain Adaptation via Transfer Component Analysis(TCA)

论文背景:

​ Domain adaptation(域自适应) 通过训练与目标与相关但不相同的源域数据来实现目标域上的任务。

动机:

​ MMD(Maximum mean discrepancy )旨在学习一个映射函数\(\phi\)去减少域之间的分布差异: \[ \mathrm{Dist}(\mathrm{X,Y})=\left\|\frac1{n_1}\sum_{i=1}^{n_1}\phi(x_i)-\frac1{n_2}\sum_{i=1}^{n_2}\phi(y_i)\right\|_{\mathcal{H}}. \] 通过将两个样本映射到再现核希尔伯特空间RKHS(Reproducing Kernel Hilbert Space),并取映射后样本均值的距离衡量两个样本分布的差异。然而, \(\phi\)通常是高度非线性的,直接优化 可能会陷入较差的局部最小值(不理解)。因此MMDE(Maximum Mean Discrepancy Embedding)被提出使用核学习衡量分布差异: \[ \mathrm{Dist}(X_S^{\prime},X_T^{\prime})=\mathrm{tr}(KL) \] 其中,\(K=\begin{bmatrix}K_{S,S}&K_{S,T}\\K_{T,S}&K_{T,T}\end{bmatrix}\)表示学习到的核矩阵\(K\),用于衡量域内样本的相似度,以及域间样本的相似度。并且\(L=[L_{ij}]\succeq0\mathrm{~with~}L_{ij}=\frac1{n_1^2}\text{ if }x_i,x_j\in X_S;\:L_{ij}=\frac1{n_2^2}\mathrm{if~}x_i,x_j\in X_T\text{; otherwise, }-\frac1{n_1n_2}.\) 优化此问题需要解决半正定优化问题SDP,这代价是昂贵的;并且为了找到相同的低维表示,获得的 K 必须进一步通过 PCA 进行后处理。这可能会丢弃 K 中的有用信息;并且此种学习是转导式,缺乏泛化能力 b) 计算开销大

方法内容:

​ 假设前提: \(P \neq Q\),但是通过映射函数\(\phi\)可以达到\(P(Y_S|\phi(X_S))=P(Y_T|\phi(X_T))\)。TCA 使用最大平均差异 (MMD) 来学习再生内核希尔伯特空间 (RKHS) 中的一些跨域传输分量(transfer component),也是寻找一个子空间中使不同域中的数据分布彼此接近。首先它使用了矩阵分解用于核矩阵\(K=(KK^{-1/2})(K^{-1/2}K)\)然.后引入一个\((n_1+n_2)\times m\)大小的矩阵W,其中\(m\ll n_1+n_2\)\[ \widetilde{K}=(KK^{-1/2}\widetilde{W})(\widetilde{W}^\top K^{-1/2}K)=KWW^\top K, \] 其中\(W=K^{-1/2}\widetilde{W}\in\mathbb{R}^{(n_1+n_2)\times m}\) ,两个样本之间的分布差异由下式给出: \[ \widetilde{k}(x_i,x_j)=k_{x_i}^\top WW^\top k_{x_j}, \] 其中\(\begin{array}{rcl}k_x&=&[k(x_1,x),\ldots,k(x_{n_1+n_2},x)]^\top\end{array}\),这样的话不仅衡量了源域和目标域之之间的差异,还衡量了源域与源域的其余样本差异,有助于提出泛化能力。用新的K替代原先的K,得到 \[ \begin{aligned}\mathrm{Dist}(X_S^{\prime},X_T^{\prime})&=\mathrm{tr}((KWW^\top K)L)\\&=\mathrm{tr}(W^\top KLKW).\end{aligned} \] 最终目标函数为: \[ \begin{aligned}\min_W&\operatorname{tr}(W^\top W)+\mu\operatorname{tr}(W^\top KLKW)\\\text{s.t.}&W^\top KHKW=I,\end{aligned} \] 其中第一项用于控制W的复杂度,可以避免广义特征分解中分母的秩不足,而约束项则是防止平凡解。

优化

\[ W=(I+\mu KLK)^{-1}KHKWZ. \]