ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

主成分分析

2021-10-28 11:33:21  阅读:217  来源: 互联网

标签:分析 phi 映射 矩阵 降维 成分 alpha 向量


主成分分析(Principal Component Analysis, PCA )是一种利用线性映射来进行数据降维的方法,并去除数据的相关性; 且最大限度保持原始数据的方差信息

线性映射,去相关性,方差保持

线性映射

\[F = \sum_{i=1}^{p}u_iX_i = u^{T}X \]

相当于加权求和,每一组权重系数为一个主成份,它的维数跟输入数据维数相同

相当于点积

F的几何意义表示为x在投影方向u上的投影点。

主成分分析的计算方式

X是p维(列)向量,主成份分析就是要把这p维原始向量通过线性映射变成K维新向量的过程.(k≤p)

image

这里的u为\(k \times p\)的矩阵

主成分分析

主成分分析最早用于经济学,经济学家通过降维利用3维向量能够保持原始17维向量,97.4%的方差信息

核心提示是在低维空间能够尽可能多保持原始空间数据的方差

数据集合中各数据与平均样本的差的平方和的平均数叫做样本方差

主成份分析试图在力保数据信息丢失最少的原则下,对高维空间的数据降维处理。
很显然,识别系统在一个低维空间要比在一个高维空间容易得多。
能够去除数据的相关性,从而进行有效的特征提取

image

方差越大,数据的分布越分散,从而越能保持原 始空间中的距离信息

如上图所示,原始数据空间中,类别信息没有丢失,但是维度减少50%

数学模型

image

image

数学可行性推导

若A是p阶正定或者半正定实阵,则一定可以找到正交阵U,使

image

若上述矩阵的特征根所对应的单位特征向量为

image

则实对称阵 A属于不同特征根所对应的特征向量是正交的,即有\(U^{T}U=UU^{t}=I\)

主成分分析的数学推导

数学推导见笔记

核主成分分析

主成分分析(Principal Components Analysis, PCA)适用于数据的线性降维。而核主成分分析(Kernel PCA, KPCA)可实现数据的非线性降维,用于处理线性不可分的数据集。

设X=\([x_1,...,x_n]\),中\(x_1...x_N\)都是k维列向量,表示一个样本,共N个样本

现在用一非线性映射\(\phi\)将X中的向量x映射到高维空间(D维)

\[\phi(x):R^{k} \rightarrow R^{D}, D>>k \]

这个高维空间成为特征空间,记为。\(\digamma\)

将矩阵\(X\)中所有样本都映射到特征空间上,得到\(D \times N\)的新矩阵。

接下来用新矩阵进行PCA降维,我们将新矩阵中心化

在PCA中,样本\(X\)的协方差矩阵为\(\frac{1}{N}X^{T}X\),此时特征空间中的协方差矩阵为

\[C_{\digamma} = \frac{1}{N}\phi(X)[\phi(X)^{T}] = \frac{1}{N} \sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T} \]

对于求解该主成分分析特征值的问题,由于映射是不可知的,所以不能直接求解\(\phi(X)\phi(X)^{T}\)。所以要使用其他方法求解

\(\sum_xp = \lambda p\),得出\(\sum_{i=1}^{N}\phi(x_i)\phi(x_i)^{T}p= \lambda p\),两边除以\(\lambda\)得,

\[p = \frac{1}{\lambda}\sum_{i=1}^{N}(\phi(x_i)[\phi(x_i)^{T}p]) \]

中括号内为标量,所以表示\(\lambda \neq 0\)时,对应得特征向量p可以表示为所有\(\phi(x_i)\)的线性组合。

\(p = \sum_{i=1}^{N}a_i\phi(x_i)=\phi(X)\alpha\)

其中\(\alpha\)为N维列向量\(\alpha = [\alpha_1,\alpha_2,...,\alpha_N]^T\)

带回到(4)式

image

两边左乘\([\phi(X)^{T}]\),得

image

定义矩阵\(K =[\phi(X)]^{T}\phi(X)\),则K为\(N \times N\)的半对称正定矩阵,其\(i\)行\(j\)列的元素为\(K_{ij}= \phi(x_i)^{T}[\phi(x_j)]\)

将K带入,得:

image

即为

\[K\alpha = \lambda \alpha \]

因为矩阵K的元素可由\(K_{ij} = \phi(x)^{T}[\phi(x_j)]\)计算得到,不需要显式定义映射\(\phi(x)\),只需要定义特征空间中向量的点积,就是核技巧

定义核函数\(k(x,y)=\phi(x)^{T}\phi(y)\)。

核技巧的核心就是通过定义核函数点积而不是定义映射。

常用核函数

多项式核

\(k(x,y)=(ax^{T}+c)^{d}\)

高斯核

\(k(x,y)=exp(-\frac{||x-y||^{2}}{2\sigma^2})=exp(-\gamma||x-y||^{2})\)

sigmond核

\(k(x,y)=tanh(aX^{T}y+r)\)

参考博客

数据降维: 核主成分分析(Kernel PCA)原理解析 - 知乎 (zhihu.com)

标签:分析,phi,映射,矩阵,降维,成分,alpha,向量
来源: https://www.cnblogs.com/xiaoyunbowen/p/15474728.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有