团购网站怎么运营,奉化首页的关键词优化,王占山将军是什么军衔,法律网址大全2345定义#xff1a;
主成分分析#xff08;Principal Component Analysis#xff0c;PCA#xff09;#xff0c; 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量#xff0c;转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上…定义
主成分分析Principal Component AnalysisPCA 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量转换后的这组变量叫主成分。PCA的思想是将n维特征映射到k维上kn这k维是全新的正交特征。这k维特征称为主成分是重新构造出来的k维特征而不是简单地从n维特征中去除其余n-k维特征。
简单解释
具体的假如我们的数据集是n维的共有m个数据。我们希望将这m个数据的维度从n维降到k维希望这m个k维的数据集尽可能的代表原始数据集。我们知道数据从n维降到k维肯定会有损失但是我们希望损失尽可能的小。那么如何让这k维的数据尽可能表示原来的数据呢
我们先看看最简单的情况也就是n2k1,也就是将数据从二维降维到一维。数据如下图。我们希望找到某一个维度方向它可以代表这两个维度的数据。图中列了两个向量方向u1和u2那么哪个向量可以更好的代表原始数据集呢从直观上也可以看出u1比u2好因为数据在这个方向上投影后的样本点之间方差最大。 例子
有两维数据 对X进行归一化使X每一行减去其对应的均值得到 求X的协方差矩阵 求解C的特征值利用线性代数知识或是MATLAB中eig函数可以得到 对应的特征向量分别是 将原数据降为一维选择最大的特征值对应的特征向量因此P为 降维后的数据 那么为什么要求特征值和特征向量呢 特征值和特征向量
转自https://blog.csdn.net/fuming2021118535/article/details/51339881
定义 设A是n阶矩阵如果数λ和n维非零向量x使关系式 ……(1)
成立那么这样的数λ称为矩阵A的特征值非零向量x称为A的对应于特征值λ的特征向量1式还可以写为 ……2
如果想求出矩阵对应的特征值和特征向量就是求式2的解了。
那么问题来了这个式子要怎么理解呢
首先得先弄清矩阵的概念:一个矩阵代表的是一个线性变换规则而一个矩阵的乘法运行代表的是一个变换;
比如有一个矩阵A 一个列向量为X为 一个矩阵的乘法为 向量X通过矩阵A这个变化规则就可以变换为向量Y了 知道了这个就可以从几何上理解特征值和特征向量是什么意思了由 可知: 所以确定了特征值之后向量x的变换为 引用《线性代数的几何意义》的描述“矩阵乘法对应了一个变换是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换不对这些向量产生旋转的效果那么这些向量就称为这个矩阵的特征向量伸缩的比例就是特征值。”
那么这样定义的特征值和特征向量有什么实际用途呢?在这里我举个数据挖掘算法中重要的一个算法PCA主成分分析来给大家直观的感受一下。
首先理解一下信息量这个概念
看几张图 如果我们单独看某一个维度的话比如看x1这个维度 可以看到将点投影到x1这个维度上看的话图1的数据离散性最高图3较低图2数据离散性是最低的。数据离散性越大代表数据在所投影的维度上具有越高的区分度这个区分度就是信息量。如果我们用方差来形容数据的离散性的话就是数据方差越大表示数据的区分度越高也就是蕴含的信息量是越大的。 基于这个知识如果我们想对数据进行降维的话比如图1的两个维度的数据降成一维我们可以选择保留X1这个维度的数据因为在这个维度上蕴含的信息量更多。
同理图2就可以保留x2这个维度的数据。但是问题来了图3应该保留哪个维度的数据呢答案是保留哪个维度都不好都会丢失较大的信息量。但是如果我们把图3的坐标轴旋转一下 比较容易看出图3在新的坐标轴下就能进行降维了。所以选取正确的坐标轴然后根据各个维度上的数据方差大小决定保留哪些维度的数据这样的做法就是主成分分析的核心思想。
选取正确的坐标轴的过程中我们需要一个矩阵变换就类似于这样 也就是 其实经过数学上的推导的我们就可以知道特征值对应的特征向量就是理想中想取得正确的坐标轴而特征值就等于数据在旋转之后的坐标上对应维度上的方差。
也就是说直接求出矩阵A的特征向量得出对应的特征向量。我们就能找到旋转后正确的坐标轴。这个就是特征值和特征向量的一个实际应用“得出使数据在各个维度区分度达到最大的坐标轴。”
所以在数据挖掘中就会直接用特征值来描述对应特征向量方向上包含的信息量而某一特征值除以所有特征值的和的值就为该特征向量的方差贡献率方差贡献率代表了该维度下蕴含的信息量的比例。
通常经过特征向量变换下的数据被称为变量的主成分当前m个主成分累计的方差贡献率达到一个较高的百分数如85%以上的话就保留着这m个主成分的数据。实现了对数据进行降维的目的。整个主成分分析的算法原理也就是这个。