侵权投诉
订阅
纠错
加入自媒体

用PCA还是LDA?特征抽取经典算法大PK

2019-01-08 09:32
格创东智
关注

LDA简介

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

上图中提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为右图的黑色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。LDA的降维效果更像右图,它能在新坐标轴上优先区分出两个类别,它是如何实现的呢?

LDA的原理

LDA的主要思想是“投影后类内方差最小,类间方差最大”。实质上就是很好的区分出两个类的分布。我们知道衡量数据分布的两个重要指标是均值和方差,对于每一个类,他们的定义如下:

与PCA一样,LDA也是对数据的坐标轴进行一次旋转,假设旋转的转移矩阵是w,那么新的旋转数据可以表示为:

同理,两个类别的中心点也转换成了:

我们求解这个最优化问题,即可求出转移变换矩阵w,即LDA的最终结果。

PCA vs LDA

LDA用于降维,和PCA有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。首先我们看看相同点:

1、两者均可以对数据进行降维

2、两者在降维时均使用了矩阵特征分解的思想

3、两者都假设数据符合高斯分布

我们接着看看不同点:

1、LDA是有监督的降维方法,而PCA是无监督的降维方法

2、LDA降维最多降到类别数k-1的维数,而PCA没有这个限制

3、LDA除了可以用于降维,还可以用于分类

4、LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向

在某些数据分布下LDA比PCA降维较优(左图),在某些数据分布下,PCA比LDA降维较优。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号