【机器学习】降维和特征选择的对比介绍

2024-11-10 11:00 北京

特征降维和特征选择的目的都是使数据的维数降低，使数据维度降小。但实际上两者的区别是很大，他们的本质是完全不同的。

在machine learning中，特征降维和特征选择是两个常见的概念，在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低，使数据维度降小。但实际上两者的区别是很大，他们的本质是完全不同的。

降维?

降低数据集中特征的维数，同时保持尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中常用的技术，可以最大限度地降低数据复杂性并提高模型性能。

降维可以通过多种方式实现，包括:

主成分分析 (PCA)：PCA 是一种统计方法，可识别一组不相关的变量，将原始变量进行线性组合，称为主成分。

第一个主成分解释了数据中最大的方差，然后每个后续成分解释主键变少。PCA 经常用作机器学习算法的数据预处理步骤，因为它有助于降低数据复杂性并提高模型性能。

LDA(线性判别分析):LDA是一种用于分类工作的统计工具。它的工作原理是确定数据属性的线性组合，最大限度地分离不同类别。为了提高模型性能，LDA经常与其他分类技术(如逻辑回归或支持向量机)结合使用。

t-SNE: t-分布随机邻居嵌入(t-SNE)是一种非线性降维方法，特别适用于显示高维数据集。它保留数据的局部结构来，也就是说在原始空间中靠近的点在低维空间中也会靠近。t-SNE经常用于数据可视化，因为它可以帮助识别数据中的模式和关系。

独立分量分析（Independent Component Analysis） ICA实际上也是对数据在原有特征空间中做的一个线性变换。相对于PCA这种降秩操作，ICA并不是通过在不同方向上方差的大小，即数据在该方向上的分散程度来判断那些是主要成分，那些是不需要到特征。而ICA并没有设定一个所谓主要成分和次要成分的概念，ICA认为所有的成分同等重要，而我们的目标并非将重要特征提取出来，而是找到一个线性变换，使得变换后的结果具有最强的独立性。PCA中的不相关太弱，我们希望数据的各阶统计量都能利用，即我们利用大于2的统计量来表征。而ICA并不要求特征是正交的。如下图所示：