掘金 人工智能 04月27日 21:52
机器学习入门(五)聚类算法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了三种常见的无监督聚类算法:KMeans、Mean-shift和DBSCAN。首先,文章阐述了聚类算法的基本概念,即根据对象属性的相似度将其自动划分为不同类别。随后,详细讲解了每种算法的流程、特点以及优缺点,并提供了它们的应用场景。通过对比分析,帮助读者更好地理解这些算法的适用范围和局限性,从而在实际应用中做出更明智的选择。

💡KMeans(K-均值)算法:KMeans是一种基于距离的聚类算法,其核心思想是**通过迭代优化,将数据点分配到距离最近的簇中心**。具体流程包括:确定簇的数量k、随机选择k个点作为初始聚类中心、计算每个样本点到聚类中心的距离并分配到最近的簇、更新聚类中心为簇内所有点的均值、重复上述步骤直至聚类中心不再变化。

🕹️Mean-shift(均值漂移)算法:Mean-shift是一种基于密度的聚类算法,**通过在数据空间中不断移动中心点来寻找数据密度最高的区域**。该算法流程包括:随机选择未分类点作为中心点、找出中心点附近一定范围内的点、计算中心点到这些点的偏移向量并移动中心点、重复以上步骤直至收敛,最后根据访问频率最高的簇确定每个点的类别。

⚙️DBSCAN(基于密度的空间聚类)算法:DBSCAN是一种基于密度的聚类算法,**能够发现任意形状的簇,并有效处理噪声数据**。其流程包括:寻找核心点形成临时聚类簇、合并临时聚类簇得到最终聚类簇。DBSCAN通过定义核心点(周围邻域内包含足够多数据点的点)和密度直达的概念,将紧密相连的数据点划分到同一簇中。

前面介绍的线性回归、逻辑回归和决策树都是监督算法,这篇文章将介绍聚类算法,它是一个无监督的算法。

聚类算法会根据对象某些属性得相似度,将其自动划分为不同得类别。常用的聚类算法有 KMeans(K-均值)Mean-shift(均值漂移聚类算法)DBSCAN(基于密度的空间聚类算法)

KMeans(K-均值)

KMeans(K-均值)的算法流程:

    确定当前数据有多少个类型(或者叫做簇),假设为 k 个从数据中随机选取 K 个点,作为初始的聚类中心分别计算每个样本点到各个聚类中心的距离,并逐个分配到距离其最近的簇中所有点分配完成后,更新K个类中心位置,类中心定义为簇内所有点在各个维度的均值;与前一次计算得到的K个聚类中心比较,如果聚类中心点发生变化,转至步骤3;如果聚类中心点不变化,则停止迭代

效果如下图所示:

Mean-shift(均值漂移算法)

Mean-shift(均值漂移算法)的算法流程:

    随机选择未分类点作为中心点找出离中心点距离在带宽(我们来设置)之内的点,记作集合S计算从中心点到集合S中每个元素的偏移向量M中心点以向量M移动重复步骤2-4,直到收敛重复1-5直到所有的点都被归类分类:根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类

效果如下图所示:

DBSCAN(基于密度的空间聚类算法)

DBSCAN 的算法流程:

    寻找核心点形成临时聚类簇。扫描全部样本点,如果某个样本点R半径范围内点数目>=MinPoints,则将其纳入核心点列表,并将其密度直达的点形成对应的临时聚类簇。合并临时聚类簇得到聚类簇。对于每一个临时聚类簇,检查其中的点是否为核心点,如果是,将该点对应的临时聚类簇和当前临时聚类簇合并,得到新的临时聚类簇。重复2的操作,直到当前临时聚类簇中的每一个点要么不在核心点列表,要么其密度直达的点都已经在该临时聚类簇,该临时聚类簇升级成为聚类簇。继续对剩余的临时聚类簇进行相同的合并操作,直到全部临时聚类簇被处理。

效果如下图所示:

总结

KMeans(K-均值)Mean-shift(均值漂移算法)DBSCAN(基于密度的空间聚类算法)
特点1. 实现简单,收敛快;2. 需要指定类别数量1. 自动发现类别数量,不需要人工选择;2. 需要选择区域半径1. 过滤噪声数据;2. 不需要人为选择类别数量;3. 数据密度不同时影响结果
缺点1. 对初始点敏感,算法的输出可能会受到初始中心点选择的影响,这可能导致局部最优而非全局最优解;2. KMeans更适用于凸形状(例如圆形、球形)的集群,对于非凸形状(例如环形)的集群处理能力较差。1. 缺乏模板更新机制。;2. 跟踪过程中窗口宽度保持不变,目标尺度变化时跟踪效果不佳;3. 目标速度较快时,跟踪效果不好1. 不能很好反映高维数据。2. 该算法难以适应密度不均匀的数据集
应用场景文档分类;客户分类图形分割、目标跟踪异常检测;图形处理

参考

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

聚类算法 KMeans Mean-shift DBSCAN
相关文章