聚类算法选择速查表
其中涉及到算法复杂度的计算时, n表示样本数量, m表示特征维度, k表示设定的簇的数量, t表示迭代次数.
模型名称
数据类型
算法效率
聚类形状
适用于高维
适用于大数据
噪声敏感
能否识别异常点
能否自动得到类别数
应用场景
Python API
Partition based
K-Means
数值型
高效,O(kmnt)
球形
是
是
敏感
否
否
大数据量, 球形, 噪声小, 没有异常点
Hierarchy based
agglomerative
数值型
低效
任意形状
否
否
是
否
否
小数据集, 精准聚类; 不同的linkage方法使算法的表现有根本性的变化
最后更新于