聚类算法的选择

这里只记录一些经验法则, 实际应用中的一些聚类算法的选择. 对于每种聚类算法的特点和一般应用情况, 查阅聚类算法选择速查表.

Birch or MiniBatchKMeans

Birch算法作为一种非常高效的聚类算法, 在速度上能与之相提并论的算法往往是MiniBatchKMeans. 因此在实践中如何对这两种方法进行选择, 往往考虑:

  • Birch算法在高维数据上的表现不好, 根据经验法则, 一般特征的数量超过20, 会选择MiniBatchKMeans算法

  • 如果需要聚出大量的簇(即每个簇只含有少量的样本), 需要使用Birch算法. 这种情况一般出现在:

    • 预处理, 或称为预聚类, 将聚类得到的CF作为样本输入到其他聚类方法中

    • 减少样本数量, 用小簇作为真正的样本

最后更新于