聚类算法的选择
这里只记录一些经验法则, 实际应用中的一些聚类算法的选择. 对于每种聚类算法的特点和一般应用情况, 查阅聚类算法选择速查表.
Birch or MiniBatchKMeans
Birch算法作为一种非常高效的聚类算法, 在速度上能与之相提并论的算法往往是MiniBatchKMeans. 因此在实践中如何对这两种方法进行选择, 往往考虑:
Birch算法在高维数据上的表现不好, 根据经验法则, 一般特征的数量超过20, 会选择MiniBatchKMeans算法
如果需要聚出大量的簇(即每个簇只含有少量的样本), 需要使用Birch算法. 这种情况一般出现在:
预处理, 或称为预聚类, 将聚类得到的CF作为样本输入到其他聚类方法中
减少样本数量, 用小簇作为真正的样本
最后更新于