您在k-means和EM中选择最佳聚类数的方法是什么?

前端之家收集整理的这篇文章主要介绍了您在k-means和EM中选择最佳聚类数的方法是什么?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
许多用于聚类的算法是可用的.流行的算法是K-means,其中基于给定数量的聚类,算法迭代以找到对象的最佳聚类.

您使用什么方法来确定k-means聚类中数据中的聚类数?

R中可用的任何包都包含用于确定正确数量的聚类的V-fold交叉验证方法.

另一个很好使用的方法是期望最大化(EM)算法,其向每个实例分配概率分布,其指示其属于每个集群的概率.

这个算法是否在R中实现?

如果是,可以选择通过交叉验证自动选择最佳聚类数量吗?

你喜欢其他一些聚类方法吗?

解决方法

对于大的“稀疏”数据集,我会认真推荐“亲和传播”方法.
它具有比k手段更好的性能,它是确定性的.

http://www.psi.toronto.edu/affinitypropagation/
它发表在“科学”杂志上.

然而,最优聚类算法的选择取决于考虑的数据集. K Means是一种教科书方法,很有可能某些人开发出更适合您的数据集/

这是Andrew Moore教授(CMU,Google)对K均值和层次聚类的一个很好的教程.
http://www.autonlab.org/tutorials/kmeans.html

猜你在找的CSS相关文章