首页 > 编程语言> 文章详细

聚类算法的评估

2019-11-24 14:53:48 阅读：259 来源： 互联网

标签：样本 cdots 距离散度算法聚类数据评估

这里只讨论没有外部标签的情况，有标签自然好判别

数据簇的特点

以中心定义的数据簇：通常球形分布，集合中的数据到中心的距离相比到其他簇中心的距离更近
以密度定义的数据簇：当数据簇不规则或互相盘绕，并且有噪声和离群点时，常常使用
以连通定义的数据簇：具有连通关系
以概念定义的数据簇：同一集合内数据具有某一相同性质

聚类可行性

检测数据分布是否存在非随机的簇结构
方法
- 观察聚类误差是否随着聚类类别数目的增加而单调变化（找不到一个合适的K）
- 霍普金斯统计量，判断数据在空间上的随机性
  - 首先，在所有样本中随机找n个点，记为\(p_1, \cdots, p_n\) ，对其中的每一个点，都在样本空间中找到一个离它最近的点就按他们之间的距离\(x_i\),从而得到距离向量\(x_1, \cdots, x_n\) ;然后，从样本的可能取值范围随机生成n个点，记为\(q_1, \cdots, q_n\)，对每个点找到他们最近的样本点计算距离，得到\(y_1, \cdots, y_n\)。霍普金斯统计量\(H\)表示为
    
    \[H = \frac{\sum \limits_{i=1}^n y_i}{\sum \limits_{i=1}^{n} x_i + \sum \limits_{i=1}^{n} y_i} \]
  - 如果样本随机分布，则H接近0.5。如果有聚类趋势，则随机生成的样本点距离应该远大于实际样本点距离，H的值接近1。

判定数据簇类

手肘法和Gap Statistic法
用于评估的最佳数据簇类可能与程序输出的簇类是不同的

测定聚类质量

考察类间散度和类内散度

轮廓系数
均方根误差：衡量聚类的同质性，即紧凑程度（类间散度）
R方：衡量聚类的差异度（类间散度）
改进的Hubert\(\Gamma\)统计：通过数据对的不一致性来评估聚类的差异

标签：样本,cdots,距离,散度,算法,聚类,数据,评估
来源： https://www.cnblogs.com/weilonghu/p/11922385.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

聚类算法的评估

数据簇的特点

聚类可行性

判定数据簇类

测定聚类质量