2012年10月22日星期一

数据挖掘导论 8.5.7 : 簇有效性的监督度量

聚类分析,评估人工分类的过程可以在多大程度上被聚类分析自动地实现

簇有效性的监督度量有两种:面向分类的、面向相似性的

面向分类的度量:度量预测的类标号与实际类标号的对应程度

  • 熵:每个簇由单个类的对象组成的程度

  • 纯度:簇包含单个类的对象程度

  • 精度:簇中一个特定类对象所占比例  Pij = Mij/Mi

  • 召回率:簇包含一个特定类的所有对象的程度 Rij=Mij/Mj

  • F度量:精度与召回率的组合,Fij = 2 * Pij * Rij / (Pij + Rij)


 

面向相似性的度量:同一个簇的任意两个对象也应该在同一个类,反之亦然

理想的簇相似度矩阵:第ij项为1,如果对象i和对象j在同一个簇;否则为0

理想的类相似度矩阵:第ij项为1,如果对象i和对象j在同一个类;否则为0

比较簇和类矩阵的相关性,上述两个矩阵的相关度

  • f00 = 不同类+不同簇 的对象对 个数

  • f01 = 不同类+相同簇 的对象对 个数

  • f10 = 相同类+不同簇 的对象对 个数

  • f11 =  相同类+相同簇 的对象对 个数


Rand统计量 = (f00+f11) / (f00+f01+f10+f11)

Jaccard系数 = f11 / (f00+f01+f10+f11)

 

层次聚类的一种度量:对于每个类,是否至少有一个簇相对较纯,且包含了该类的大部分对象

F = SUMj ( Mj * MAXi F(i, j) / M )

其中,最大值在所有层的所有簇i上取,Mj是类j中对象的个数

没有评论:

发表评论