2012年10月19日星期五

数据挖掘导论 6.7.1 : 兴趣度的客观度量

X->Y,X为前件,Y为后件

局限性

支持度S(X,Y):潜在有意义的模式,被阈值滤掉

置信度S(X,Y)/S(X):忽略了规则后件中项集的支持度,可能有误导

兴趣因子S(A,B)/[S(A) X S(B)] : (A,B)频繁程度的信息一定程度上被消减了

相关分析,连续变量:皮尔森相关系数

相关分析,二元变量:(f11f00- f01f10) / sqrt(f1x fx1 f0x fx0)

相关分析局限:把同时出现与同时不出现视为同等重要,更适合分析对称二元变量;样本大小成比例变化时,无法保持不变

IS度量 S(A,B)/ sqrt [ S(A) X S(B) ] :等价于二元变量的余弦度量。即使是不相关or负相关的模式,IS度量也可能很大

==

度量是对称的,如果M(A->B) = M(B->A)。

对称度量常用于评价项集,非对称度量更适合分析关联规则。

没有评论:

发表评论