X->Y,X为前件,Y为后件
局限性
支持度S(X,Y):潜在有意义的模式,被阈值滤掉
置信度S(X,Y)/S(X):忽略了规则后件中项集的支持度,可能有误导
兴趣因子S(A,B)/[S(A) X S(B)] : (A,B)频繁程度的信息一定程度上被消减了
相关分析,连续变量:皮尔森相关系数
相关分析,二元变量:(f11f00- f01f10) / sqrt(f1x fx1 f0x fx0)
相关分析局限:把同时出现与同时不出现视为同等重要,更适合分析对称二元变量;样本大小成比例变化时,无法保持不变
IS度量 S(A,B)/ sqrt [ S(A) X S(B) ] :等价于二元变量的余弦度量。即使是不相关or负相关的模式,IS度量也可能很大
==
度量是对称的,如果M(A->B) = M(B->A)。
对称度量常用于评价项集,非对称度量更适合分析关联规则。
没有评论:
发表评论