关联规则基本知识
关联规则
关联关系分为:简单关联关系、时序关联关系、因果关联关系。
关联规则用来挖掘数据之间的某种关联。
关联规则就是要分析哪些事情的发生将引起另外事情的发生,也可分析哪些事情的发生将引起另外事情的顺序发生,即事情的发生有时间或序列上的规律。
一、基本知识
1.项集的定义
项集是指所包含的数据项数量大于或等于1的集合,用 { } \{ \} {}表示。
例如,2项集 { a , b } \{a,b\} {a,b},3项集 { c , d , e } \{c,d,e\} {c,d,e}.
2.频繁集的定义
如果某项集出现的频数或频率大于等于某一个规定数据,则该项集称为频繁集。
频繁集有两条性质:
1.频繁集的子集还是频繁集
2.非频繁集的超集还是非频繁集
3.频繁集的计算
1.支持度
X , Y X,Y X,Y是两个项集,关联规则 ( X ⇒ Y ) (X\Rightarrow Y) (X⇒Y)的支持度为:
2.可信度
3.重要度
二、挖掘关联规则的步骤
1.挖掘频繁项集。通过给定的最小支持度minsup,寻找所有频繁项集,即支持度support不小于最小支持度 的所有项集。
2.生成关联规则。产生支持度和置信度大于给定的最小支持度和最小置信度的关联规则。
三、频繁项集挖掘算法
Apriori算法可挖掘出所有频繁项集 ,使用广度优先的迭代搜索方法。
首先找出频繁1-项集集合 F 1 F_1 F1;
用 F 1 F_1 F1 找频繁2-项集集合 F 2 F_2 F2;
用 F 2 F_2 F2找 F 3 F_3 F3;
依次循环,直到不能找到频繁k-项集为止。
四、关联规则的应用
优点
1.在对测量数据相互关系进行分析时,可运用关联规则得到与相关分析类似的结果,并在精度上优于相关分析。
2.关联规则方法对于数据性质的要求较低。‚
它不需要变量服从正态分布 ,也不要求变量间为线性关系。
3.当变量间关系为未知的非线性映射时‚,关联规则方法可以很好地预测。
在心理学中许多变量间关系都是未知的非线性关系。
4.能够得出多个变量取值之间的关联。
缺点
1.关联规则适用的数据是分类数据或布尔数据。
2.如果约束条件不够严格,会产生冗余的规则。
学生心理问题数据与学生基本属性之间的内在联系可通过关联规则算法来分析。
比如学生是否焦虑与学生性别之间的关联。
关联规则表述为:
如果A发生,则B有百分之C的可能发生,其中C就是关联规则的支持度。
关联规则基本知识
关联规则
关联关系分为:简单关联关系、时序关联关系、因果关联关系。
关联规则用来挖掘数据之间的某种关联。
关联规则就是要分析哪些事情的发生将引起另外事情的发生,也可分析哪些事情的发生将引起另外事情的顺序发生,即事情的发生有时间或序列上的规律。
一、基本知识
1.项集的定义
项集是指所包含的数据项数量大于或等于1的集合,用 { } \{ \} {}表示。
例如,2项集 { a , b } \{a,b\} {a,b},3项集 { c , d , e } \{c,d,e\} {c,d,e}.
2.频繁集的定义
如果某项集出现的频数或频率大于等于某一个规定数据,则该项集称为频繁集。
频繁集有两条性质:
1.频繁集的子集还是频繁集
2.非频繁集的超集还是非频繁集
3.频繁集的计算
1.支持度
X , Y X,Y X,Y是两个项集,关联规则 ( X ⇒ Y ) (X\Rightarrow Y) (X⇒Y)的支持度为:
2.可信度
3.重要度
二、挖掘关联规则的步骤
1.挖掘频繁项集。通过给定的最小支持度minsup,寻找所有频繁项集,即支持度support不小于最小支持度 的所有项集。
2.生成关联规则。产生支持度和置信度大于给定的最小支持度和最小置信度的关联规则。
三、频繁项集挖掘算法
Apriori算法可挖掘出所有频繁项集 ,使用广度优先的迭代搜索方法。
首先找出频繁1-项集集合 F 1 F_1 F1;
用 F 1 F_1 F1 找频繁2-项集集合 F 2 F_2 F2;
用 F 2 F_2 F2找 F 3 F_3 F3;
依次循环,直到不能找到频繁k-项集为止。
四、关联规则的应用
优点
1.在对测量数据相互关系进行分析时,可运用关联规则得到与相关分析类似的结果,并在精度上优于相关分析。
2.关联规则方法对于数据性质的要求较低。‚
它不需要变量服从正态分布 ,也不要求变量间为线性关系。
3.当变量间关系为未知的非线性映射时‚,关联规则方法可以很好地预测。
在心理学中许多变量间关系都是未知的非线性关系。
4.能够得出多个变量取值之间的关联。
缺点
1.关联规则适用的数据是分类数据或布尔数据。
2.如果约束条件不够严格,会产生冗余的规则。
学生心理问题数据与学生基本属性之间的内在联系可通过关联规则算法来分析。
比如学生是否焦虑与学生性别之间的关联。
关联规则表述为:
如果A发生,则B有百分之C的可能发生,其中C就是关联规则的支持度。