腾讯分分彩组三杀号 > 数据挖掘 >

十大经典数据挖掘算法—Apriori

2018-08-01 17:20

  诚邀电源测试工程师们参与小调研,让泰克新5系混合信号示波器(MSO)更好的帮助您解决电源测试难题。【详情】

  关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。

  关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transacTIons)问题中,

  关联分析则被用来找出此类规则:顾客在买了某种商品时也会买另一种商品。在上述例子中,大部分都知道关联规则:{Diapers} {Beer};即顾客在买完尿布之后通常会买啤酒。后来通过调查分析,原来妻子嘱咐丈夫给孩子买尿布时,丈夫在买完尿布后通常会买自己喜欢的啤酒。但是,如何衡量这种关联规则是否靠谱呢?下面给出了度量标准。

  对于靠谱的关联规则,其支持度与置信度均应大于设定的阈值。那么,关联分析问题即等价于:对给定的支持度阈值min_sup、置信度阈值min_conf,找出所有的满足下列条件的关联规则:

  把支持度大于阈值的项集称为频繁项集(frequent itemset)。因此,关联规则分析可分为下列两个步骤:

  如果采用暴力方法,穷举所有的关联规则,找出符合要求的规则,其时间复杂度将达到指数级。因此,我们需要找出复杂度更低的算法用于关联分析。

  定理1:如果一个项集是频繁的,那么其所有的子集(subsets)也一定是频繁的。

  定理2:如果一个项集是非频繁的,那么其所有的超集(supersets)也一定是非频繁的。

  关联规则是由频繁项集生成的,即对于FkFk,找出项集hmhm,使得规则fkhm⟶hmfkhm⟶hm的置信度大于置信度阈值。同样地,根据置信度定义得到如下定理:

  声明:电子发烧友网转载作品均尽可能注明出处,该作品所有人的一切权利均不因本站而转移。

  作者如不同意转载,既请通知本站予以删除或改正。转载的作品可能在标题或内容上或许有所改动。

  ·简介Apriori算法并解析该算法的具体策略和步骤,给出Python实现代码

  ·简介Apriori算法并解析该算法的具体策略和步骤,给出Python实现代码