数据挖掘中关联规则的频繁项集研究及算法设计

龙源期刊网 https://www.360docs.net/doc/e115552879.html,

作者：顿毅杰

来源：《硅谷》2010年第05期

摘要: 关联规则挖掘其主要研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律与数据间的联系。关联规则挖掘算法主要目的是从事务数据集项间挖掘出有意义的关联关系。Apriori算法是关联规则挖掘算法中最经典的方法。由Apriori算法产生的候选项集仍是巨量的。通过对Apriori算法中的候选项集支持频度的深入研究总结五条规律,并将这五条规律应用到Apriori算法中。

关键词: 关联规则挖掘;Apriori算法;频繁项集;候选项集;支持频度;独立支持频度;可信度

中图分类号:TP3文献标识码:A文章编号:1671-7597(2010)0310062-01

1 如何准确地发现隐藏着的有用的决策者所需的信息已成为迫切需要解决的问题

数据仓库与数据挖掘概念就是为了解决拥有大量数据但缺乏有用信息的问题而提出的。数据挖掘是指从大型数据库或数据仓库中挖掘出数据间潜在的模式,自动提取未知的、完整的、

有价值的信息。从功能上可将数据挖掘分析方法分为:关联规则(Association Rules)、序列模式

分析(Sequential Patterns)、分类分析(Classifiers)、聚类分析(Clustering)。关联规则挖掘是指从巨量的信息资源中挖掘出预想不到的数据项集间的有趣联系或关联关系。描述关联规则的主要属性有:支持度与可信度。关联规则挖掘问题可以分为两个子问题:找出存在于事务数据库中的所有频繁项集,即支持度大于用户所设置的最小支持度的项集;然后利用所找到的频繁项集生成关联规则[1,2]。由于后一个问题比较容易解决,目前大多数研究主要集中在如何产生频繁项集

上。为了挖掘频繁项集,其中最经典的关联规则挖掘算法主要分为以下三种:Apriori算法[3]、DIC算法[4]、抽样算法等。比较著名的算法是由Rakesh Agrawal和Ramakrishnan Skrikant提出的Apriori算法,Apriori算法通过产生候选项集[5],然后扫描数据库,验证其中的某些候选项集为频繁项集[6]的过程。此算法利用了数据频繁项集的向上封闭性,即频繁项集的子集也是频繁项集,从而在一定程度上减少了在寻找频繁项集过程中候选项集的数目。

2 很多新算法都是Apriori算法在某方面的变种

这些改进算法主要针对Apriori算法的以下两个不足提出来的: