数据挖掘与预测分析:第2版

数据挖掘与预测分析:第2版
数据挖掘与预测分析:第2版

第1章

数据挖掘与预测分析概述1.1 什么是数据挖掘和预测分析

最近,计算机制造商Dell对提高其销售人员的工作效率非常感兴趣。为此,公司利用数据挖掘和预测分析方法分析其潜在客户数据库,以发现那些最有可能真正成为其客户的人群。通过利用LinkedIn及其他能够提供大量丰富潜在客户信息的类似网站,研究潜在客户的社会网络行为,Dell就能为其客户开发出更具个性化的销售方式。以上案例是通过挖掘客户数据,帮助识别潜在客户市场行为类型的实例,它基于客户的个人档案记录。这一工作能获得什么样的效益呢?可以将需要联系的预期人群数量减少50%,只与那些最有可能成为客户的人群联系,销售人员的效率和效益提高一倍左右,同时Dell的营业额也获得了类似的增长1。

美国麻省州政府以预测分析为工具,大大减少了全州的医疗福利诈骗案件。当医疗索赔发生时,州政府立即将相关信息实时发送到预测分析模型,执行异常检测。据麻省州医疗福利欺诈中心负责人Joan Senatore透露,在投入使用的前6个月期间,该系统“发现了涉及大约两百万美元的不应支付的款项,避免了大量欺诈索赔金额的支付”。2

1 How Dell Predicts Which Customers Are Most Likely to Buy, by Rachael King, CIO Journal, Wall Street Journal, December 5, 2012.

2 How MassHealth cut Medicaid fraud with predictive analytics, by Rutrell Yasin, GCN, February 24, 2014.

第Ⅰ部分 数 据 准 备

4

麦肯锡全球研究所(MGI)报告3称大多数雇员超过1000人的美国公司平均有至少200 TB的数据存储。麦肯锡全球研究所认为在世界范围内,数据产生的总量将以每年40%的速度增长,对公司来说,这将带来有利可图的机会,它们可以利用其数据减少开销并增加利润。例如,按照MGI的报告,能够最大限度地利用这些“大数据”的零售商可使其营业额毛利增长60%以上。

《福布斯》杂志报告4表明,利用数据挖掘和预测分析,可发现那些具有最严重危险的充血性心脏衰竭病人。IBM收集了涉及350 000位病人的3年数据,包括超过200个参数的数据度量值,如血压、体重以及处方药等。利用预测分析,IBM发现可能会死于充血性心脏衰竭的风险最大的8500位病人。

《MIT(麻省理工学院)技术导报》报告5声称,正是由于奥巴马竞选团队有效利用了数据挖掘技术,帮助奥巴马于2012年赢得了与对手罗姆尼的总统竞选。首先,竞选团队使用数据挖掘模型确定出潜在的奥巴马支持者,然后确定这些支持者将会参与投票。竞选团队还使用了单独的数据挖掘模型,按照不同选区预测投票结果。在著名的摇摆选区,即俄亥俄州汉密尔顿选区,该模型预测奥巴马将获得56.4%的选票;实际情况是,奥巴马总统在该选区获得56.6%的选票,预测值与实际值仅相差0.2%。这样准确的预测能力使得竞选团队成员能在分配紧缺资源时获得更高的效率。

数据挖掘是从大型数据集中发现有用的模式和趋势的过程。

预测分析是从大型数据集中获取信息以便对未来结果进行预测和估计的过程。

那么,数据挖掘是什么?预测分析是什么?

当你在大型超市排队等待结账时,是否曾经闭上眼睛倾听?你可能会听到收款台上的读卡器在扫描读取食品杂货条形码时所发出的嘟嘟声,此时读取的数据都存放到公司的服务器上。每一次嘟嘟声都意味着向数据库中插入了一条新记录,表明收集到包含新“观察值”的信息,这些信息涉及你的家庭以及其他通过收款台的家庭所具有的购买习惯。

显然,可以收集到大量的数据。然而,我们能够从所有这些数据中学习到什么呢?将会从所有这些数据中得到何种新知识呢?现实情况是,可能没有你想象的那样多,原因在于有经验的数据分析人员严重短缺。

3 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, https://www.360docs.net/doc/452989790.html,, May, 2011. Last accessed March 16, 2014.

4 IBM and Epic Apply Predictive Analytics to Electronic Health Records, by Zina Moukheiber, Forbes magazine, February 19, 2014.

5 How President Obama’s campaign used big data to rally individual voters, by Sasha Issenberg, MIT Technology Review, December 19, 2012.

第1章 数据挖掘与预测分析概述 5 1.2 需求:数据挖掘技术人员

早在1984年,在《大趋势》一书6中,约翰·奈斯比特注意到“我们被大量信息淹没,

但却缺乏知识”。当前,这一问题不在于我们没有足够的数据或信息流。事实上,目前多数领域都存在大量的数据。问题在于,我们缺乏擅长于将所有这些数据转换为知识的足够分析人员,他们能够将分类树转为智慧。

数据挖掘和知识发现领域的持续显著成长是源于多种因素幸运交汇的结果:

●收集到的数据呈爆炸性增长,正如前述超市扫码器的案例所示;

●将数据存储到数据仓库中,从而整个企业能够访问可靠的、最新的数据库;

●越来越多的人能够通过网页浏览和内联网访问数据;

●在经济全球化进程中为增加市场份额所遇到的竞争压力;

●可用的商业数据挖掘套件的开发;

●计算能力和存储能力的不断增大。

遗憾的是,McKinsey报告7认为:

企业需要的能够利用大数据的人才存在短缺。因此,想要获取大数据中蕴含的价值将严重受制于人才的短缺,特别是具有统计和机器学习方面专门知识的专家型人才,以及熟知如何利用从大数据中获得的知识来运营公司的管理人员和分析师。我们认为对大数据领域需要的、能够进行深入分析的职位呈现供不应求的状况,短缺将达到140 000~190 000个职位。此外,我们认为在美国大约需要额外的150万管理人员和分析师,他们能够提出正确的问题并有效地使用大数据分析的结果,开展管理和分析工作。

本书试图帮助缓解数据分析人员严重短缺的现状。

1.3 数据挖掘离不开人的参与

自动化无法替代人的监督,数据挖掘过程的每个阶段都需要人的积极参与。与其寻找人员适合在数据挖掘中处理什么工作,不如询问我们如何能够将数据挖掘设计成为人性化的问题求解过程。

此外,当前可用的强大数据挖掘算法嵌入在黑盒软件中,这会导致大量的误用,从而产生更大的危险。与其他新的信息技术一样,数据挖掘技术也容易产生不良的效果。例如,

6 Megatrends, John Naisbitt, Warner Books, 1984.

7 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, https://www.360docs.net/doc/452989790.html,, May, 2011. Last accessed March 16, 2014.

第Ⅰ部分 数 据 准 备

6

研究人员可能应用不适当的、与正确途径完全不同的方法分析数据集,或者得出的模型建立在完全似是而非的假设的基础上。因此,需要理解作为软件底层的统计和数学模型的结构。

1.4 跨行业数据挖掘标准过程:CRISP-DM

在一些公司中,由于部门习惯和组织划分,存在着混乱地处理数据挖掘的情况,从而浪费大量资源,开展重复劳动。因此明显需要建立一种跨行业的标准,该标准应与行业、工具和应用无关。跨行业数据挖掘标准过程(CRISP-DM8)由来自戴姆勒-克莱斯勒、SPSS 和NCR的分析人员共同开发。CRISP提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。

按照CRISP-DM标准,一个数据挖掘项目的生命周期包含6个阶段,如图1.1所示。注意阶段顺序是自适应的。这意味着,后一阶段通常依赖于与之相关的前一个阶段的结果。阶段之间最显著的依赖关系用箭头表示。例如,假设我们目前处于建模阶段。根据模型的行为和特征,在进入模型评估阶段前,我们可能需要返回到数据准备阶段做进一步的完善工作。

8 Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinart, Colin Shearer, Rudiger Wirth, CRISP-DM Step-by-Step Data Mining Guide, 2000.

第1章 数据挖掘与预测分析概述 7

业务/研究理解阶段数据理解

阶段

部署阶段

评估阶段建模阶段

数据准备阶段

图1.1 CRISP-DM是一个迭代的、自适应的过程

CRISP的迭代特性如图1.1中的外圈所示。通常,针对特定业务或研究问题的解决方案将会产生更为深入的有趣问题,这些问题往往可以使用与之前类似的通用过程加以解决。从过去的项目中学到的经验教训始终应该作为新项目的输入。以下是对各个阶段的简略描述(在评估阶段遇到的问题可以由分析人员返回前面的任一阶段开展完善工作)。

CRISP-DM:六阶段概述

1. 业务/研究理解阶段

a.首先,根据业务或研究单元,从总体上清楚地阐明项目目标和需求。

b.然后,将这些目标和约束转换为数据挖掘问题定义的公式。

c. 最后,准备实现这些目标的初步策略。

2.数据理解阶段

a. 首先,收集数据。

b.然后,通过探索性数据分析熟悉数据,发现浅层见解。

c. 评估数据质量。

d.最后,如果需要的话,选择可能包含可执行模式的感兴趣数据子集。

3.数据准备阶段

a. 该阶段需要投入大量的精力,涵盖准备最终数据集的方方面面,这些数据将用

于后续阶段,涉及初始数据、原始数据和脏数据。

第Ⅰ部分 数 据 准 备

8

b. 选择要分析的案例和变量,为分析做好准备工作。

c. 如果需要的话,对确定的变量进行转换。

d. 对原始数据展开清理工作,为使用建模工具建模打下基础。

4. 建模阶段

a. 选择并应用适当的建模技术。

b. 校准模型设置以优化结果。

c. 通常,对同一个数据挖掘问题可能要应用多种不同的技术。

d. 可能需要返回数据准备阶段,以便使数据形式能够符合特定数据挖掘技术对数

据的特定需求。

5. 评估阶段

a. 建模阶段将发布一个或多个模型。在将这些模型部署到现场进行使用前,必须

对模型质量和效果开展评估工作。

b. 同时要确认模型是否能完成阶段1设定的目标集。

c. 确认业务或研究问题的重要组成部分是否未被清楚地解释。

d. 最后,做出有关是否使用数据挖掘结果的决定。

6. 部署阶段

a. 建立了模型并不意味着项目已经完成。需要应用已建立的模型。

b. 简单部署实例:建立报表。

c. 复杂一些的部署实例:在其他部门实现并行数据挖掘过程。

d. 对商业应用来说,客户通常会基于建立的模型开展部署工作。

本书广泛采纳CRISP-DM,当然有些方面进行了修改。例如,在执行探索性数据分析(第3章)前,我们趋向于先清理数据(第2章)。

1.5 数据挖掘的谬误

在美国众议院技术、信息政策、政府间关系和人口普查小组委员会以前的发言中,鹦鹉螺系统公司总裁Jen Que Louie描述了对数据挖掘的4种常见谬误,其中两种与我们前述的警告相同:

●谬误1:数据挖掘工具可以方便地连接到我们的数据仓库并得出问题的答案。

?实际情况是,不存在能够机械式地自动解决你的问题并且你什么都不需要做的自动化数据挖掘工具。数据挖掘是一个过程,而CRISP-DM是一种将数据挖掘过

程融合到整个业务和研究活动中的方法。

●谬误2:数据挖掘过程是自动化的过程,几乎不需要人为的监督。

?实际情况是,数据挖掘不是魔术。没有训练有素的人员的监督,盲目使用数据挖

第1章 数据挖掘与预测分析概述 9

掘软件将会带给你错误问题的错误解答,并且运用到错误的数据类型。此外,错

误的分析比不做分析更糟,因为错误分析所产生的策略建议将带给你代价昂贵的

失败。即使部署模型之后,新数据的引入通常也需要对模型进行更新。必须由分

析人员不断地开展质量监督和其他的评估度量工作。

●谬误3:数据挖掘很快就会收回投资。

?实际情况是,回报率差别很大,这依赖于初始开销、分析人员开销、数据仓库准备的开销等。

●谬误4:数据挖掘软件包直观易用。

?实际情况是,易用性也是千差万别的。然而,不要听信一些软件开发商广告的宣传,你不能仅仅购买数据挖掘软件,安装并袖手旁观,等着它为你解决所有的问

题。例如,算法需要特定的数据格式,这可能需要大量的预处理工作。数据分析

人员必须同时具备分析问题的学科知识,并且熟悉整个业务和研究模型。

除了以上所列的谬误外,我们增加了其他3种常见的谬误。

●谬误5:数据挖掘将确定我们的业务或研究问题的原因。

?实际情况是,知识发现过程将帮助你揭示行为模式。再次强调,确定原因是由人完成的工作。

●谬误6:数据挖掘将自动清理混乱的数据库。

?实际情况是,当然不是自动的。作为数据挖掘过程的最初阶段,数据准备阶段通常用于处理多年来未检验和使用的数据。因此,开始新的数据挖掘操作的组织通

常将面对多年未使用的数据问题。由于多年未被使用,需要对这些数据进行大量

的更新工作。

●谬误7:数据挖掘总是会提供正面的结果。

?实际情况是,当对数据进行挖掘工作以获得可用知识时,并不能保证获得正面的结果。数据挖掘不是解决商业问题的灵丹妙药。通过由理解所涉及的模型、数据

需求和项目总体目标的人员适当地使用,数据挖掘的确能够提供有价值的、高效

益的结果。

以上讨论也可称为数据挖掘不能做什么工作。以下内容将转入讨论数据挖掘能做什么工作。

1.6 数据挖掘能够完成的任务

以下列表展示最常见的数据挖掘任务:

数据挖掘任务

第Ⅰ部分 数 据 准 备

10

1 描述

2 评估

3 预测

4 分类

5 聚类

6 关联

1.6.1 描述

有时,研究人员和分析人员试图发现隐藏在数据中的模式和趋势描述方法。例如,民意调查员可能会发现失业人员不大可能在总统选举中支持现任总统的证据。对此类模式和趋势的描述通常会得出可能的解释。例如,失业人员的财务状况通常比现任总统就任前要差得多,因此趋向于投票给新的总统候选人。

数据挖掘模型应该尽可能透明。也就是说,数据挖掘模型的结果应该描述清晰的模式,这些模式服从直觉解释。一些数据挖掘方法比其他数据挖掘方法更适合透明解释。例如,决策树提供直观的、便于人们理解的解释结果。然而,神经元网络由于模型的非线性和复杂性,对非专业人士来说其解释相对要模糊得多。

高质量的描述通常能够以探索性数据分析实现,这是一种图形化的方法,对数据进行探索以搜索模式和趋势。我们将在第3章中考察探索性数据分析方法。

1.6.2 评估

对评估来说,我们用一组数字和/或分类预测变量近似估计数字目标变量的值。建立的模型使用“完整”的记录,这些记录提供了目标变量的值以及预测值。然后,对于新的观测结果,估计目标变量与预测变量之间值的差异。

例如,我们对评估医院病人的收缩期血压读数感兴趣,该评估基于病人的年龄、性别、身体质量指数、血钠水平等。收缩期血压与训练集中的预测变量之间的关系将给我们提供一个评估模型。然后我们可以将该模型应用于新病例中。

业务和研究中涉及的评估任务包括:

●评估一个随机选择的四口之家在秋季返校前的购物开销情况;

●评估橄榄球联赛中进攻后卫在膝盖受伤后导致的折返跑动作下降的百分比;

●评估勒布朗·詹姆斯在加时赛中面对包夹战术时每场比赛的得分情况;

●基于本科生的GPA,评估研究生的GPA。

如图1.2所示,散点图表示1000名研究生的GPA与本科生的GPA的情况。按照最小二乘准则的简单线性回归让我们能够发现这两个变量之间的近似关系。在已知学生本科GPA的情况下,图1.2所示的回归线用于评估研究生的GPA。

第1章 数据挖掘与预测分析概述 11研

GPA

本科生的GPA

图1.2 基于回归线的回归评估

回归线的表达式(由统计软件包Minitab产生,图1.2也是由该软件包生成的)为? 1.240.67

=+。该公式表明,评估毕业生年级平均成绩等于1.24加上0.67倍本科生年y x

级平均成绩。例如,假定你的本科年级平均成绩为3.0,则毕业生年级平均成绩为? 1.240.67(3) 3.25

==精确地出现在回归线上,与线性回归预测

x y

( 3.0, 3.25)

y=+=。注意点?

的结果完全一致。

统计分析领域提供了几种广泛使用的经典评估方法,包括点评估以及置信区间评估、简单线性回归和关联、多元回归等。我们将在第5、6、8、9等章中介绍这些方法。第12章也可用于评估分析。

1.6.3 预测

预测与分类和评估类似,但预测主要是针对未来的情况。商业和研究领域的预测任务包括:

●预测未来3个月的股票价格;

●在限速提高后,预测下一年交通死亡人数增加的百分比;

●根据每个球队的统计结果比较,预测今年秋季世界杯系列赛的冠军;

●预测药物研发中的某个特定分子是否会给制药公司带来有利可图的新药。

在适当的环境下,所有分类和评估技术使用的方法和技术也可以用于预测。这些方法包括传统的点评估和置信区间评估、简单线性回归和关联、多元回归等统计方法,将在第5章、第6章、第8章和第9章中探讨。还包括数据挖掘和知识发现方法,如k-最近邻方法(第10章)、决策树(第11章)和神经元网络(第12章)等。

第Ⅰ部分 数 据 准 备

12

1.6.4 分类

分类方法与评估方法类似,区别是分类方法的目标变量是类别而不是数字。对分类来说,包括一个目标分类变量,例如收入档次,该变量可分为3个类别或类:高收入、中等收入和低收入。数据挖掘模型检验大量的数据记录,每个记录包含目标变量的信息以及一组输入或预测变量。例如,考虑如表1.1所示的数据集摘录内容。

表1.1 摘录自数据集的分类收入

目标年龄性别职业收入档次001 47 女软件工程师高

002 28 男营销顾问中等

003 35 男失业低

……………

假设研究人员希望对新个体的收入档次进行分类,该个体目前不在上述数据集中,而是要基于与该个体相关的其他特征开展分类工作,例如年龄、性别、职业等。这就是典型的分类任务,非常适合采用数据挖掘方法和技术来解决。

解决该问题的算法简单描述如下。首先,验证数据集中包含的预测变量和(已经分类的)目标变量,即收入档次。以此方法,算法(软件)“通过学习知道”不同的变量组合与收入档次的哪个类别关联。例如,年龄稍长的男性可能与高收入类别关联。该数据集称为训练集。

然后,算法将查询新记录,新记录的收入档次一栏中尚未包含任何信息。基于训练集中的分类,算法将给新记录分配其所属的类别。例如,63岁的男性教授可能会被分类到高收入类别中。

商业和研究领域的分类任务示例如下:

●确定特定的信用卡交易是否存在欺诈;

●根据其特定的需求,将新学生放入特定的队列中;

●评估抵押贷款申请的信用风险;

●确定遗嘱是否由死者书写,还是被他人篡改;

●确定一定的财务或个人行为是否预示存在某种恐怖威胁。

例如在医疗领域中,假设我们希望根据病人的特征(如病人的年龄、病人的钠钾比)对其服用药的类型进行分类。对于包括200名病人的样例,图1.3给出了病人钠钾比与病人年龄的散点图。服用的不同药物由图中不同灰度的点表示。浅灰点表示药物Y,中度灰点表示药物A或X,深灰点表示药物B或C。图中钠钾比对应Y(垂直)轴,年龄对应X(水平)轴。

第1章 数据挖掘与预测分析概述 13钠

年龄

图1.3 何种药物应该让何种类型的病人服用

假定我们将基于该数据集,为病人开具处方药。

(1) 对于钠钾比高的年轻病人,我们应该推荐何种药物呢?

年轻病人位于图的左边,钠钾比高的病人位于图的上半部分,这表明以前推荐给具有高钠钾比的年轻病人的药物为Y(浅灰点)。因此,推荐给该类病人的预测分类药物为Y。

(2) 对于具有低钠钾比的老年病人,我们应该推荐其服用何种药物呢?

该类病人处于图中右下的位置,已服用不同的药物,由深灰点(药物B或C)或中度灰点(药物A或X)表示。在没有其他具体信息的情况下,无法获得确定的分类。例如,也许这些药对beta阻滞剂、雌激素水平或其他药物存在不同的影响,或者存在禁忌条件,如哮喘或心脏病等。

图形和图表有助于理解数据所包含的二维或三维关系。但有些时候,分类需要基于很多不同的预测属性,并且需要多维图表。因此,我们需要开发更复杂的模型以执行分类任务。在第10~14章中将对用于分类的常见数据挖掘方法开展讨论。

1.6.5 聚类

聚类是一种将相似的记录、观察和案例划分到同一个类别中的方法。聚类中的簇是相似记录的集合,不相似的记录被划分到不同的簇中。聚类与分类的区别在于,其没有目标变量。聚类任务不需要分类、评估或预测目标变量的值。相反,聚类算法发现并将整个数据集划分为相对同质的子集合或簇,簇内的记录相似性最大化,簇外的记录与簇内的记录相似性最小化。

Nielsen Claritas公司处理聚类业务,他们提供按照邮政编码划分的全国不同地理区域的人口统计概貌。该公司所使用的聚类机制之一是PRIZM分段系统,该系统描述美国所有邮政编码区域的独特生活方式类型。表1.2展示的是涉及的66个不同簇。

第Ⅰ部分 数 据 准 备

14

表1.2 PRIZM分段系统使用的66个簇

01 Upper Crust 02 Blue Blood Estates 03 Movers and Shakers

04 Young Digerati 05 Country Squires 06 Winner’s Circle

07 Money and Brains 08 Executive Suites 09 Big Fish, Small Pond

10 Second City Elite 11 God’s Country 12 Brite Lites, Little City

13 Upward Bound 14 New Empty Nests 15 Pools and Patios

16 Bohemian Mix 17 Beltway Boomers 18 Kids and Cul-de-sacs

19 Home Sweet Home 20 Fast-Track Families 21 Gray Power

22 Young Influentials 23 Greenbelt Sports 24 Up-and-Comers

25 Country Casuals 26 The Cosmopolitans 27 Middleburg Managers

28 Traditional Times 29 American Dreams 30 Suburban Sprawl

31 Urban Achievers 32 New Homesteaders 33 Big Sky Families

34 White Picket Fences 35 Boomtown Singles 36 Blue-Chip Blues

37 Mayberry-ville 38 Simple Pleasures 39 Domestic Duos

40 Close-in Couples 41 Sunset City Blues 42 Red, White and Blues

43 Heartlanders 44 New Beginnings 45 Blue Highways

46 Old Glories 47 City Startups 48 Young and Rustic

49 American Classics 50 Kid Country, USA 51 Shotguns and Pickups

52 Suburban Pioneers 53 Mobility Blues 54 Multi-Culti Mosaic

55 Golden Ponds 56 Crossroads Villagers 57 Old Milltowns

58 Back Country Folks 59 Urban Elders 60 Park Bench Seniors

61 City Roots 62 Hometown Retired 63 Family Thrifts

64 Bedrock America 65 Big City Blues 66 Low-Rise Living

如表1.2所示,邮政编码90210的加利福尼亚贝弗里山地区的簇如下:

●簇#01:上流社会

●簇#03:名流权贵

●簇#04:青年文人

●簇#07:富人与老板

●簇#16:波希米亚人

簇#01:上流社会的描述是“作为国家最独特的地域,上流社会是美国最富裕的生活方式,年龄在45~64岁的空巢夫妇的天堂。其他区段没有像该区域一样具有如此大量年收入10万美元以上且具有硕士学位的居民,也没有如此奢华的生活标准”。

业务和研究领域的聚类任务包括如下示例:

●为不能投入大量市场预算的小型公司的小众产品确定目标市场;

●出于财务审计目的,将财务行为划分为良好和可疑类别;

第1章 数据挖掘与预测分析概述 15

●当数据集包含大量属性时,可作为一种降维工具;

●对基因表示聚类,发现大量基因可能具有的相似行为。

聚类通常作为数据挖掘过程的预处理步骤执行,得到的簇当作下游的不同技术的进一步输入,例如神经元网络等。第19章将讨论分层和K均值聚类,第20章将讨论Kohonen 网络(一种自组织竞争型神经网络),第21章将讨论平衡迭代约简,以及使用层次的聚类方法(BIRCH方法)。

1.6.6 关联

数据挖掘的关联任务主要是发现哪些属性“同时出现”。商业领域最流行的方法常称为关联分析或购物篮分析,其关联的任务是发现规则以量化两个或多个属性之间的关联关系。关联规则是一些形如“如果存在前件,则产生结果”的规则,与规则有关的度量主要涉及支持度和可信度。例如,在某个超市中可能会发现,于周四晚上到超市购物的1000名客户中有200人购买了尿布,在购买了尿布的200名顾客中有50人购买了啤酒。为此,产生的关联规则为“如果购买了尿布,则还会购买啤酒”,该规则的支持度为200/1000=20%,可信度为50/200=25%。

商业和研究领域中关联任务的示例包括:

●调查在订购公司手机计划的客户群体中正面回应服务升级的客户所占的比例;

●验证父母为其阅读的孩子自己成为优秀阅读者的比例;

●预测电信网络出现问题的情况;

●发现超市中哪些商品往往被客户一起购买,哪些商品从未一起购买;

●确定新药物将显示出危险副作用的案例比例。

在第22章,我们将讨论建立关联规则的两种算法:先验算法以及广义规则归纳(GRI)算法。

R语言开发园地

R语言入门

#注释、缩进以及分号

# 以#符号开始的所有字符均为注释

# 注释不会被R执行,它们主要用于解释代码将要做什么事情

# 缩进代码(不是注释)只要处于同一行中,就将在R中执行

# 由分号隔开的代码将作为不同的行运行

# 使用分号表示行结束

# 打开数据集并显示数据

第Ⅰ部分 数 据 准 备

16

# 使用你希望打开文件的准确位置替换"c:/…/"

cars <- read.csv(file = "C:/…/cars.txt", stringsAsFactors = FALSE)

cars #为显示整个数据集,应输入数据集名称

head(cars) #显示数据集的前几条记录

names(cars) #显示数据帧的变量名,这是R中的一种数据

cars$weight #仅查找在数据帧cars中的weight变量

# 矩阵

# 建立一个三行、两列的矩阵,将所有元素赋初值为0.0

mat <- matrix(0.0, nrow = 3, ncol = 2); mat

colnames(mat) <- c("Var 1", "Var 2") #定义矩阵变量名

colnames(mat) #显示矩阵的变量名

# 数据子集化及声明新变量

cars.rsub cars[1:50,] #按行建立数据子集

cars.csub <- cars[,1:3] #按列建立数据子集

cars.rcsub <- cars[c(1,3,5), c(2,4)] #按特定的行和列建立数据子集

cars.vsub <- cars[which(cars$mpg> 30),] #根据逻辑条件建立数据子集

#声明新变量,键入变量名、左向箭头,然后给出变量值

firstletter <-"a"

weight <- cars$weight

# 同时显示一幅或多幅图

par(mfrow=c(1,1)) #画出1幅图;这是默认设置

par(mfrow=c(2,3)) #画出6幅图:其中3幅图画在顶部,另外3幅图画在底部#图形将逐行地填充

# 示例:ggplot2, 见第3章

install.packages("ggplot2")

# 选择可选的CRAN镜像,如右图所示

# 打开新的软件包

library(ggplot2)

第1章 数据挖掘与预测分析概述 17 R参考文献

Wickham H. ggplot2: Elegant Graphics for Data Analysis. New York: Springer; 2009.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing; 2012. ISBN: 3-900051-07-0, https://www.360docs.net/doc/452989790.html,/.

练习

1. 对以下每个描述,确定与之相关的数据挖掘任务:

a. 波士顿凯尔特人队希望近似预测他们的下一个对手在与他们比赛时会得到多少分。

b. 某军事情报官员希望通过学习了解在某一个特定的战略区域内,两个派别各自

的比例。

c. 北美防空联合司令部的防御计算机必须立刻确定雷达上的光点是一群鹅还是来

袭的核导弹。

d. 政治策略师寻找特定国家/地区的募捐最佳组合。

e. 国土安全局官员希望确定一系列财务和住宅变动是否暗示具有恐怖行动的趋势。

f. 华尔街分析师被要求采用相似价格/收益比找出一系列公司股票价格的预期变化。

2. 对下列每场会议,解释其处于CRISP-DM过程的哪个阶段。

a. 项目经理想知道到下周为止是否将开始部署工作。因此,分析师开会讨论他们设

计模型的可用性和准确性。

b. 数据挖掘项目经理与数据仓库项目经理会面讨论如何收集数据。

c. 数据挖掘顾问与市场部副总经理会面,该经理表示他希望推进客户关系管理。

d. 数据挖掘项目经理与产品线管理人员会面,讨论如何实现改变和完善。

e. 分析师开会讨论是否需要应用神经元网络或决策树模型。

3. 讨论数据挖掘中对人的使用问题。描述完全依赖自动化数据分析工具可能带来的后果。

4.CRISP-DM并不是数据挖掘领域唯一的标准过程。研究可以使用的替代方法(提示:采样、探索、修改、建模和评估(SEMMA)出自SAS联盟的标准过程)。讨论其与CRISP-DM 的异同。

互联网数据挖掘期末考试论述题

1、 阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。 简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。 百度的优点: 1、对于中国人的阅读和浏览更为熟悉,服务更加本土化 2、提供RSS新闻订阅服务 3、提供历史和各省市新闻查阅 百度的缺点: 1、页面布局不合理页面没有充分利用 2、更新时间迅速的优势没有充分发挥 3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威; 4、搜索结果中广告、垃圾网站和死链比较多 Google的优点: 1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。 2、易用性较强。 3、根据站点的链接数和权威性进行相关性排序。 4、网页缓存归档,浏览过的网页被编入索引。 Google的缺点: 1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。 2、链接搜索必须准确,而且不完整。 3、只能把网页的前101KB和PDF的大约前120KB编入索引。可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。

4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。 雅虎的优点: 1、搜索引擎数据库庞大而且新颖。 2、包括页面的缓存拷贝。 3、也包括指向雅虎目录的链接。 4、支持全部的布尔逻辑检索。 雅虎的缺点: 1、缺少某些高级的搜索特性,譬如截词搜索。 2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。 3、连接搜索需要加入http://。包括有些付费才能加入的站点。 4、死链率较高而且缺少一些应有的高级搜索功能。 5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。 1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。搜索结果中广告、垃圾网站和死链比较多。 2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。 3、“ 雅虎”中规中矩,网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能。 3.1.1增加标引的深度 目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。3.1.2开发中文元搜索引擎 元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。 3.1.3改善检索性能 评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各

数据挖掘与预测分析

数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,预测未来业绩并采取预防措施。 数据挖掘的含义是广泛的,每个人有每个人不同的体会,每个人有每个人的见解。但这些体会、见解是有许多共通之处的,从而可以归纳出数据挖掘的技术定义以及商业定义:从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同,这个定义可以被解读为以下几个层次:①数据源必须是真实的、大量的、含噪声的;②发现的是用户感兴趣的知识;③发现的知识要可接受、可理解、可运用;④这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。 预测是大数据的核心,数据挖掘之后的预测分析无疑成为开拓市场的重要环节。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息,并对企业未来提供关键洞察。不仅可提供预测分析,使用户可以执行高级分析、发布并与更广泛的用户群交流。还可以提供

数据挖掘与分析心得体会

正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。 数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进! 2、数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步: 1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。 3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各

web数据挖掘考试重点

填空或简答: 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。 5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型 6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。 7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。 8. 从使用的主要技术上看,可以把分类方法归结为四种类型: a) 基于距离的分类方法 b) 决策树分类方法 c) 贝叶斯分类方法 d) 规则归纳方法 9. 关联规则挖掘问题可以划分成两个子问题: a) 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。 b) 生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。 10. 数据挖掘是相关学科充分发展的基础上被提出和发展的。 主要的相关技术: 数据库等信息技术的发展 统计学深入应用 人工智能技术的研究和应用 11. 衡量关联规则挖掘结果的有效性: 应该从多种综合角度来考虑: a准确性:挖掘出的规则必须反映数据的实际情况。 b实用性:挖掘出的规则必须是简洁可用的。 c新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。 12. 约束的常见类型有: 单调性约束; 反单调性约束; 可转变的约束; 简洁性约束. 13. 根据规则中涉及到的层次,多层次关联规则可以分为: 同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规 14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。 划分法:基于一定标准构建数据的划分。 属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。 层次法:对给定数据对象集合进行层次的分解。 密度法:基于数据对象的相连密度评价。 网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。 模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。 15. 类间距离的度量主要有: 最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。 最长距离法:定义两个类中最远的两个元素间的距离为类间距离。 中心法:定义两类的两个中心间的距离为类间距离。

数据挖掘概念与技术-课后题答案汇总汇总

数据挖掘——概念概念与技术 Data Mining Concepts and T echniques 习题答案 第1章引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: 1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测 聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据 挖掘功能的例子。 解答: ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓, 这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来 与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一 般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科 学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则 为: major(X, “c omputing science”) owns(X, “personal computer”) [support=12%, c onfid e nce=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学 生拥有一台个人电脑的概率是98%(置信度,或确定度)。 ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的 或无效的、并且通常是数字的数据值。它们的相似性是他们都是预 测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用 是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测, 这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析 1.3 1.9 列举并描述说明数据挖掘任务的五种原语。 解答: 用于指定数据挖掘任务的五种原语是:

数据清洗、数据分析、数据挖掘

数据清洗 1.基本概念 数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为"脏数据"。我们要按照一定的规则把"脏数据""洗掉",这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 ?残缺数据 这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。 折叠错误数据

这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL 的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。 折叠重复数据 对于这一类数据--特别是维表中会出现这种情况--将重复数据记录的所有字段导出来,让客户确认并整理。 数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题, 解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结 论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实 用中,数据分析可帮助人们作出判断,以便采取适当行动。 类型 在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的

数据挖掘常用的方法

数据挖掘常用的方法 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪 声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知 识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统 计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正 确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可 以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖 掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。 可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情 况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的 研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的 回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的 相似性很小,跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶 段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各 银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知 识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神 经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络 模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组

数据挖掘在互联网金融客户关系管理中的应用分析

数据挖掘在互联网金融客户关系管理中的应用分析 This model paper was revised by the Standardization Office on December 10, 2020

数据挖掘在零售银行客户关系管理中的应用分析 蔡洋萍1 (湖南农业大学经济学院湖南长沙 410128) 摘要:银行传统的商业模式发生了巨大变化,银行之间的竞争也日趋激烈。其竞争焦点由产品的竞争转变为争夺客户的竞争,拥有客户也就意味着拥有了市场,就能在激烈的竞争中取胜。因此,客户关系管理正越来越受到银行的重视。商业银行要获取客户,就需要深入了解客户的偏好,明晰客户需求。数据挖掘正是达到这一目的实现有效客户关系管理的关键技术。研究分析大数据时代零售银行客户关系管理,重点分析大数据技术在零售银行客户获取、客户情绪分析、客户行为预测、客户市场细分当中的应用。 关键词:数据挖掘零售银行客户关系管理 在我国利率市场化进程不断推进的背景下,长期以往以经营传统对公存贷业务为重心的商业银行利润空间将因利差收益缩窄而营收面临考验,商业银行不得不从新思索新的经营方向与营收来源。从国际商业银行的发展历程演变看,零售银行业务将是我国商业银行新的利润增长点。但是,随着我国互联网金融在“草根”阶层的深化,商业银行面临来自利率市场化与互联网企业跨界开展金融业务的双重挑战。因此,长期以来粗放式经营零售业务的商业银行不得不开始思索其零售银行业务如何转型与发展。当前,尽管商业银行 1基金项目:湖南省社科基金项目“我国村镇银行风险控制问题研究(13YBB102)”阶段性研究成果。 作者简介:蔡洋萍(1982-),女,汉族,江西宜春人,金融学博士,湖南农业大学经济学院讲师,研究方向:中小企业融资、农村金融。 联系方式:,E-mail,地址:长沙市芙蓉区湖南农业大学经济学院 410128。

分析报告、统计分析和数据挖掘的区别

分析报告、统计分析和数据挖掘的区别 关于数据挖掘的作用,Berry and Linoff的定义尽管有些言过其实,但清晰的描述了数据挖掘的作用。“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力(insight)”。 举个例子说。 你看到孙悟空跟二郎神打仗,然后写了个分析报告,说孙悟空在柔韧性上优势明显,二郎神在力气上出类拔萃,所以刚开始不相上下;结果两个人跑到竹林里,在竹子上面打,孙悟空的优势发挥出来,所以孙悟空赢了。这叫分析报告。 孙悟空要跟二郎神打架了,有个赌徒找你预测。你做了个统计,发现两人斗争4567次,其中孙悟空赢3456次。另外,孙悟空斗牛魔王,胜率是89%,二郎神斗牛魔王胜率是71%。你得出趋势是孙悟空赢。因为你假设了这次胜利跟历史的关系,根据经验作了一个假设。这叫统计分析。 你什么都没做,让计算机自己做关联分析,自动找到了出身、教育、经验、单身四个因素。得出结论是孙悟空赢。计算机通过分析发现贫苦出身的孩子一般比皇亲国戚功夫练得刻苦;打架经验丰富的人因为擅长利用环境而机会更多;在都遇得到明师的情况下,贫苦出身的孩子功夫可能会高些;单身的人功夫总比同样环境非单身的高。孙悟空遇到的名师不亚于二郎神,而打架经验绝对丰富,并且单身,所以这次打头,孙悟空赢。这叫数据挖掘。 数据挖掘跟LOAP的区别在于它没有假设,让计算机找出这种背后的关系,而这种关系可能是你所想得到的,也可能是所想不到的。比如数据挖掘找出的结果发现在2亿条打斗记录中,姓孙的跟姓杨的打,总是姓孙的胜利,孙悟空姓孙,所以,悟空胜利。 用在现实中,我们举个例子来说,做OLAP分析,我们找找哪些人总是不及时向电信运营商缴钱,一般会分析收入低的人往往会缴费不及时。通过分析,发现不及时缴钱的穷人占71%。而数据挖掘则不同,它自己去分析原因。原因可能是,家住在五环以外的人,不及时缴钱。这些结论对推进工作有很深的价值,比如在五环外作市场调研,发现需要建立更多的合作渠道以方便缴费。这是数据挖掘的价值。

Web数据挖掘在电子商务中的应用

结课论文 课程名称:数据仓库与数据挖掘 授课教师:徐维祥 论文题目:Web数据挖掘在电子商务中的应用学生姓名:王琛 学号:13120975 北京交通大学 2014年9月

Web 数据挖掘在电子商务中的应用 摘要:大数据时代已然来临,在各种信息数据都呈现出爆炸式增长的今天,不同规模的电商都在奋力追赶“大数据”发展的速率和步伐。一个全新的以信息为中心,以洞察力为导向的电商生存环境已经出现,而智慧的分析能力成为在该环境下成功的关键,以大数据为导向的效率提升,客户需求快速响应,风险把控和商业模式优化,都将成为提高商业流转速率的利器,数据挖掘和分析领域技术型、产品型的创业公司将有可能成为全新的创业机会和投资热点。数据挖掘在电子商务的发展中占有越来越重要的作用,本文重点论述Web 数据挖掘在电子商务的相关应用。 关键字:Web 数据挖掘,电子商务,内容挖掘 随着Internet 的快速发展,互联网上的各种信息飞速增长,电子商务已经成为当代经济不可或缺的重要组成部分。面对电子商务网站产生的海量信息和数据,通过Web 数据挖掘技术可以从这个庞大的信息数据集合中提取有用的信息,找到提供数据管理和使用的平台;可以合理的组织网站建设,更加人性化的给用户提供服务;可以从无限量的网络信息中迅速找到用户最为需求的信息,从而更好的有针对性的销售自己的产品。电子商务中的Web 数据挖掘,主要是从其中挖掘出有效的、新颖的、有价值的,潜在的有用的市场信息,从而进行正确的商业决策。 1 概述 1.1Web 数据挖掘技术 Web 数据挖掘技术是随着电子商务的发展应运而生的技术,是指从海量的Web 信息仓库中进行浏览的相关数据中发现潜在有用的、隐含的模式或关联信息。Web 数据挖掘技术在电子商务中有广泛的应用,能对客户的访问方式、订单详情等进行挖掘,获取其购买行为特点,跟踪发现用户的访问习惯,以此来改进网页设计机构,实现智能化、个性化的用户界面。1 1.2Web 数据挖掘的分类 Web 挖掘通常基于Web 数据类型的分类进行划分。Web 数据类型主要包含三种:一类 1

数据挖掘复习知识点整理超详细

必考知识点: 信息增益算法/ ID3决策树(计算) (详细见教材) 使用朴素贝叶斯分类预测类标号(计算) FP-TREE(问答) (详细见教材) 数据仓库的设计(详见第二章)(问答) (见PPT) 数值规约Equi-depth、equi-width、v-optimal、maxdiff(问答) (详细见教材) BUC (这个也要考,但不记得怎么考的了) 后向传播神经网络(名词解释) K-平均,K-中心点,DBSCAN 解析特征化(这个也要考) 总论 数据挖掘:是从大量数据中发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。 挖掘流程: (1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识 概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过(1)数据特征化:目标类数据的一般特性或特征的汇总;(2)数据区分:将目标类数据的一般特性与一个或多个可比较类进行比较;(3)数据特征化和比较来得到。 关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。 分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)。 预测:建立连续值函数模型,预测空缺的或不知道的数值数据集。 孤立点:与数据的一般行为或模型不一致的数据对象。 聚类:分析数据对象,而不考虑已知的类标记。训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。 第二章数据仓库 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。 联机事务处理OLTP:主要任务是执行联机事务和查询处理。 联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

数据分析与挖掘在金融方面的应用

数据挖掘在操作风险的量化和管理中的应用 根据《新巴塞尔资本协议》()给出的定义,“操作风险是指由于不正确的内部操作流程、人员、系统或外部事件所导致的直接或间接损失的风险。”这一定义侧重于从操作风险的成因包括法律方面的风险,但将策略风险和声誉风险排除在外。随着世界经济和银行业的发展,多种可供分析的操作风险管理方法正在逐渐的形成,商业银行多年来一直试图对它进行一定程度的控制,定性并尝试测量这一风险,作为非金融机构的财务公司也不例外。在量化模型技术的推动下,操作风险量化测评和管理的技术获得了相当大的发展。操作风险管理能通过减少风险、改善服务质量和降低经营成本,从而形成一种竞争优势并在股东价值中得到相应体现。本文拟从数据分析与挖掘角度入手,对财务公司操作风险的量化测评和管理进行初步探讨和简要分析。 一、解决问题的整体思路 财务公司要实现科学且合理的对操作风险进行量化测评与管理,一般要进行以下几个步骤的工作:数据挖掘→数据分析→模型构建→模型检验。其具体思路如下图所示: 图:操作风险量化测评和管理的整体思路

分类梳理,明确其业务流程,找出关键节点,并在关键节点处科学设置风险监测指标,通过对风险监测指标的观测来纵向监控各业务模块的操作风险。需要注意的是,依据对操作风险模型构建的要求,财务公司在设置风险检测指标时,将这些指标划分为操作风险事件发生频率指标(以下简称为“频率指标”)和操作风险事件损失指标(以下简称为“损失指标”)。在完成风险指标设置的工作后,财务公司对上述指标进行横向分类,即按照人员、系统、流程和外部事件所引发的四类风险,将上述风险监测指标分别归类于七种表现形式:内部欺诈,外部欺诈,聘用员工做法和工作场所安全性,客户、产品及业务做法,实物资产损坏,业务中断和系统失灵,交割及流程管理。财务公司通

通过数据挖掘技术预测学生学习成绩

在教育教学活动中,教学质量的好坏与教学条件、教师业务水平有关外,更重要的是学习的主体--学生。学生学习成绩好坏除智力因素外,还有多方面的因素,最重要的是学习方法。为使学生能提高学习效率,有正确的学习方法,从而提高学习成绩,本文介绍了在SQLServer2000下采用决策树挖掘方法,在若干影响学生学习成绩的环节中,找出关键环节,从而实现数据挖掘功能。 一、数据挖掘的的知识 1.数据挖掘的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。 2.数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。 3.数据挖掘的主要功能数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下几类功能: (1)自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。 (2)关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。 (3)聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。 另外还有概念描述、偏差描述等。 4.决策树方法的主要优点 数据挖掘的常用技术有人工神经网络、决策树、遗传算法等。而本文采用决策树技术对数据进行挖掘,相对于其他挖掘方法,决策树方法应用最为广泛,其独特的优点主要包括: (1)学习过程中使用者不需要了解很多背景知识,只要训练事例能够用属性――结论的方式表达出来,就能用该算法进行学习; (2)决策树的分类模型是树状结构,简单直观,比较符合人类的的理解方式; (3)可以将决策树中到达每个叶节点的路径转换为IF-THEN形式的分类规则,这种形式更有利于理解。 二、通过数据挖掘预测学生学习成绩 通过SQLServer自带的数据挖掘功能,利用决策树实现了对影响学习成绩的关键环节的挖掘,具体过程如下: 1.数据收集与描述收集、描述数据是个数据挖掘工作中相当重要的一部分工作。我们首先找出影响学生学习成绩的多方因素,然后从学生角度分析,刨除智力因素外,在学习环节上,将影响学生学习成绩的因素大致分为:1)课前预习;2)按作息时间学习;3)上课记笔记;4)课后复习;5)独立完成作业。然后进行数据采集,数据来源为山东信息职业技术学院软件系软件技术专业的两个班。 2.数据预处理为保证数据质量,在调查之前对学生明确调查的目的、意义,使学生反馈的数据尽可能真实、准确。在取得数据后,对不合格数据予以剔除。参加调查的学生98名,实际取得合格数据93个。加入学习成绩属性,学习成绩属性值根据两个学期评定,把百分制换为上等、中等、较差。这93个数据中学习成绩居上等水平的29个,居中等水平的44个,成绩较差的20个。其中调查的5项数据项为条件属性,学习成绩属性为类别属性。最后得到的数据如表1所示。 表 1经过预处理后的数据 数据项说明: 课前预习中的A、B、C分别代表经常预习、时有预习、基本不预习。 按时学习中的A、B、C分别代表严格、比较严格、一般。 记笔记中的A、B、C分别代表多数都记、记的一般、偶尔记。 完成作业中的A、B、C分别代表独立完成、参考完成、抄袭完成。 课后复习中的A、B、C分别代表经常复习、时有复习、偶尔复习。 学习成绩中的A、B、C分别代表上等、中等、较差。 3.数据挖掘实现 1)建立数据表:在SQLServer中建立数据库后,建立相应的表,并在表中录入相应的数据。 2)设置数据源:在控制面板中设置数据源,连接的数据库为我们新建的库。 3)在SQLServer中进行数据挖掘的过程:启动AnalysisManager,在AnalysisManager树视图中展开“AnalysisServers”,单击服务器名称,建立与AnalysisServers的连接;右击服务器名称,单击“新建数据库”命令;右击建立的数据库下的“数据源”文件夹,单击“新数据源”命令;在“数据链接属性”对话框中,单击“提供者”选项卡,然后选中“MicrosoftOLEDBProviderforODBCDrivers”,单击“连接”选项卡,从“使用数据源名称”列表中单击选中数据库。创建揭示客户模式的数据挖掘模型,在AnalysisManager树窗格中右击“挖掘模型”文件夹,单击“新建挖掘模型”命令;打开挖掘模型向导,通过向导建立挖掘模型。依据学习成绩为A的读取客户决策树,如图1所示。 图1 从图1所示的决策树及结点颜色(颜色深,表示(下转第102页) 通过数据挖掘技术预测学生学习成绩 张兴科王浩 (合肥工业大学计算机与信息学院安徽合肥230000) 摘要:介绍了数据挖掘的基本知识,数据挖掘的功能与方法,并通过数据挖掘,找出了影响学生学习成绩的关键环节。 关键词:数据挖掘;知识;决策树;学习 Abstract:Thispaperintroducesthebasicknowledge,thefunctionandthemethodofdatamining.Basedondatamining,wecanfindkeyproblemsthatinfluencethestudents’mark. Keyword:datamining;knowledge;dimensiontree;study 序号课前预习按时学习记笔记完成作业课后复习学习成绩 1CCBBDB 2BBBAAB 3BABBCB 4ABBAAB 5ACAAAB ︰︰︰︰︰︰︰ 43

互联网数据挖掘期末考试简答题

1、 简述自然语言处理领域的歧义现象 在分词,词形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。 在分词,词性,句法,语义,语用方面有歧义

2、 简述布尔检索的优缺点 布尔模型的优点 简单 对查询严格掌控 布尔模型的缺点 1、一般用户难以构造布尔查询,耗时耗力 ? 例如:早期文献检索要依赖检索专家 2、检索结果文档无法排序 ? 匹配或不匹配 3、根据布尔运算进行严格匹配,导致过少或过多的检索结果 3、 简述PageRank算法的基本思想 ?出度是指页面的超链接数 pagerank是标识网页的等级/重要性的方法。 一个网页的pagerank值由所有链向它的网页决定。链向该网页的网页越多则该网页等级越高;反之越低。 比如A网页链向B网页,则A的所有者认为B比较重要,就把A的一部分重要性得分赋予B,该重要性得分是pagerank(A)/outlinks(A),也就是A的pagerank值除以A的出度。A的pagerank值是所有链向它的网页的重要性得分的总和。

4、 简述倒排索引的构建过程与好处 倒排索引(inverted index) 以关键词为核心对文档迚行索引 帮劣快速地找到文档中所包含的关键词 可看作链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词的频率,该词的位置等 倒排文件的实现过程是:先得到顺排文件,然后根据顺排文件得到倒排文件,从而实现由关键字来索引网页。 假设有网页P1,P2,……,Pn,给每个网页文件赋予一个编号Pid,给每个关键字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键字在网页文件中出现的次数,表示该关键字在网页文件中的位置信息。首先将网页内容切分成一系列关键字:Pi={Key1,key2,…,keyn}。建立以下顺排文件: P1={[n1,Key1(hit1,hit2,…,hitn)],…,[nx,keyi(hit1,hit2,…,hitx)] } P2={[n1,Key1(hit1,hit2,…,hitn)],…,[nn,keyk(hit1,hit2,…,hitn)] } ………… Pn={[n1,Key1(hit1,hit2,…,hitn)],…,[ny,keyj(hit1,hit2,…,hity)] } 顺排文件是以网页来索引关键字的,即形式为(网页→关键字),不符合搜索引擎的需要。因此,需进行倒排处理,以关键字来索引网页,即形式为(关键字→网页): Keyi→{[Pid1,ni1(hit1,hit2,…,hitni1)],…,[Pidn,nin(hit1,hit2,…,hitnin)]}

web数据挖掘总结

一、数据挖掘 数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含 在其中的有用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从 Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从 Web 文档结构和试用的集合中发现隐含的模式。 数据挖掘涉及的学科领域和方法很多,有多种分类法。 (1)根据挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序 数据库、DNA 数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等; (2)根据挖掘方法分:机器学习方法、统计方法、神经网络方法和数据库 方法等; a. 机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。 b.统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。 c. 神经网络方法可细分为:前向神经网络(BP 算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。 (3)根据开采任务分:可分为关联规则、分类、聚类、时间序列预测模型 发现和时序模式发现等。 a.关联规则:典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法,是A.Agrawal和R.Srikandt于1994年提出的,它是目前除AIS 算法、面向SQL的SETM 算法外几乎所有频繁项集发现算法的核心,其基本思想是: 如果一个项集不是频繁集,则其父集也不是频繁集,由此大大地减少了需要验证的项集的数目,在实际运行中它明显优于AIS 算法。 Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是 从事务数据库、关系数据库和其他数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则可以分为两步: 1)找出所有频繁项集.这部分主要由后面介绍的Apriori算法来解决. 2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信 度. b.分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多,包括决策树方法、统计学方法、神经网络方法、最近邻居方法等等。其中,基于决策树的分类方法与其它的分类方法比较起来,具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的准确度等优点。

相关文档
最新文档