基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具

箱与数据挖掘云

来源：南京大学计算机科学与技术系作者：高阳，杨育彬，商琳时间：2011-06-27 浏览次数：60

一基于云计算的海量数据挖掘

2008年7 月，《Communications of the ACM》杂志发表了关于云计算的专辑，云计算因其清晰的商业模式而受到广泛关注，并得到工业和学术界的普遍认可。目前工业界推出的云计算平台有Amazon公司的EC2和S3，Google公司的Google Apps Engine, IBM公司的Blue Cloud，Microsoft公司的Windows Azure, Salesforce公司的Sales Force, VMware公司的vCloud，Apache软件开源组织的Hadoop等。在国内，IBM与无锡市共建了云计算中心，中石化集团成功应用IBM的云计算方案建立起一个企业云计算平台。阿里巴巴集团于2009年初在南京建立电子商务云计算中心。

严格的讲，云计算是一种新颖的商业计算模型，它可以将计算任务分布在大量互连的计算机上，使各种应用系统能够根据需要获取计算资源、存储资源和其他服务资源。Google公司的云平台是最具代表性的云计算技术之一，包括四个方面的主要技术：Google文件系统GFS、并行计算模型MapReduce、结构化数据表BigTable和分布式的锁管理Chubby。基于以上技术，云计算可以为海量数据处理和分析提供一种高效的计算平台。简单来说，将海量数据分解为相同大小、分布存储，然后采用MapReduce模型进行并行化编程，这种技术使Google公司在搜索引擎应用中得到了极大的成功。

然而MapReduce计算模型适合结构一致的海量数据，且要求计算简单。对于大量的数据密集型应用（如数据挖掘任务），往往涉及到数据降维、程序迭代、

近似求解等等复杂的算法，计算非常困难。因此，基于云计算的海量数据挖掘技术成为了工业界和学术界共同关心的热点技术之一。

分布式计算是解决海量数据挖掘任务，提高海量数据挖掘效率的方法之一。目前，分布式数据挖掘技术主要有基于主体（agent）的分布式数据挖掘、基于网格的分布式数据挖掘、基于云的分布式数据挖掘等。海量数据挖掘另一个核心问题是数据挖掘算法的并行化。图1给出基于云计算的海量数据挖掘服务的层次结构图。

图1 基于云计算的海量数据挖掘服务的层次结构图中国移动研究院从2007年3月份启动“大云”的研发工作。2008年，中国移动研究院已建设有256个节点、1024个CPU、256TB存储的云平台。中国移动“大云”平台主要为数据挖掘、系统评估、搜索等应用提供计算服务。在开源Hadoop云平台上，中科院计算所研制了并行数据挖掘工具平台PDMiner。针对海量数据，云计算分别从数据挖掘模式和方法等方面进行相关的研究。与此同时，中科院深圳先进研究院还研制了一个分布式数据挖掘系统AlphaMiner。

本文首先讨论了海量数据挖掘的研究热点；其次基于开放的Hadoop平台，讨论并行数据挖掘算法工具箱和数据挖掘云的设计。

二技术热点

云计算是一种资源利用模式，它能以简便的途径和以按需的方式通过网络访问可配置的计算资源，快速部署资源。在这种模式中，应用、数据和资源以服务的方式通过网络提供给用户使用。大量的计算资源组成资源池，用于动态创建高度虚拟化的资源以供用户使用。但对于海量数据分析任务，云平台缺乏针对海量数据挖掘和分析算法的并行化实现。因此面向海量数据挖掘的新型云计算模式，主要包括海量数据预处理、适合于云计算的海量数据挖掘并行算法、新型海量数据挖掘方法和云计算数据挖掘工具箱等技术。

（1）海量数据预处理。为了适合并行处理，云平台应可以提供海量数据的概念分层组织以及海量数据的并行加载；并实现高维度约减和数据稀疏化技术，提高数据管理和挖掘的效率。

（2）适合于云计算的海量数据挖掘并行算法。海量数据挖掘的关键问题是数据挖掘算法的并行化。而云计算采用MapReduce 等新型计算模型，这意味着现有的数据挖掘算法和并行化策略不能直接应用于云计算平台下进行海量数据挖掘，需要进行一定的改造。因此需要深入研究数据挖掘算法的并行化策略，继而实现高效的云计算并行海量数据挖掘算法。并行海量数据挖掘算法包括并行关联规则算法、并行分类算法和并行聚类算法，用于分类或预测模型、数据总结、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现等。在此基础上，针对海量数据挖掘算法的特点对已有的云计算模型进行优化和扩充，使其更适用于海量数据挖掘。

（3）新型海量数据挖掘方法。新型海量数据挖掘方法包含面向同构数据、异构数据和跨域数据的不同的数据挖掘新方法。在同构海量数据挖掘系统中，各个节点存储的数据都具有相同的属性空间。云平台采用集成学习的方式来生成最终的全局预测模型。并在同构节点的元学习基础上，实现数据挖掘增量学习方法，已满足实时要求；在异构海量数据挖掘系统中，云平台根据数据模态，将数据节点分类，并提供异构数据相关性度量和集成机制。除此之外，由于数据挖掘应用的特殊性，云平台能提供对海量数据迁移挖掘方法的支撑，以便扩充云计算环境下数据挖掘应用的适用范围，更好地满足数据挖掘终端用户的需求。

（4）并行数据挖掘工具箱。海量数据挖掘应用系统开发前，都会对采用的算法进行性能的评估。目前已有的Weka工具箱采用的是单机算法，不能应用在基于云计算的海量数据挖掘应用中。Apache组织近年来组织了Mahout开源项目，设计用于云平台的数据挖掘算法。但Mahout项目目前还缺少数据准备、数据展示和用户交互，还不完全适合海量数据挖掘并行算法的性能评估。因此，云平台应可以提供一个基于MapReduce计算模型的并行数据挖掘工具箱，用于海量数据挖掘并行算法的性能评估。

在网格计算研究中，国际研究者研发了多个基于网格的复杂数据分析任务的服务系统，如Data Mining Grid、Grid Miner等等。在这些系统中，实现了复杂数据分析任务的工作流定义、资源调度和管理的透明化、具体算法的注册和服务化等。以上部分技术可以直接迁移到云计算平台上，但由于云计算模式和数据挖掘服务的特殊性，仍需在按需服务、多任务调度和分配等技术上进行进一步的突破。具体技术内容包括：

（1）按需服务的自治计算模式。将海量数据挖掘任务的服务化，设计并实现并行数据挖掘软件自配置、自优化、自修复和自保护的方法，以及自适应用户需求的数据挖掘服务的自动发现和组合算法。

（2）多任务的动态分配机制。海量数据挖掘应用往往是数据密集，且具有突发性的特点；除此之外，不同的数据挖掘应用对算法精度、性能要求也不一致。因此，基于云计算的海量数据挖掘必须优化负载调节的策略与任务迁移策略等。

（3）数据挖掘服务的动态按需迁移。云平台提供支持海量数据挖掘任务的服务重定位方法，即当一个服务器上运行中的服务按需迁移到另一个服务器上去时，能同时有效地为后继工作流任务提供可用的资源空间，并满足整合服务器资源的需要。在资源管理和配置中，针对海量数据的大规模和异构等特点，运用虚拟化技术进行存储管理，并设计一种新型的动态迁移架构。

（4）复杂数据挖掘任务服务平台。在Hadoop等云平台上，设计支持复杂数据挖掘任务服务化的中间件系统。支持复杂数据分析任务的流定义、复杂数据分析任务的动态配置、并行算法的注册、云平台资源的调度和管理的透明化，最终实现复杂数据分析任务的按需服务。

三基于Hadoop的并行数据挖掘算法工具箱——Dodo

Weka是由新西兰Waikato大学研发的数据处理和知识发现软件包。其可以实现数据预处理、聚类、分类、回归、特征选择、可视化等各种数据挖掘的任务。Weka被广泛用于各种数据挖掘任务中算法的评估。但其中数据挖掘算法的实现是基于单机实现的。与Weka不同的是，Apache组织基于Hadoop平台的，采用MapReduce计算模型，实现大量机器学习算法的并行化，并将其封装在Mahout 项目。但由于Mahout并不提供一种图形界面交互，用户需要大量手工配置数据和参数，同时目前实现的并行数据挖掘算法也不完全。因此有必须借鉴Weka和Mahout的优点，研发一个基于Hadoop的并行数据挖掘算法工具箱——Dodo。表1给出三个工具箱目前的主要异同点。

表1 Weka, Mahout和Dodo主要异同

图2 Dodo工具箱运行流程

在图2中，如果用户是首次启动工具箱，需要选择连接的Hadoop环境并对环境进行配置；当用户需要上传数据，工具箱以树形图的形式，将用户的数据上传到指定的Hadoop路径上；如果不是顺序数据，工具箱则将其顺序化然后存储；在算法选择阶段，用户可以选择工具箱自带的并行化数据挖掘算法，也可以选择用户指定的、本地的jar文件；通过工具箱，用户能对选择的算法进行设置，其中包括输入输出路径，算法特定的参数等等；最后在Hadoop环境上对指定输入路径上的数据运行指定的算法，输出结果以可视化的方式展示给用户。

图3 Dodo工具箱模块结构图

图3中，将Dodo工具箱分为用户交互层、内部实现层以及Hadoop交互层等三个层次。用户交互层主要负责结果展示、算法选择等需要和用户进行交互的操作；内部实现层是Dodo的核心部分，负责与上层和下层进行交互，将一些操作进行抽象供两层进行调用；而Hadoop交互层主要是负责和Hadoop平台进行相应的操作，进行相关的平台配置或者数据上传或读写。

四数据挖掘云

不同于其他的企业应用，将数据挖掘应用服务化，具备以下4个非常特殊的特点：

（1）简单化的工作流。数据挖掘应用从工作流角度来看，相对非常简单。应用中没有复杂的流程，也没有很多不同的角色。但数据挖掘应用仍然是一个工作流。因此将其服务化时，需要提供一个可视化的工作流编辑、管理界面，云平台也要提供对工作流引擎的监控。

（2）丰富的算法选择。不同于企业应用，在数据挖掘应用实现一个具体的挖掘任务有很多种算法。在很多情况下，每种算法的性能和效率都有可能不一样。

（3）结果的不确定性。数据挖掘任务中，选择不同的数据和算法，将有可能导致不同的计算结果。

（4）应用的突发性。很多的数据挖掘应用的请求会随着时间、空间呈现出突发性，这对资源提出了很高的“伸缩性”需求。

从以上特点可以看出，数据挖掘服务是一种真正的按需服务。用户可以根据自己的需求以及付费能力选择适合自己的服务模式。因此，所谓数据挖掘云是指在hadoop平台上提供支持复杂数据挖掘任务的服务系统，此系统能够提供复杂数据挖掘任务的工作流定义、资源调度、算法和工具以web service的方式向外提供服务。

数据挖掘云的结构如图4所示：

图4 数据挖掘云

数据挖掘云的最底层是扩展云计算平台Hadoop的功能，实现HDFS数据管理、算法管理和资源监控，其中算法管理模块集成了各种基于MapReduce的工具箱，以向上提供算法服务。数据挖掘云的底层组件中，需要根据云服务的自适应需求，实现优化的资源分配和任务调度。数据挖掘云的中间层是数据挖掘云高层服务，包括目录服务、效用服务、数据服务和算法服务等核心组件。而最上层是客户端组件，主要用于与用户的直接交互。用户通过友好的可视化界面管理和监视任务的执行，并且很方便地查看任务执行结果。

在数据挖掘云的设计中，核心的组件有以下6个：

（1）目录服务：各种资源都能以目录的方式展示给用户，用户可以方便地展开目录查看所有可用的资源。

（2）资源分配和任务调度服务：把上层生成的执行计划映射到具体的计算资源和节点上，然后进行任务的调度和执行。

（3）数据访问服务：用户根据自己的任务，需要查找、上传或下载所需要的数据，数据访问服务为用户提供了良好的接口让用户方便进行这些操作。

（4）算法和应用访问服务：用户在编辑工作流的时候，需要查找满足需求的算法和应用，算法和应用服务提供了良好的接口让用户方便数据和应用的访问。

（5）流管理服务：流管理服务包括工作流的编辑和执行，以及用户对流的执行过程的监控和控制，并且在执行过程中会生成相应的日志。

（6）结果展示服务：任务执行完毕以后，用户需要查看任务的执行结果，结果展示可能包含多种方式，图状的、表格式的、文本式的等方式。

五总结

综上所述，本文讨论了基于云计算的海量数据挖掘的进展和主要技术热点，并分析了基于Hadoop平台的数据挖掘算法工具箱和数据挖掘云的结构。Dodo工具箱主要实现海量数据挖掘算法MapReduce化，以提高对海量数据的处理能力。在工具箱实现中，强调与Hadoop平台的交互式配置，迭代/非迭代类数据挖掘算法的并行化实现。在数据挖掘云服务中，为使海量数据挖掘应用服务化，提供从Hadoop资源分配到目录服务，再到流管理等一系列的组件服务，继而提高海量

数据挖掘软件的服务能力。作为能为企业效益增值的数据挖掘应用，本质上具备了请求突发、需求多变，结果依赖于数据和算法的特点，因此必须进一步优化云计算平台，提高云平台对按需服务的支撑能力。

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）单选题 1．下面哪种分类方法是属于神经网络学习算法？（） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4．数据归约的目的是（） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？ A.数据清理 B.数据集成 C.数据变换 D.数据归约 6．假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8．关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

Hadoop大数据平台架构与实践--基础篇

Hadoop大数据平台架构与实践--基础篇大数据时代已经到来，越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop，作为一个开源的分布式并行处理平台，以其高扩展、高效率、高可靠等优点，得到越来越广泛的应用。本课旨在培养理解Hadoop的架构设计以及掌握Hadoop的运用能力。导师简介 Kit_Ren，博士，某高校副教授，实战经验丰富，曾担任过大型互联网公司的技术顾问，目前与几位志同道合的好友共同创业，开发大数据平台。课程须知本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～你能学到什么？ 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理大纲一览第1章初识Hadoop 本章讲述课程大纲，授课内容，授课目标、预备知识等等，介绍Hadoop的前世今生，功能与优势第2章 Hadoop安装本章通过案例的方式，介绍Hadoop的安装过程，以及如何管理和配置Hadoop 第3章 Hadoop的核心-HDFS简介本章重点讲解Hadoop的组成部分HDFS的体系结构、读写流程，系统特点和HDFS

的使用。第4章 Hadoop的核心-MapReduce原理与实现本章介绍MapReduce的原理，MapReduce的运行流程，最后介绍一个经典的示例WordCount 第5章开发Hadoop应用程序本章介绍在Hadoop下开发应用程序，涉及多个典型应用，包括数据去重，数据排序和字符串查找。课程地址：https://www.360docs.net/doc/8611178948.html,/view/391

19款最好用的免费数据挖掘工具大汇总

数据在当今世界意味着金钱。随着向基于app的世界的过渡，数据呈指数增长。然而，大多数数据是非结构化的，因此需要一个过程和方法从数据中提取有用的信息，并将其转换为可理解的和可用的形式。数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange，到各种用Java、c++编写的库，最常见的是Python。数据挖掘中通常涉及到四种任务: 分类:将熟悉的结构概括为新数据的任务聚类:在数据中以某种方式查找组和结构的任务，而不需要在数据中使用已注意的结构。关联规则学习:查找变量之间的关系回归:旨在找到一个函数，用最小的错误来模拟数据。下面列出了用于数据挖掘的免费软件工具数据挖掘工具 1.Rapid Miner

Rapid Miner，原名YALE又一个学习环境，是一个用于机器学习和数据挖掘实验的环境，用于研究和实际的数据挖掘任务。毫无疑问，这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写，通过基于模板的框架提供高级分析。它使得实验可以由大量的可任意嵌套的操作符组成，这些操作符在xmxxxxl文件中是详细的，并且是由快速的Miner的图形用户界面完成的。最好的是用户不需要编写代码。它已经有许多模板和其他工具，让我们可以轻松地分析数据。 2. IBM SPSS Modeler

IBM SPSS Modeler工具工作台最适合处理文本分析等大型项目，其可视化界面非常有价值。它允许您在不编程的情况下生成各种数据挖掘算法。它也可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。 3.Oracle Data Mining

云平台建设思路

云平台建设原则 1、标准化当前云服务在整个信息产业中还不够成熟，相关的标准还没有完善。为保障方案的前瞻性，在设备选型上力求充分考虑对云服务相关标准的扩展支持能力，保证良好的先进性，以适应未来的信息产业化发展。 2、高可用为保证数据业务网的核心业务的不中断运行，在网络整体设计和设备配置上都是按照双备份要求设计的。在网络连接上消除单点故障，提供关键设备的故障切换。关键设备之间的物理链路采用双路冗余连接，按照负载均衡方式或active-active方式工作。关键主机可采用双路网卡来增加可靠性。全冗余的方式使系统达到电信级可靠性。要求网络具有设备/链中故障毫秒的保护倒换能力。具有良好扩展性，网络建设完毕并网后应可以进行大规模改造、服务器集群、软件功能模块应可以不断扩展。良好的易用性。简化系统结构，降低维护量。对突发数据的吸附，缓解端口拥塞压力，能保证业务的流畅性等。 3、增强二级网络云平台下，虚拟机迁移与集群式两种典型的应用模型，这两种模型均需要二层网络支持。随着云计算资源池的不断扩大，二层网络的范围正在逐步扩大，甚至扩展到多个数据中心内，大规模部署二层网络则带来一个必然的问题就是二层环路问题。采用传统的STP+VRRP技术部署二层网络时会带来部署复杂、链路利用率低、网络收敛时间慢等诸多问题，因此网络方案的设计需要重点考虑增强二级网络技术（如IRF/VSS、TRILL等）的应用，以解决传统技术带来的问题。 4、虚拟化虚拟资源池化是网络发展的重要趋势，将可以大大提高资源利用率，降低运营成本。应有效开展服务器、存储的虚拟资源池技术建设，网络设备的虚拟化也应进行设计实现。服务器、存储器、网络及安全设备应具备虚拟化功能。

Hadoop大数据平台介绍

Hadoop是什么 Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware

Hadoop名字的由来 Hadoop was created by Doug Cutting and Mike Cafarella in 2005 Named the project after son's toy elephant

从移动数据到移动算法

Hadoop的核心设计理念?可扩展性 ?可靠性

相对于传统的BI 架构转变数据仓库电子表格视觉化工具数据挖掘集成开发工具数据集市企业应用工具传统文件日志社交& 网络遗留系统结构化非结构化音视频数据应用非关系型数据库内存数据库NO SQL 应用 Nod e Nod e Nod e Hadoop * Web Apps MashUps 导出/导入INSIGHTS 消费Create Map 存储/计算实时数据处理通道（Spark,Storm)数据交换平台数据存储计算平台数据访问层Kafka Flume Goldengat e Shareplex ..传感器传感器

hadoop 的适用场景小数据+ 小计算量OLTP 业务系统：ERP/CRM/EDA 大数据+ 小计算量如全文检索，传统的ETL 小数据+大计算量D a t a Compute 数据计算实时性

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势摘要：从数据挖掘的定义出发，介绍了数据挖掘的神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点；详细总结了国内外数据挖掘的研究现状及研究热点，指出了数据挖掘的发展趋势。关键词：数据挖掘；挖掘算法；神经网络；决策树；粗糙集；模糊集；研究现状；发展趋势 Abstract：From the definition of data mining，the paper introduced concepts and advantages and disadvantages of neural network algorithm，decision tree algorithm，genetic algorithm，rough set method，fuzzy set method and association rule method of data mining，summarized domestic and international research situation and focus of data mining in details，and pointed out the development trend of data mining. Key words：data mining，algorithm of data mining，neural network，decision tree，rough set，fuzzy set，research situation，development tendency 1引言随着信息技术的迅猛发展，许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[1]。这些海量数据中往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要能自动地、智能地将待处理的数据转化为有价值的信息，从而达到为决策服务的目的。在这种情况下，一个新的技术———数据挖掘(Data Mining，DM)技术应运而生[2]。数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果，其应用非常广泛。只要是有分析价值的数据库，都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点，并对国内外的研究现状及研究热点进行了详细的总结，最后指出其发展趋势及问题所在。江西理工大学

大数据一体化教学实训平台简介

大数据一体化教学实训平台简介大数据一体化教学实训平台是由泰迪科技自主研发，旨在为高校大数据相关专业提供一体化教学实训环境及课程资源。本平台共包含9大模块：云资源管理平台、教学管理平台、大数据分析平台、Python 数据挖掘建模平台、R语言数据挖掘建模平台、大数据开发实训平台、Python编程实训平台、R语言编程实训平台、大数据整合平台。以教学管理平台、云资源管理平台为支撑，以优质的课程、项目案例资源为核心，并以自主研发的数据挖掘建模平台为实训工具，把课程、软件、硬件内容统一结合，满足高校大数据教学与实训的一体化平台。大数据一体化教学实训平台架构（总）

大数据一体化教学实训平台架构（理学方向）大数据一体化教学实训平台架构（工学方向）

大数据一体化教学实训平台特点 ?B/S架构：可直接通过客户机的浏览器对服务器端的一体化教学实训平台进行访问。?模块丰富：提供软硬件管理、教学管理、实验实训等系列模块，满足不同的教学与实训场景使用。 ?拓展性强：教师自主开设新课程、添加各种课程资源与活动，满足用户的个性化需求。?单点登录：用户只需一次登录即可访问所有的教学与实训平台，解决了登录繁琐、操作不便等问题。 ?资源一体：提供教学大纲、教学视频、教学PPT、课后习题、实验指导书、实验数据、实验代码、实验环境等一系列的教学实训资源，全方位解决实际教学与实训过程中所遇到的问题。 ?教学一体：分别提供“教”与“学”的软件环境，教学与实训模块深度融合，真正实现一体化。 ?软硬件一体：硬件环境采用云柜的方式进行搭建，内部集成机柜、服务器（部署一体化教学实训平台）、供配电、UPS、变频空调、应急通风等，整个云柜架构和谐统一、方便安装与维护。云资源管理平台简介云资源管理平台主要对实验室云虚拟化资源进行管理及维护，负责对实验室所有软件系统进行管理与监控，将云存储资源、服务器资源和网络资源整合，然后通过虚拟化搭建私有云平台，在私有云平台上搭建教学管理平台与一系列的大数据实训平台。云资源管理平台功能及特点 ●支持系统资源实时统计和监控 ●支持云主机批量操作和管理 ●支持云主机模板创建与分配 ●支持操作日志查看和可视化分析 ●支持物理服务器集群管理 ●支持基础网络与私有网络 ●云硬盘可独立挂于云主机 ●平台系统高可用，容错性强 ●云主机性能卓越，媲美物理机

Hadoop大数据平台-测试报告及成功案例

Hadoop大数据平台测试报告及成功案例

目录 1技术规范书应答书 ................................. 错误！未定义书签。2技术方案建议 ......................................... 错误！未定义书签。3测试及验收 ............................................. 错误！未定义书签。4项目实施与管理 ..................................... 错误！未定义书签。5人员资质与管理 ..................................... 错误！未定义书签。6技术支持及保修 ..................................... 错误！未定义书签。7附录 ......................................................... 错误！未定义书签。

1.1 大数据平台测试报告 1.1.1某银行Cloudera CDH 性能测试测试某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop 的历史数据平台(新HODS)，以提升平台运行效率及数据覆盖面，支撑未来大数据应用，满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH) 是否可以满足某银行HODS应用特点，主要考察点包括： ?验证产品本身的易用性、可扩展性，主要涉及集群的部署、运维、监控、升级等； ?验证产品对安全性的支持，包括认证、授权、审计三大方面； ?验证产品对资源分配的控制与调度； ?验证Hadoop基本功能，包括可靠性、稳定性、故障恢复等； ?验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。 1.1.1.1基础设施描述 1.1.1.1.1硬件配置硬件配置分为两类：管理节点(master node) 与计算节点(worker node)。管理节点配置(2) CPU Intel? Xeon? E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz (40 vcore) 内存16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width (128GB) 网络Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics

快速数据挖掘平台RapidMiner

快速数据挖掘平台RapidMiner 作为一门学科，数据挖掘对于世人来说在很大程度上是透明的。我们在大多数时间都从未注意到它的发生。但每当我们办理商店购物卡、使用信用卡购物或在网上冲浪时，都在创建数据。这些数据以大数据集形式存储在我们每天与之打交道的公司所拥有的功能强大的计算机上。存在于这些数据集之内的便是模式 - 表明我们的兴趣、习惯和行为。数据挖掘可让人们找到并解读这些模式，从而帮助人们做出更明智的决策，并更好地为客户服务。本培训旨在向您介绍数据挖掘方面的常见概念和做法。主要目标读者除了大学生之外，还有希望通过挖掘数据，使用信息系统和技术解决业务问题，但在计算机科学方面没有正式相关背景或教育经历的业务专家。尽管数据挖掘融合了应用统计、逻辑、人工智能、机器学习和数据管理系统，但您不需要在这些领域具有很强的背景即可参加本次培训，来学会使用RapidMiner。虽然学过统计学和数据库方面的初级大学课程将会有所帮助，但本培训中对成功学习如何挖掘数据需要了解的概念和技术进行了解释。 RapidMiner原名Yale，它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2013年的一次投票显示，从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性，所以很适合于数据挖掘的初学者入门。投票信息： https://www.360docs.net/doc/8611178948.html,/polls/2013/analytics-big-data-mining-data-sc ience-software.html

《快速数据挖掘平台RapidMiner》课程内容：第一课：数据挖掘基本知识RapidMiner工具介绍第二课：数据准备：导入、预处理、导出第三课：数据挖掘模型和方法第四课：K-Means 聚类与辨别分析第五课：线性回归与逻辑回归第六课：决策树与神经网络第七课：文本挖掘第八课：WEB挖掘第九课：协同过滤、推荐第十课：时间序列分析第十一课：离群点分析第十二课：模型评估-交叉验证与模型优化化第十三课：过程控制第十四课：数据转换与执行命令本课程各章节围绕实际挖掘分析业务需求，对挖掘工作中常用的各种算法应用方式、过程都做了阐述，各章节所需试验数据也专门打包，可供读者下载使用。授课对象：本课程适合已经有一定的IT基础，但对数据挖掘领域尚不了解的朋友进修学习。如果您具备统计学和数据库方面的初级基础技能会更好。课程同样适用于数据分析师、IT系统架构设计及研发人员，通过简单灵活的挖掘模型定制，带领您探索发现隐藏在海量数据背后的新知识。学习收获预期：算法有一定的了解，有一定的使用RapidMiner工具解决问题的能力，能够熟练地使用RapidMiner提供的典型挖掘算法进行挖掘分析。授课讲师： TEKKEN，从事IT行业十余年，有丰富的数据分析挖掘领域知识经验。对数据清

数据挖掘简介

数据挖掘综述

数据挖掘综述摘要：数据挖掘是一项较新的数据库技术，它基于由日常积累的大量数据所构成的数据库，从中发现潜在的、有价值的信息——称为知识，用于支持决策。数据挖掘是一项数据库应用技术，本文首先对数据挖掘进行概述，阐明数据挖掘产生的背景，数据挖掘的步骤和基本技术是什么，然后介绍数据挖掘的算法和主要应用领域、国内外发展现状以及发展趋势。关键词：数据挖掘，算法，数据库 ABSTRACT：Data mining is a relatively new database technology, it is based on database, which is constituted by a large number of data coming from daily accumulation, and find potential, valuable information - called knowledge from it, used to support decision-making. Data mining is a database application technology, this article first outlines, expounds the background of data mining , the steps and basic technology, then data mining algorithm and main application fields, the domestic and foreign development status and development trend. KEY WORDS: data mining ,algorithm, database 数据挖掘产生的背景上世纪九十年代．随着数据库系统的广泛应用和网络技术的高速发展，数据库技术也进入一个全新的阶段，即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据，并且数据量也越来越大。在给我们提供丰富信息的同时，也体现出明显的海量信息特征。信息爆炸时代．海量信息给人们带来许多负面影响，最主要的就是有效信息难以提炼。过多无用的信息必然会产生信息距离(the Distance of Information-state Transition，信息状态转移距离，是对一个事物信息状态转移所遇到障碍的测度。简称DIST或DIT)和有用知识的丢失。这也就是约翰·内斯伯特(John Nalsbert)称为的“信息丰富而知识贫乏”窘境。因此，人们迫切希望能对海量数据进行深入分析，发现并提取隐藏在其中的信息．以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能，无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下，数据挖掘技术应运而生。数据挖掘的步骤在实施数据挖掘之前，先制定采取什么样的步骤，每一步都做什么，达到什么样的目标是必要的，有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型，来指导他们的用户一步步的进行数据挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。数据挖掘过程模型步骤主要包括：1定义商业问题；2建立数据挖掘模型；3分析数据；4准备数据；5建立模型；6评价模型；7实施。 1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了

搭建基于云计算的开源海量数据挖掘平台

应用实践搭建基于云计算的开源海量数据挖掘平台赵华茗 (中国科学院国家科学图书馆北京100190) 摘要通过分析亚马逊弹性M apR e duce(EMR )平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术X en 和H adoop 平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR 平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作H adoop 虚拟服务器模板、配置运行C l oudera 和C l oudera D esktop 。通过开源EMR 架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。关键词云计算海量数据挖掘虚拟技术分布式计算 Xen Cloudera H adoop 分类号 TP393 Buil di ng t he Open SourceM ass DataM i ni ng Platform Based on C l oud Co mputi ng Zhao H ua m ing (N ational Sci ence L i brary ,Ch i nese A cade m y o f Sciences ,Beijing 100190,Ch i na) Abstract A m i i ng to m eet the i nter nal data processi ng needs of inf or m ati on organizati ons ,t h is paper ,by analyzi ng the fra m e wor ks o f Am azon E last i c M ap/R e duce (EM R )pl atfor m,puts for w ard to buil d t he dyna m ic and e l astic open source m ass datam i n i ng platfor m based on cloud co mputi ng ,and provides a road m ap of successful m i ple m entati on ,an exa mple of m assive text data processing and the analysis of advantages of open source EM R platf or m.This m i ple m entati on plan i ncl udes three parts :buildi ng dyna m ic virtual env ir on m ent of cloud co mputi ng ,creati ng the v irtual server te mplate of H a doop ,and depl oyi ng and r unni ng Cloudera and C loudera Desktop .Through the application of open source E M R platfor m,the proble m of ser ver spra w l can be solve d effectively ,the utilization rati o of net work co mputi ng resource is m i pr oved ,and the r ap i d depl oy m ent capability a nd ag ility of distri buted data processi ng ser v ices are e nha nced . K ey words C l oud co mputi ng M ass data m i ni ng V irtualizat i on D istribute d co mputi ng X e n C l oudera H a doop 收稿日期:2010-09-26 收修改稿日期:2010-09-28 *本文系!第二十四届全国计算机信息管理学术研讨会?论文。 1 引言互联网促进了信息流通,也带来了信息的爆炸式增长,最新的I DC 研究报告指出2010年全球信息量将进入ZB 时代,并且每年以60%的速度在上升,这意味着每18个月全球信息数据量将被翻倍 [1] 。面对不断拓展的惊人的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。

数据挖掘分类实验详细报告概论

《数据挖掘分类实验报告》信息安全科学与工程学院 1120362066 尹雪蓉数据挖掘分类过程（1）数据分析介绍本次实验为典型的分类实验，为了便于说明问题，弄清数据挖掘具体流程，我们小组选择了最经典的决策树算法进行具体挖掘实验。（2）数据准备与预处理在进行数据挖掘之前，我们首先要对需要挖掘的样本数据进行预处理，预处理包括以下步骤： 1、数据准备，格式统一。将样本转化为等维的数据特征（特征提取），让所有的样本具有相同数量的特征，同时兼顾特征的全面性和独立性 2、选择与类别相关的特征（特征选择） 3、建立数据训练集和测试集 4、对数据集进行数据清理在本次实验中，我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集，该数据集已经具有等维的数据特征，主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical，一共11个维度的数据特征，其中与分类类别相关的特征为classical，它的类别有1,2两个值。详见下表：本实验的主要思路是将该数据集分成训练集和测试集，对训练集进行训练生成模型，然后再根据模型对测试集进行预测。数据集处理实验详细过程：

●CSV数据源处理由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv（见下图）中间并不包含属性项，这不利于之后分类的实验操作，所以要对该文件进行处理，使用Notepad文件，手动将属性行添加到文件首行即可。 ●平台数据集格式转换在后面数据挖掘的实验过程中，我们需要借助开源数据挖掘平台工具软件weka，该平台使用的数据集格式为arff，因此为了便于实验，在这里我们要对csv文件进行格式转换，转换工具为weka自带工具。转换过程为： 1、打开weka平台，点击”Simple CLI“，进入weka命令行界面，如下图所示： 2、输入命令将csv文件导成arff文件，如下图所示: 3、得到arff文件如下图所示：内容如下：

数据挖掘流程模型CRISP-DM

CRISP-DM 1.0 数据挖掘方法论指南 Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler)

该手册描述了CRISP-DM（跨行业数据挖掘标准流程）过程模型，包括CRISP-DM的方法论、相关模型、用户指南、报告介绍，以及一个含有其他相关信息的附录。本手册和此处的信息均为CRISP-DM协会以下成员的专利：NCR Systems Engineering Copenhagen (USA and Denmark), DaimlerChrysler AG (Germany), SPSS Inc. (USA) and OHRA Verzekeringen en Bank Groep B.V (The Netherlands)。著作权? 1999, 2000 本手册中所有商标和服务标记均为它们各自所有者的标记，并且为CRISP-DM协会的成员所公认。

前言 1996年下半年，数据挖掘市场尚处于萌芽状态，CRISP-DM率先由三家资深公司共同提出。DaimlerChrysler (即后来的Daimler-Benz) 在其商业运营中运用数据挖掘的经验颇为丰富，远远领先于其他大多数商业组织。SPSS（即后来的ISL）自1990年以来一直致力于提供基于数据挖掘的服务，并于1994年推出了第一个商业数据挖掘平台——Clementine。至于NCR，作为对其Teradata数据仓库客户增值目标的一部分，它已经建立了数据挖掘顾问和技术专家队伍以满足其客户的需要。当时，数据挖掘所引起的市场关注开始表明其进入爆炸式增长和广泛应用的迹象。这既令人兴奋又使人害怕。随着我们在这条路上不断走下去，所有人都不断研究和发展数据挖掘方法。可是我们做的是否正确?是否每一个数据挖掘的新使用者都必须像我们当初一样经历反复试验和学习？此外，从供应商的角度来看，我们怎样向潜在客户证明数据挖掘技术已足够成熟到可以作为它们商业流程的一个关键部分？在这种情况下，我们认为急需一个标准的流程模型——非私人所有并可以免费获取——向我们和所有的从业者很好的回答这些问题。一年后我们组建了联盟，名字CRISP-DM取自CRoss-Industry Standard Process for Data Mining的缩写，由欧洲委员会提供资助，开始实施我们最初的想法。因为CRISP-DM的定位是面向行业、工具导向和面向应用的，所以我们明白必须“海纳百川，博采众家之长”，必须在一个尽可能宽的范围内吸引人们的兴趣（比如数据仓库制造商和管理咨询顾问）。于是我们决定成立CRISP-DM 专门兴趣小组（即大家所知道的“The SIG”）。我们邀请所有感兴趣的团体和个人到阿姆斯特丹参加为期一天的工作会议，讨论并正式成立SIG组织：我们观念共享，鼓励与会者畅所欲言，为发展CRISP-DM共商大计。当天每个协会成员都心怀惴惴，会不会没有人对CRISP-DM有足够的兴趣？即使有，那他们是否认为实际上并未看到一种对标准化流程的迫切需求？或者我们的想法迄今为止与别人的步调不一致，任何标准化的念头只是不切实际的白日梦？事实上，讨论的结果大大超出了我们的期望。下面三点最为突出：当天的与会人数是我们原先期望的两倍行业需要而且现在就需要一个标准化流程——大家压倒性的一致同意每个出席者从他们的项目经验出发陈述了自己关于数据挖掘的看法，这使我们越来越清晰地看到：尽管表述上有些区别——主要是在阶段的划分和术语方面，但在如何看待数据挖掘流程上大家具有极大的相似之处。在工作组结束的时候，我们充满了自信，受SIG的启发和批评，我们能够建成一个标准化流程模型，为数据挖掘事业作出贡献。接下来的两年半里，我们努力工作来完善和提炼CRISP-DM。我们不断地在Mercedes-Benz、保险部门的伙伴及OHRA的实际大型数据挖掘项目中进行尝试。同时也运用商业数据挖掘工具来整合CRISP-DM。SIG证明了是无价的，其成员增长到200多，并且在伦敦、纽约和布鲁塞尔都拥有工作组。到该项目的欧洲委员会支持基金部分结束时——1999年年中，我们提出了自己觉得质量优良的流程模型草案。熟悉这一草案的人将会发现，一年以来，尽管现在的CRISP-DM1.0更完整更好，但从根本上讲并没有什么本质不同。我们强烈地意识到：在整个项目中，流程模型仍然是一个持续进行的工作；CRISP-DM还只是在一系列有限的项目中得到证实。过去的一年里，DaimlerChrysler有机会把CRISP-DM运用于更为广阔的范围。SPSS和NCR的专业服务团体采纳了CRISP-DM，而且用之成功地完成了无数客户委托，包括许多工业和商业的问题。这段时间以来，我们看到协会外部的服务供应商也采用了CRISP-DM；分析家不断重复地提及CRISP-DM

基于Hadoop的大数据平台实施——整体架构设计

基于Hadoop的大数据平台实施——整体架构设计大数据的热度在持续的升温，继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据，说真的，到目前为止就和云计算一样，让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面，但是您至少要保持清醒的头脑，认真仔细的慎问一下自己，我们公司真的需要大数据吗? 做为一家第三方支付公司，数据的确是公司最最重要的核心资产。由于公司成立不久，随着业务的迅速发展，交易数据呈几何级增加，随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句，紧接着系统开始罢工，内存溢出，宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压力可以说是常人难以想象的，为了把所有离散的数据汇总成有价值的报告，可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说，工欲善其事，必先利其器。我们也该鸟枪换炮了......。网上有一大堆文章描述着大数据的种种好处，也有一大群人不厌其烦的说着自己对大数据的种种体验，不过我想问一句，到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题，好像没看到有多少评论会涉及，可能是大数据太新了(其实底层的概念并非新事物，老酒装新瓶罢了)，以至于人们还沉浸在各种美妙的YY中。做为一名严谨的技术人员，在经过短暂盲目的崇拜之后，应该快速的进入落地应用的研究中，这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话，

基于HADOOP的数据挖掘平台分析与设计

基于HADOOP的数据挖掘平台分析与设计【摘要】云计算技术的出现为数据挖掘技术的发展带来了新的机遇。云计算技术通过使存储和计算能力均匀的分布到集群中的多个存储和计算节点上，从而实现了对超大数据集的巨大的存储和计算能力。HADOOP是一个用于构建云平台的Apache开源项目。使用HADOOP框架有利于我们方便、快速的实现计算机集群。在HADOOP平台上，采用了HDFS（分布式文件系统）来实现超大文件的存储和容错，而使用了MapReduce的编程模式来进行计算。【关键词】HADOOP；数据挖掘；平台；分析；设计一、数据挖掘技术概述作为一门快速发展的技术，数据挖掘引起了信息产业界和社会的广泛关注。数据挖掘技术跨越多个学科，无论是数据库技术、机器学习、统计学、模式识别，还是神经网络，还是人工智能，数据挖掘都能从中吸取营养，不断发展。如今，随着云计算的出现和发展，数据挖掘技术迎来了新的机遇和挑战。 1.数据挖掘发展历程与分类数据挖掘由单个算法，单个系统到并行数据挖掘与服务的模式，经历了数据挖掘软件开始和数据库结合、多种数据类型融合、分布式挖掘等多个过程。到今天，数据挖掘软件发展的历程，可以说是进入基于云计算的数据挖掘。由于数据挖掘是一个交叉学科领域，是在包括机器学习，模式识别等多个学科的基础上发展而来。依赖于我们所用的数据挖掘方法，我们又可以使用其他学科的多种技术，如神经网络、模糊或粗糙集合论、知识表示等。所以，对数据挖掘的研究，我们会期望出现大量的各种类型的数据挖掘系统。这样，我们就需要对数据挖掘系统给出一个很清楚的分类。有了这种认识，我们才可以帮助用户根据其需求，确定最适合其需要的数据挖掘系统。因此，数据挖掘的分类标准也必定会出现多样化。我们可以根据挖掘的数据库类型分类，或是技术类型分类，也可以根据运用的场景分类。但是大部分情况下，我们会根据挖掘产生的知识类型进行分类，也即是根据数据挖掘的功能进行分类。 2.数据挖掘流程数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，表现形式为规则、概念、规律及模式等。数据挖掘主要由以下步骤组成： ①数据预处理数据

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS ＆SPATIAL INFOＲMATION TECHNOLOGY Vol．37，No．7收稿日期：2014－01－22 作者简介：马宏斌（1982－），男，甘肃天水人，作战环境学专业博士研究生，主要研究方向为地理空间信息服务。大数据时代的空间数据挖掘综述马宏斌1 ，王柯1，马团学 2（1．信息工程大学地理空间信息学院，河南郑州450000；2．空降兵研究所，湖北孝感432000）摘要：随着大数据时代的到来，数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题，介绍了国内外研究中利用大数据处理工具和云计算技术，在空间数据的存储、管理和挖掘算法等方面的做法，并指出了该类研究存在的不足。最后，探讨了空间数据挖掘的发展趋势。关键词：大数据；空间数据挖掘；云计算中图分类号：P208 文献标识码：B 文章编号：1672－5867（2014）07－0019－04 Spatial Data Mining Big Data Era Ｒeview MA Hong －bin 1，WANG Ke 1，MA Tuan －xue 2 （1．Geospatial Information Institute ，Information Engineering University ，Zhengzhou 450000，China ； 2．Airborne Institute ，Xiaogan 432000，China ） Abstract ：In the era of Big Data ，more and more researchers begin to show interest in data mining techniques again．The paper review most unresolved problems left by traditional spatial data mining at first．And ，some progress made by researches using Big Data and Cloud Computing technology is introduced．Also ，their drawbacks are mentioned．Finally ，future trend of spatial data mining is dis-cussed． Key words ：big data ；spatial data mining ；cloud computing 0引言随着地理空间信息技术的飞速发展，获取数据的手段和途径都得到极大丰富，传感器的精度得到提高和时空覆盖范围得以扩大，数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备，也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段，还可能是来自计算机、网络、GPS ，ＲS 和GIS 等技术应用和分析空间数据。特别是近些年来，个人使用的、携带的各种传感器（重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等），具备定位功能电子设备的普及，如智能手机、平板电脑、可穿戴设备（GOOGLE GLASS 和智能手表等），使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息（Volunteer Geographic Information ）的出现，使这些普通民众也加入到了提供数据者的行列。以上各种获取手段和途径的汇集，就使每天获取的数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ，并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间，平均每年获取8．6万景影像，每天获取67GB 的观测数据。而2012年发射的资源三号（ZY3）卫星，每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上，未来10年，全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来，那就是大数据时代。大数据具有 “4V ”特性，即数据体量大（Volume ）、数据来源和类型繁多（Variety ）、数据的真实性难以保证（Veracity ）、数据增加和变化的速度快（Velocity ）。对地观测的系统如图1所示。在这些数据中，与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用，原因是传统的科研模型不具有普适性且支持的数据量受限，受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识，这就需要利用强有力的数据分析工具来将