数据挖掘：实用案例分析

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话，“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益，这种现象就是卖场中商品之间的关联性，研究“啤酒与尿布”关联的方法就是购物篮分析，购物篮分析曾经是沃尔玛秘而不宣的独门武器，购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品，并以此获得销售收益的增长！商品相关性分析是购物篮分析中最重要的部分，购物篮分析英文名为market basket analysis(简称MBA，当然这可不是那个可以用来吓人的学位名称)。在数据分析行业，将购物篮的商品相关性分析称为“数据挖掘算法之王”，可见购物篮商品相关性算法吸引人的地方，这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。购物篮分析的算法很多，比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等，上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程，因此在这里我不介绍具体的购物篮分析算法，而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟，在进入20世纪90年代后，很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中，成为了软件产品的组成部分，客户购买了这些软件产品后就等于有了购物篮分析的工具，比如我们正在使用的Clementine。缘起 “啤酒与尿布”的故事可以说是营销界的经典段子，在打开Google搜索一下，你会发现很多人都在津津乐道于“啤酒与尿布”，可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初，甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料，我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的，这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中，沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现，这种现象出现在年轻的父亲身上。在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一，则他很有可能会放弃购物而到另一家商店，直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象，开始在卖场尝试将啤酒与尿布摆放在相同的区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物；而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件，从而获得了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal （个人翻译--艾格拉沃）提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

大数据挖掘商业案例

1.前言随着中国加入WTO，国金融市场正在逐步对外开放，外资金融企业的进入在带来先进经营理念的同时，无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会，也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题，最有价值的客户可能正离您而去，而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下，如何才能吸引、增加并保持最好的客户呢？数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。客户细分―使客户收益最大化的同时最大程度降低风险市场全球化和购并浪潮使市场竞争日趋激烈，新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出，业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术，来获取有价值的客户，提高利润率。他们在分析客户特征和产品特征的同时，实现客户细分和市场细分。数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务，采用实时的预测分析技术，分析来自各种不同数据源－来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术，发现数据中的潜在价值，使营销活动更具有针对性，提高营销活动的市场回应率，使营销费用优化配置。客户流失―挽留有价值的客户在银行业和保险业，客户流失也是一个很大的问题。例如，抵押放款公司希望知道，自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失；保险公司则希望知道如何才能减少取消保单的情况，降低承包成本。为了留住最有价值的客户，您需要开展有效的保留活动。然而，首先您需要找出最有价值的客户，理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者，从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序，找出最有价值的客户。交叉销售在客户关系管理中，交叉销售是一种有助于形成客户对企业忠诚关系的重要工具，有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务，客户与企业的接触点也就越多，企业就越有机会更深入地了解客户的偏好和购买行为，因此，企业提高满足客户需求的能力就比竞争对手更有效。研究表明，银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间，存在着较强的正相关性。企业通过对现有客户进行交叉销售，客户使用企业的服务数目就会增多，客户使用银行服务的年限就会增大，每个客户的利润率也随着增大。从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务，发现有价值的产品和服务组合，从而有效地向客户提供额外的服务，提高活期收入并提升客户的收益率。

大数据应用案例

四大经典大数据应用案例解析什么是数据挖掘(Data Mining)?简而言之，就是有组织有目的地收集数据，通过分析数据使之成为信息，从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中，我们从数据挖掘的实例出发，并以数据挖掘中比较经典的分类算法入手，给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。数据挖掘是如何解决问题的? 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。

一、尿不湿和啤酒很多人会问，究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行了购物篮关联规则分析，从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据，在这些原始交易数据的基础上，沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了：“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果，反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果，沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析，他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式：在美国，到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作，而他们中有30%～40%的人同时也会为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿，而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任，又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多，那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起，结果是得到了尿不湿与啤酒的销售量双双增长。按常规思维，尿不湿与啤酒风马牛不相及，若不是

数据挖掘商业案例

金融行业应用 1.前言随着中国加入WTO，国内金融市场正在逐步对外开放，外资金融企业的进入在带来先进经营理念的同时，无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会，也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题，最有价值的客户可能正离您而去，而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下，如何才能吸引、增加并保持最好的客户呢？数据挖掘（Data Mining，DM）是指从大量不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念（Concepts）、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。客户细分―使客户收益最大化的同时最大程度降低风险市场全球化和购并浪潮使市场竞争日趋激烈，新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出，业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术，来获取有价值的客户，提高利润率。他们在分析客户特征和产品特征的同时，实现客户细分和市场细分。数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务，采用实时的预测分析技术，分析来自各种不同数据源－来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术，发现数据中的潜在价值，使营销活动更具有针对性，提高营销活动的市场回应率，使营销费用优化配置。客户流失―挽留有价值的客户在银行业和保险业，客户流失也是一个很大的问题。例如，抵押放款公司希望知道，自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失；保险公司则希望知道如何才能减少取消保单的情况，降低承包成本。为了留住最有价值的客户，您需要开展有效的保留活动。然而，首先您需要找出最有价值的客户，理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者，从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序，找出最有价值的客户。交叉销售在客户关系管理中，交叉销售是一种有助于形成客户对企业忠诚关系的重要工具，有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务，客户与企业的接触点也就越多，企业就越有机会更深入地了解客户的偏好和购买行为，因此，企业提高满足客户需求的能力就比竞争对手更有效。研究表明，银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间，存在着较强的正相关性。企业通过对现有客户进行交叉销售，客户使用企业的服务数目就会增多，客户使用银行服务的年限就会增大，每个客户的利润率也随着增大。

数据挖掘应用案例：RFM模型分析与客户细分完整版

数据挖掘应用案例：R F M模型分析与客户细分 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

数据挖掘应用案例：RFM模型分析与客户细分分类：| 标签： 2012-01-21 21:39阅读(16854) 这里，我先给各位朋友拜年，祝大家新春快乐！兔年就要过去了，本命年的最后一天再不更新博客有点对不住大家！正好刚帮某电信行业完成一个数据挖掘工作，其中的RFM模型还是有一定代表性，就再把数据挖掘RFM模型的建模思路细节与大家分享一下吧！手机充值业务是一项主要电信业务形式，客户的充值行为记录正好满足RFM模型的交易数据要求。根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指标：最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。我早期两篇博文已详述了RFM思想和IBM Modeler操作过程，有兴趣的朋友可以阅读！ RFM模型：R(Recency)表示客户最近一次购买的时间有多远，F(Frequency)表示客户在最近一段时间内购买的次数，M (Monetary)表示客户在最近一段时间内购买的金额。一般原始数据为3个字段：客户ID、购买时间（日期格式）、购买金额，用数据挖掘软件处理，加权（考虑权重）得到RFM得分，进而可以进行客户细分，客户等级分类，Customer Level Value得分排序等，实现数据库营销！

这里再次借用@数据挖掘与数据分析的RFM客户RFM分类图。本次分析用的的软件工具：IBM SPSS Statistics 19，IBM SPSS ，，EXCEL和PPT 因为RFM分析仅是项目的一个小部分分析，但也面临海量数据的处理能力，这一点对计算机的内存和硬盘容量都有要求。先说说对海量数据挖掘和数据处理的一点体会：（仅指个人电脑操作平台而言）一般我们拿到的数据都是压缩格式的文本文件，需要解压缩，都在G字节以上存储单位，一般最好在外置电源移动硬盘存储；如果客户不告知，你大概是不知道有多少记录和字段的； Modeler挖掘软件默认安装一般都需要与C盘进行数据交换，至少需要100G 空间预留，否则读取数据过程中将造成空间不足海量数据处理要有耐心，等待30分钟以上运行出结果是常有的现象，特别是在进行抽样、合并数据、数据重构、神经网络建模过程中，要有韧性，否则差一分钟中断就悲剧了，呵呵；数据挖掘的准备阶段和数据预处理时间占整个项目的70%，我这里说如果是超大数据集可能时间要占到90%以上。一方面是处理费时，一方面可能就只能这台电脑处理，不能几台电脑同时操作；多带来不同，这是我一直强调的体验。所以海量数据需要用到抽样技术，用来查看数据和预操作，记住：有时候即使样本数据正常，也可能全部数据有问题。建议数据分隔符采用“|”存储；如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过，好的数据挖掘一定是市场导向的，当然也需要IT人员与市场人员有好的沟通机制；

数据挖掘经典案例

数据挖掘经典案例当前，市场竞争异常激烈，各商家企业为了能在竞争中占据优势，费劲心思。使用过OLAP技术的企业都知道，OLAP技术能给企业带来新的生机和活力。OLAP技术把企业大量的数据变成了客户需要的信息，把这些信息变成了价值，提高了企业的产值和效益，增强了客户自身的竞争实力。 “啤酒与尿布”的故事家喻户晓，在IT界里，几乎是数据挖掘的代名词，那么各商家企业受了多少启发，数据挖掘又给他们带来了多少价值呢？客户需求客户面对大量的信息，用OLAP进行多维分析。如：一个网上书店，用OLAP技术可以浏览到什么时间，那个类别的客户买了多少书等信息，如果想动态的获得深层次的信息，比如：哪些书籍可以打包推荐，哪些书籍可以在销售中关联推出等等，就要用到数据挖掘技术了。当客户在使用OLAＰ技术进行数据的多维分析的时候，联想到“啤酒与尿布”的故事，客户不禁会有疑问，能不能通过数据挖掘来对数据进行深层次的分析呢，能不能将数据挖掘和OLAP结合起来进行分析呢？ SQL Server 2005 数据挖掘： SQL Server 2005的Data Mining是SQL Server2005分析服务（Analysis Services）中的一部分。数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之，数据挖掘派生数据中存在的模式和趋势。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案，例如：预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。 Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法 (SSAS)，可以预测离散属性，例如，预测目标邮件活动的收件人是否会购买某个产品。 Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性，预测连续属性，例如，预测下一年的销量。 Microsoft 顺序分析和聚类分析算法预测顺序，例如，执行公司网站的点击流分析。 Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组，例如，使用市场篮分析来建议客户购买其他产品。 Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法，查找相似项的组，例如，将人口统计数据分割为组以便更好地理解属性之间的关系。巅峰之旅之案例一：网上书店关联销售提出问题网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长，各网上书店采取了各种方式，给客户提供更多更丰富的书籍，提供更优质服务，等方式吸引更多的读者。

《数据挖掘：你必须知道的32个经典案例》

第五章经典的机器学习案例机器学习是一门成熟的学科，它所能解决的问题涵盖多种行业。本章介绍了四种经典的机器学习算法，它们所关心的重点在于机器学习是如何将统计学和数据挖掘连接起来的。通过学习本章，读者可以见识到机器学习的特殊魅力，并明白机器学习与其他学科的异同。使读者可以熟练地应用机器学习算法来解决实际问题是本章的目标。 5.1 机器学习综述在正式开始了解机器学习之前，我们首先要搞清楚这样一个问题：世界上是不是所有的问题都可以使用一行一行清楚无误的代码解决？举个例子，倘若我们想让一个机器人完成出门去超市买菜并回家这一任务，我们能不能在程序里详详细细地把机器人所有可能遇到的情况以及对策都写下来，好让机器人一条一条按着执行？答案是“很难”。机器人在路上可能遭遇塑料袋儿、石头、跑动的儿童等障碍物，在超市可能遇到菜卖完了、菜篮挪动了位置等问题，把这些问题全部罗列出来是不太可能的，因此我们就难以使用硬性的、固定的程序来命令机器人完成这件事，我们需要的是一种灵活的、可以变化的程序。就像你去买菜时不用你妈告诉你路上看见有人打架要躲开，你就知道要躲开一样（即便你以前从来没有遇见过这种情况），我们希望机器人也可以根据经验学习到正确的做法，而不是必须依赖程序员一条一条地输入“IF……THEN……”。美国人塞缪尔设计的下棋程序是另一个的经典机器学习算法。塞缪尔设计了一个可以依靠经验积累概率知识的下棋程序，一开始这个程序毫无章法，但四年以后，它就能够打败塞缪尔了，又过了三年，它战胜了美国的围棋冠军。这个下棋程序进步的方式和人类学习下棋的过程非常类似，如何让机器像人类一样学习，正是机器学习关心的事情。不难想象，机器学习是一门多领域交叉的学科，它主要依赖统计学、概率论、逼近论等数学学科，同时也依赖算法复杂度、编译原理等计算机学科。通俗的说，机器学习首先将统计学得到的统计理论拿来进一步研究，然后改造成适合编译成程序的机器学习算法，最终才会应用到实际中。但机器学习和统计学仍有不同的地方，这种差异主要在于统计学关心理论是否完美，而机器学习关心实际效果是否良好。同时，机器学习侧重于归纳和总结，而不是演绎。机器学习将统计学的研究理论改造成能够移植在机器上的算法，数据挖掘将机器学习的成果直接拿来使用。从这一意义上来说，机器学习是统计学和数据挖掘之间的桥梁。机器学习也是人工智能的核心，机器学习算法普遍应用于人工智能的各个领域。此外，机器学习和模式识别具有并列的关系，它们一个注重模仿人类的学习方式，一个注重模仿人类认识世界的方式。因此机器学习、数据挖掘、人工智能和模式识别等本来就属于一个不可分的整体，离开其他学科的支持，任何学科都难以独立生存下去。本章介绍了语义搜索、顺序分析、文本分析和协同过滤这四种经典的机器学习算法，它们不仅理论完善，同时也具有广泛的应用。通过本章的学习，读者将看到机器学习在各行各业中的神奇作用以及广阔前景，并学会如何使用机器学习算法来解决实际问题。

数据挖掘在Web中的应用案例分析

[数据挖掘在Web中的应用] 在竞争日益激烈的网络经济中，只有赢得用户才能最终赢得竞争的优势。作为一个网站，你知道用户都在你的网站上干什么吗？你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦？什么地方出了安全漏洞？什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户？你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗？“知己知彼，才能百战不殆”，你真的了解自己吗？挑战的背后机会仍存，所有客户行为的电子化（Click Stream），使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会，从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。 [问题]： 1.根据你所学的知识，思考从网站中所获取的大量数据中，我们能做哪些有意义的数据分析？基于WEB 使用的挖掘，也称为WEB 日志挖掘（Web Log Mining）。与前两种挖掘方式以网上的原始数据为挖掘对象不同，基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中，然后对积累起来的日志文件进行挖掘，从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。基于WEB 内容的挖掘：非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式. 基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类. 基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学(修改后的）关联规则\站点建设改进与管理销建立用户模式. 2.根据你所学的数据挖掘知识，谈谈哪些数据挖掘技术可以应用于Web中，以这些数据挖掘技术可以完成哪些功能？ Web Mining 技术已经应用于解决多方面的问题，比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘之威力，更是在商业运作上发挥的淋漓尽致，具体表现在：（1）对网站的修改能有目的有依据稳步的提高用户满意度发现系统性能瓶颈，找到安全漏洞，查看网站流量模式，找到网站最重要的部分，发现用户的需要和兴趣，对需求强烈的地方提供优化，根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户，在正确的地方正确的时间把正确的信息提供给正确的人。（2）测定投资回报率测定广告和促销计划的成功度找到最有价值的ISP 和搜索引擎测定合作和结盟网站对自身的价值

网络游戏运营中的数据挖掘技术及相关案例分析

网络游戏运营中的数据挖掘技术及相关案例分析摘要数据挖掘技术在网络游戏客户关系管理中的应用现今，数据挖掘技术已经在各个领域得以应用，并有了相当的发展。许多学者对数据挖掘的研究及其在客户关系管理中的应用上获得了相当的突破，很多行业因此获益匪浅。在我国，网络游戏作为一个新兴不久的行业，拥有着巨大的市场和庞大的潜力，但随之而来的是愈发激烈的市场竞争，一些主流的游戏运营商已经把目光投向了在传统行业中取得了巨大成功的客户关系管理体制。但是，不同于其他行业，网络游戏是建立在网络信息交流平台之上，它所搜集到的客户数据更为庞大和繁杂，那么怎样从如此庞大的数据中找到有效资料呢？这就需要应用到数据挖掘技术。本文简要介绍了网络游戏客户关系管理的模式和内容以及几种主要的数据挖掘技术；着重利用决策树玩家进行了分类、利用神经网络对玩家流失进行了分析、利用粗糙集对玩家信息进行了挖掘。通过上述分析论证了数据挖掘技术在网络游戏客户关系管理中应用的可行性和有效性。关键词：网络游戏；客户关系管理；数据挖掘；应用 1 综述 “网络游戏”也被成为“在线游戏”（Online Games），是通过互联网进行、可以多人同时参与的电脑游戏，是通过人与人之间的互动以达到交流、娱乐和休闲的目的。网络游戏不同于其他行业，它建立在网络信息交流平台之上，因此，它所搜集到的客户数据更为庞大和繁杂，那么如何从如此庞大的数据中找到有效资料，又如何应用于客户关系管理之上，这便是我们需要去研究的问题。在我国，网络游戏是一个新兴的行业，对其研究多集中于法律的虚拟财产案件上，网络游戏客户关系管理方面的研究寥寥无几。虽然如此，但我们仍旧可以通过数据挖掘技术在其他行业上的客户关系管理中的应用里进行参考，进而对数据挖掘技术在网络游戏客户关系管理中的应用的可行性，有效性进行探讨。哈尔滨工程大学的鞠伟平，邓忆瑞所刊登的《基于决策树的数据挖掘方法在C R M 中的应用研究》中指出：“客户关系管理是一种旨在加强企业与客户之间关系的新的管理机制。其如何利用数据挖掘技术对客户数据进行深层分析，保留高价值客户、发掘潜力客户，实现在恰当的时间，为客户提供合适产品和服务是现在客户关系管理中的研究重点。本文将数据挖掘中的ID3 分类算法应用于CRM 系统中，不仅可以使企业更好地发现客户群特征，掌握市场动态，同时也将有助于企业的管理全面走向信息化。[3]” 山东财政学院的董宁所刊登的《数据挖掘技术在CRM 中的应用》中指出：“数据挖掘技术帮助企业管理客户生命周期的各个阶段，包括客户的识别、获取新的客户、让已有的客户创造更多的利润、保持住有价值的客户等。它能够帮助企业确定客户的特点，使企业能够为客户提供有针对性的服务……客户识别的关键问题是确定对企业有意义客户的标准……数据挖掘技术应用在对营销的反映情况的预测上。根据历史数据运用数据挖掘技术建立“客户行为反应”预测模型，对客户的未来行为进行预测……解决客户流失问题，可以使用数据挖掘方法对已经流失客户进行分类，并对每类流失客户的特征进行描述。然后，使用关联、近邻等挖掘技术和方法对现有客户消费行为进行分析，以确定每类客户流失的可能性，其中着重于发现那些流失可能性大的优质客户。[4]” 华中师范大学经济学院的曹萍刊登的《利用数据挖掘技术(DM)提升客户关系

数据挖掘应用案例

数据挖掘应用案例 1. 哪些商品放在一起比较好卖？这是沃尔玛的经典案例：一般看来，啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示，在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单，一般太太让先生下楼买尿布的时候，先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。另外，大家都知道在沃尔玛牙膏的旁边通常配备牙刷，在货价上这样放置，牙膏和牙刷才能都卖的很好。 2. 库存预测过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大，很多零售商（从主要财务主管到库存管理员）都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。使用Microsoft(R) SQL Server(TM) 2005 中的Analysis Services 以及SQL Server 数据仓库，采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销，准确性为98.52%。平均来说，预测该书是否将在未来两周内脱销的准确性为86.45%。详情见https://https://www.360docs.net/doc/2013688950.html,/china/technet/prodtechnol/sql/2005/ipmvssas.mspx 3. 股票预设预测一支股票的走势几乎是不可能，但是通过相关分析，可以找出一支股票的走势与另一只股票走势的潜在规律，比如数据挖掘曾经得到过这个结论：“如果微软的股票下跌4%，那么IBM的股票将在两周内下跌5%”。 4. NBA教练如何布阵以提升获胜机会？美国著名的国家篮球队NBA的教练，利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练，你靠什么带领你的球队取得胜利呢？当然，最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天，NBA的教练又有了他们的新式武器：数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为－17分,这意味着他俩在场上，本队输掉的分数比得到的分数多17分。然而，当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时，魔术队得分为正14分。在下一场中，魔术队增加了阿姆斯创的上场时间。此着果然见效：阿姆斯创得了21分，哈德卫得了42分，魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容，再一次打败了热队。在第五场比赛中，这个靠数据挖掘支持的阵容没能拖住热队，但Advanced Scout毕竟帮助了魔术队赢得了打满5场，直到最后才决出胜负的机会。 Advanced Scout是一个数据分析工具，教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类，按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如：教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录，他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作，进而设计合理的防守策

数据挖掘十大算法及案例

数据挖掘十大算法及经典案例一、数据挖掘十大经典算法国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。（一）C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1. 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2. 在树构造过程中进行剪枝； 3. 能够完成对连续属性的离散化处理； 4. 能够对不完整数据进行处理。 C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

（二）The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。（三）Support vector machines 支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和Barnard 将支持向量机和其他分类器进行了比较。（四）The Apriori algorithm Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。（五）最大期望(EM)算法

数据挖掘应用20个案例分析之电信3G客户识别系统

数据挖掘技术及工程实践系列丛书之数据挖掘应用20个案例分析 (V01.00.000) 广州太普信息技术有限公司地址：广州市经济技术开发区科学城232号网址：https://www.360docs.net/doc/2013688950.html, 邮箱：5iai2008@https://www.360docs.net/doc/2013688950.html, 热线：40068-40020 邮编：510663 电话：（020）85661483/85666585

案例三电信3G客户识别系统挖掘目标的提出有专家预计，目前我国3G普及率约14%，2012年或能达到20%以上，中国已经步入进入3G快速增长期。3G已经是我国电信运营市场毫无争议的主角。三大运营商都纷纷采取各种方法争夺3G市场，竞争趋于白热化。移动借由2G时代积累的优势，在3G用户总数上暂时领先，但优势已不明显，目前3G市场已成“三分天下”之势，未来运营商角力的关键还在于各自的网络质量和发展客户的手段。其中，发展客户的手段与对客户信息的掌握有很大的关系[19]。如何在海量的数据中识别出3G客户？并进而认知3G客户的特征特点，为相关部门对这部分客户进行重点宣传、发送E-mail提供决策支持，以提升预期的宣传效果？本案例的挖掘目标是： 1)构建3G客户识别分类模型，并进行特征分析建模方法与过程图2_11和图2_12分别是3G客户识别数据挖掘建模过程和数据流程。图2_113G客户识别数据挖掘建模过程

图2_123G客户识别建模数据流程下面对3G客户识别主要过程加以说明。 1.数据抽取本案例数据来源于某电信运营公司，该数据总量为24000条。每一条对应一个客户近六个月的统计信息。其中已知分类（2G、3G）的为18000条，未知分类6000条。其中包括客户年龄，月平均消费额，月平均通话时长等属性250个（包括客户类型）。本例利用18000条已知分类的数据进行分类模型的建立，随机抽取训练数据10000条，测试数据8000条。 2.数据预处理有效的数据预处理能使数据挖掘事半功倍。经统计，该数据有缺失数据多，数据取值范围广，数据取值类型多样的特点。因此建模前的预处理是必不可少的。比如采集的样本数据存在一些属性值的缺省或空值，如果不做处理，将直接影响后续算法的挖掘效果，严重时甚至得到错误的结果。采用相关的算法，如用该属性值的平均值、固定值或出现最多属性值，对缺省的属性值进行补充，也可以去除属性值缺省的那个实例，为后续的数据挖掘提供高效可用的数据。 1）数据清洗数据清洗分为类型转换和缺失数据填补两部分。具体操作如表2_7和表2_8：