数据挖掘商业案例

数据挖掘商业案例
数据挖掘商业案例

金融行业应用

1.前言

随着中国加入WTO,国内金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢?

数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。

金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。

客户细分―使客户收益最大化的同时最大程度降低风险

市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。

数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。

客户流失―挽留有价值的客户

在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。

为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。

交叉销售

在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。

研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。

从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。

欺诈监测

通过侦测欺诈、减少欺诈来降低成本。为了与欺诈活动作斗争,首先您需要预测欺诈在何时、何地发生。数据挖掘技术侦测在欺诈中常见的模式,预测欺诈活动将在哪里发生。

对于银行业的公司来说,欺诈活动频繁发生的一个领域是自动取款机(ATM)。数据挖掘帮助公司预测欺诈性的ATM交易。银行可以来预测欺诈最有可能在哪个地理位置上发生。接着该信息就被传送给ATM网络的成员机构,由这些机构通知客户,让客户确定交易是否正当,从而避免发生更多的欺诈行为。有了这些信息,他们可以更快地冻结帐户或采取其它必要的手段。

开发新客户

金融机构可以使用数据挖掘技术提高市场活动的有效性。银行部门对给出反馈的活动对象进行分析,使之变成新的客户。这些信息也可应用到其它客户,以提高新的市场活动的反馈率。

降低索赔

保险公司都希望减少索赔的数量。可以使用聚类分析,根据现有客户的特征档案来找出哪些客户更有可能提出索赔请求。这些档案是通过对客户提取200至300个不同的变量而产生出来的。接着,您就可以针对那些可能提出较少索赔请求的客户开展获取活动。

信用风险分析

传统的风险管理已无法有效控制跨区域、跨部门、跨行业的多种风险,利用科学的数据分析系统提高欺诈的防范,降低信用风险尤为重要。客户科学评估造成风险的因素,有效规避风险,建立完善的风险防范机制。

2.客户流失

随着金融体制改革的不断深化和金融领域的对外开放,我国金融行业的竞争日趋激烈。《2006年金融服务指数研究报告》显示,在我国金融业逐步对外资行业开放的今天,中国金融业的服务质量虽然有稳步提升,但总体仍需提高,中资银行面临着极大的优质客户流失的危险。这将对银行经营和效益产生极大的影响。除了提高服务质量,银行要加强营销活动,保留优质客户,首先面临的第一个问题就是,谁可能流失?应该针对哪些客户进行客户保留活动?针对所有的客户开展保留活动,成本太大。合理的做法是应用数据挖掘技术,研究流失客户的特征,从而对流失进行预测、并对流失的后果进行评估,采取客户保留措施,防止因客户流失而引发的经营危机,提升公司的竞争力。

产品信息为基础,通过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销策略,采取针对性措施,开展客户挽留工作。

客户流失需要解决的问题

1)哪些现有客户可能流失?

客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。

2)现有客户可能在何时流失?

如果某一客户可能流失,他会在多长时间内流失。

3)客户为什么流失?

哪些因素造成了客户的流失,客户流失的重要原因是什么。主要对引起客户流失的诸因素进行预测和分析。

4)客户流失的影响?

客户流失对客户自身会造成什么影响?

客户流失对公司的影响如何?

对可能流失客户进行价值评估,该客户的价值影响了运营商将要付出多大的成本去保留该客户。

5)客户保留措施?

针对公司需要保留的客户,制定客户和执行保留措施。

客户流失的类型

为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展客户保留活动。客户流失现象可以分为以下三种情况:

1)公司内客户转移:客户转移至本公司的不同业务。主要是增加新业务,或者费率调整引发的业务转移,例如从活期存款转移至零存整取,从外汇投资转移至沪深股市投资。这种情况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公司整体而言客户没有流失。

2)客户被动流失:表现为金融服务商由于客户欺诈等行为而主动终止客户与客户的关系。这是由于金融服务商在客户开发的过程中忽视了客户质量造成的。

3)客户主动流失:客户主动流失可分为两种情况。一种是客户不再使用任何一家金融服务商的业务;另一种是客户选择了另一家服务商,如客户将存款从一家银行转移到另一家银行。客户主动流失的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服务价值低于另一家服务商。这可能是客户对公司的业务和服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。

如何进行客户流失分析?

对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确定义何为流失,进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的,它是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个核心变量:财务原因/非财务原因,主动流失/被动流失。对不同的流失客户按该原则加以区分,进而制定不同的流失标准。例如,非财务原因主动流失的客户往往是高价值的客户,他们会正常支付服务费

用并容易对市场活动有所响应,这种客户是企业真正需要保留的客户。而对于非财务原因被动流失的客户,预测其行为的意义不大。

研究哪些客户即将流失,是一个分类问题。将现有客户分为流失和不流失两类,选择适量的流失客户和未流失客户的属性数据组成训练数据集,包括:客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息等。Clementine提供人工神经网络、决策树、Logistic回归等模型用于建立客户流失的分类模型。

关于流失用户特征的分析,是一个属性约减和规则发现问题。Clementine提供关联分析方法,可以发现怎样的规则导致客户流失。也可以利用Clementine的决策树方法,发现与目标变量(是否流失),关系最为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征。因此,在进行深入的客户流失分析时,需要先进行客户细分,再对细分之后的客户群分别进行挖掘。

在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么它可能什么时候会流失。生存分析可以解决这类问题。生存分析不仅可以告诉分析人员在某种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变化,当生存率达到一定的阈值后,客户就可能流失。

分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分析。客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户流失的动机,是价格因素还是为了追求更好的服务等。这方面内容丰富,需作具体分析。

分析客户流失对公司的影响时,不仅要着眼于对收入的影响,而且要考虑其它方面的影响。单个的客户流失对公司的影响可能是微不足道的,此时需要研究流失客户群对公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析,归纳客户流失的原因,有针对性的制定防止客户流失的措施。

在预测出有较大流失可能性的客户后,分析该客户流失对公司的影响。评估保留客户后的收益和保留客户的成本。如果收益大于成本,客户是高价值客户,则采取措施对其进行保留。至于低价值客户,不妨任其流失甚至劝其流失。

总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业务目标的基础上准备数据、建模、模型评估,最后将模型部署到企业中。

客户流失应用案例

为了举例说明,我们设想一个虚构的银行ZBANK使用保留客户的应用或客户流失建模。ZBANK正受到来自其它金融机构日益激烈的竞争。住房贷款是ZBANK 最宝贵的客户来源之一,在该业务中遇到一些客户会转投其它竞争对手。在营销策略方面,ZBANK给它的房贷新客户许多的优惠措施(如免费的电器和家具优惠券),因此它获得客户的初始成本相对要高于竞争对手。但是,由于此类贷款由市场主导,因此房屋抵押贷款给ZBANK带来较小的风险,同时也使其处于一个有利的战略地位可以交叉销售其它的服务如期房贷款和住房保险。

除了保持其战略性市场主导地位,对于ZBANK来说预测客户流失的可能性也很重要,以便减少那些获得不久就拖欠贷款的新客户。ZBANK有一个客户数据库,包含了有关房贷客户的交易和人口统计信息。

(1)商业理解

预测现有用户中哪些客户在未来六个月中可能流失以及对哪些流失客户采取保留措施。

(2)数据理解

a) 数据说明

失。所选取的数据属性包括:

(1)客户号;

(2)储蓄账户余额;

(3)活期账户余额;

(4)投资账户余额;

(5)日均交易次数;

(6)信用卡支付方式;

(7)是否有抵押贷款;

(8)是否有赊账额度;

(9)客户年龄;

(10)客户性别;

(11)客户婚姻状况;

(12)客户孩子数目;

(13)客户年收入;

(14)客户是否有一辆以上汽车;

(15)客户流失状态。

其中客户流失状态有三种属性:

(1)被动流失;

(2)主动流失,这是分析中特别关注的一类客户;

(3)未流失。

在分析中,我们主要关注的是主动流失的客户。被动流失对银行来说是意义最小的,因为该指标代表的大多数客户是在贷款期内卖掉了房子,因此不再需要房贷了。主动流失指的是转投向ZBANK竞争对手的客户,是该行关注的焦点。

在开发这个应用之前,ZBANK将所有现有的客户归到上述的三个类别中。同时按照常规,所有的人口统计信息(也就是从客户年龄到客户是否有一辆以上汽车)每六个月更新一次,而交易信息(从储蓄账户余额到是否有赊账额度)则是实时更新的。为了让预测模型能预先进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自变量)之间设定了6个月的延迟。也就是说,输入变量的采集六个月后再将客户流失状态分类;因此该模型提早6个月预测客户流失。

b) 数据描述及图表分析

在数据理解中,可以利用描述及可视化来帮助探索模式、趋势和关系。图2.1显示了Clementine中数据理解的数据流图,包括:使用数据审核,统计分析,网络图,直方图,两步聚类,关联分析,查看数据属性之间的关系。

图2.1:数据理解的数据流图

图2.2显示了数据审核结果。可以很清楚地了解14个数据字段的基本情况。如数据类型、最大最小值、平均值、标准差、偏度、是否唯一、有效记录个数等。从图2.2可见,房贷客户的平均年龄是57.4岁,最小的18岁,最大的97岁。

图2.2:数据审核图

这些描述能帮助理解数据。使用绘图和直方图节点将数据可视化就产生了客户收入和年龄图及日均交易数的直方图(见图3)。将可视化的结果与目标变量联系起来,可以看出客户流失状态包含在不同的图表中。例如,客户的离中趋势,男性和女性客户的被动流失和主动流失以及每个级别的日均交易次数都包含在了图表中。这种对关系的初步评估对于建模是很有用的。更重要的是,结果表明主动流失在女性客户和不太活跃的客户(由日均交易次数确定)中较为多见。

图2.3:各种数据分布图

最后,一幅网状图表明了客户性别,客户婚姻状况,信用卡支付方式,客户流失状态之间的联系(见图3下左面板)。较强的关系由较粗的线表示。那些在一定标准(由用户定义)之下的联系则不包括在图中(例如在被动流失和选中的一些输入变量之间)。网状图表明现有客户(即非流动者)更多的是那些已婚男性,那些用其它账户进行信用卡支付的人。要注意的是,前面已经提到过,客户流失状态滞后输入变量六个月。

c) 关联分析及聚类的结果为了进一步了解房贷客户可以使用聚类。

图2.4总结了使用双步聚类节点获得的结果。如图所示,客户似乎分为七种自然的聚类。所产生的聚类特征可用来定义和理解每个聚类以及聚类间的区别。例如,我们比较聚类1和聚类4,聚类1中包含的是较年轻并绝大多数已婚(92.2%),并且年收入较高的女性。而聚类4中包含的是较年长(平均要比1中大5岁),59.8%已婚,年收入较低(平均要比1中低4000美元)的男性。聚类的结果对于市场定位和分割研究是非常有用的,但是对于预测建模的作用则没这么明显。

图2.4:两步聚类的部分结果

本例使用关联分析来制订规则,寻找输入变量和目标变量间的关系。这些规则不仅对发现模式、关系和趋势很重要,对于预测建模(例如决定采用/不采用哪些输入变量)也很重要。我们使用Clementine的GRI(广义规则归纳)节点来进行联合分析,结果如图2.5所示。其中,第一条联合分析规则表明,有156名(或11.0%的)房贷客户的投资账户余额低于4988美元,其中81.0%是被动流失的。同样,第三条规则表明有198名(或13.9%的)房贷客户的活期账户余额超过1017美元,其中81.0%是主动流失的。其它的规则可以类似地进行理解。这些规则表明交易和人口统计信息是如何与客户流失状态联系起来的。要注意的是,客户流失状态滞后输入变量六个月。

图2.5:关联分析的部分结果

3)数据准备

根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等。在本例中,利用Clementine进行数据准备的数据流图如图2.6所示。通过分裂节点,给数据集添加一个新的标志属性。该标志属性是0-16之间的随机数。然后再根据标志属性值(<4和)=4),利用过滤节点,将原来的数据样本分成训练集(约占75%)和测试集(约占25%)。

图2.6:数据准备的数据流图

(4)建立模型及评估

预测建模是本例中最重要的分析,神经网络和决策树尤其适用于对房贷客户的流失建模。图2.7和图2.8展示的是使用Clementine训练神经网络模型和建决策树功能得到的神经网络和决策树的结果。

图2.7:C5.0决策树结果

图2.8:神经网络模型结果

决策树模型中有4个终端节点和仅仅3个重要的输入变量(按照重要性降序排列):投资账户余额、客户性别和客户年龄。神经网络模型在输入层、隐藏层和输出层分别有15个、5个和3个神经元。此外,最终要的5个输入变量是(按照重要性降序排列):活期账户余额、客户孩子数目、储蓄账户余额、投资账户余额和客户婚姻状况。Logistic回归模型统计有效,卡方检验的p值为1.000,表明数据吻合得很好。此外,下列输入变量在统计时,在0.05的有效水平上预测客户流失状态也统计有效:储蓄账户余额c(p值=0.000)、活期账户余额(p值=0.000)、客户年龄(p值=0.002)、客户年收入(p值=0.033)及客户性别(p值=0.000)。

从用评估图节点产生的提升表中可以看出每个预测模型都是有效的,如图2.9所示(从左至右分别为Logistic回归、决策树和神经网络)。提升表中绘制的是累积提升值与样本百分比的关系(在这里是构造/培训样本)。基准值(即评估每个模型的底限)是1,它表示当从样本中随机抽取记录的百分点时能成功地“击中”现有客户。提示值衡量的是当来自数据中的某一记录是一个现有客户的降序预测概率能被百分点反映时,预测模型“击中”现有客户的成功可能性(准确度)

有多高。如图2.9(左)所示,每个模型的提升值均大于1,在100%时收敛于1。由于每个预测模型都能以有效精度预测目标变量(起码对于现有客户和非现有客户之间的关系),因此我们可以说它们都是有效的。

图2.9:提升图(左)和三个模型的分析结果(右)

值得注意的是神经网络和决策树得出的预测模型并不完全一致,这从图2.9(右)两个模型结果的比较可以看出来。所以,不仅要在训练样本中比较两个模型的表现,也要在训练/测试样本中进行比较,而后者更加重要。对于这些预测模型来说,评估它们相对表现的最佳办法应该是看它们预测目标变量(客户流失状态)的精确率。在本例中为了简单起见,假设总体精确度包括了比较不同预测模型表现的评估标准。在图2.10的右面板中,决策树模型的预测相对精确,总体精确度为81.6%,因此根据评估标准,决策树模型是最好的预测模型,应该在ZABNK预测房贷客户的流失中使用。

图2.10:测试集的提升表(左)和三个模型的分析结果(右)

(5)模型部署

在本例中,决策树模型不仅精度最高,而且从图2.7中的简明的规则可以看出,决策树的模型也容易理解。结果表明,ZBANK的房贷客户中,那些39岁以上,在投资帐户中余额超过4976美元的女性更可能主动流失。要注意的是,客户流失状态滞后输入变量六个月。从到目前位置的结果来看,决策树客户流失预测模型能够更精确地根据交易和人口统计的信息判断出流失客户和非流失客户,从而产生增值效益。因此,ZBANK可以用决策树模型判断哪些客户倾向于主动流失,然后向他们提供优惠措施或采取其它预防措施。同样,客户流失模型可以判断哪些是流失风险较低的房贷申请者。使用数据挖掘的决策树模型可以用来对现有客户和新的房贷申请者进行评级。在Clementine中部署模型的数据流图如图所示。运行数据流后,Clementine自动将结果存储在逗号分隔的文件中。银行中其他人员即使没有安装Clementine,也可以使用记事本等软件打开查看。并且可以很好的集成到银行现有的其他业务系统中。图2.12给出了一个结果的例子。其中按照客户流失概率的大小,对客户进行排序。

图2.11:模型部署的数据流图

图2.12:流失概率和客户价值的散点图

最后需要指出的是在本例中,模型的总体分类精确率是简化计算的。在实际使用中,一般还需要考虑误分类及其相关成本,还有流失客户和非流失客户在样本和总体中的相对比重。

3.客户细分

信用风险分析

随着金融市场逐步开放,商业银行和保险公司面临着巨大的压力和挑战。面对竞争和挑战、重点是做好客户市场细分,有效发掘客户需求,提供客户差异化服务。一个银行的客户是多种多样的,各个客户的需求也是千变万化的,银行不可能满足所有客户所有的需求,这不仅是由银行自身条件所限制,而且从经济效益方面来看也是不足取的,因而银行应该分辨出它能有效为之服务的最具吸引力的市场,扬长避短,而不是四面出击。对一个银行来说,在经营管理中应用市场细分理论是很有必要的。

客户细分的概念

客户细分的概念是美国市场学家温德尔?史密斯(Wendeii R.Smith)于20世纪50年代中期提出来的。

客户细分(Customer Segmentation)是指按照一定的标准将企业的现有客户划分为不同的客户群。客户细分是客户关系管理的核心概念之一,是实施客户关系管理重要的工具和环节。Suzanne Donner认为:正确的客户细分能够有效地降低成本,同时获得更强、更有利可图的市场渗透。通过客户细分,企业可以更好地

识别不同客户群体对企业的价值及其需求,以此指导企业的客户关系管理,达到吸引合适客户,保持客户,建立客户忠诚的目的。

所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下,根据客户的价值、需求和偏好等综合因素对客户进行分类,分属于同一客户群的消费者具备一定程度的相似性,而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有:

(1) 客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户,客户需求的异质性是进行客户细分的内在依据。

(2) 消费档次假说。随着经济的发展和消费者收入水平的提高,消费量会随之增加。但消费量的增加并非线性增长,而是呈现出区间性台阶式的变化形式,一旦消费者达到某种消费层次之后,消费变化的趋势将变得非常平缓。根据消费档次假说,消费者的消费档次或消费习惯在一段时期内是相对稳定的,这就为通过消费行为来划分消费群体提供了理论前提和基础。

(3) 企业资源的有限性和有效市场竞争的目的性。资源总是希缺的,由于缺乏足够的资源去应对整个客户群体,因此必须有选择地分配资源。为了充分发挥资源的最大效用,企业必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。

(4) 稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就显得毫无意义。

客户细分模型

客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型是指选择一定的细分变量,按照一定的划分标准对客户进行分类的方法。一个好的细分模型,首先是要满足细分深度的要求,不同的使用者对客户细分的深度也有不同的要求,这就要求模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力,现代数据库的存储容量越来越大,数据结构也趋于多样性,误差数据也会随之增多,这就要求模型能适应数据在量和样上的膨胀,对误差数据能做出判别和处理。最后是模型要有很强的适用能力,变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他们的消费行为都是在变化的,这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额等为细分变量,如RFM 模型和客户价值矩阵模型。

(1)RFM模型。RFM细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。

R-Recency指客户上次消费行为发生至今的间隔,间隔越短则R越大;F—Frequency指在一段时期内消费行为的频率;M—Monetary指在某一时期内消费的金额。研究发现,R值越大、F值越大的客户越有可能与企业达成新的交易,M越大的客户越有可能再次响应企业的产品和服务。

(2)客户价值矩阵模型。

客户价值矩阵模型是在对传统的RFM 模型修正的基础上提出的改进模型。用购买次数F和平均购买额A构成客户价值矩阵,用平均购买额替代了RFM 模型中存在多重共线性的两个变量,消除了RFM模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中,确定购买次数F和平均购买额A的基准是各自的平均值,一旦确定了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少,客户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型客户、经常客户和不确定客户,如图3.l所示。

图3.1:客户价值矩阵

客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同,用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、基于客户价值相关指标的客户细分。

客户细分模型的基本流程

客户细分包括六个基本流程:

第一步:理解业务需求。

在未来的业务中,知道谁是客户是个非常好的起始点,以了解瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客户归组到一起,这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构成。当这些条件变得越来越复杂时,数据挖掘技术就应运而生了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时,最重要的部分是其结果应当在业务远景中意义深远,并且能够在实际业务环境中进一步得到应用。需要记住的一点是:由于市场环境是动态变化的,细分建模过程应当是重复性的,且模型应随着市场的变化而不断革新。

第二步:选择市场细分变量。

由于变量选择的优劣对细分结果质量的影响非常显著,所以变量选择应该建立在理解业务需求的基础之上,以需求为前提,在消费者行为和心理的基础上,根据需求选择变量。此外,变量的选择还应该有一定的数量,多了不好,少了也不好。

第三步:所需数据及其预处理。

为创建数据模型,必须使用收集到的原始数据,并将其转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在金融业中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行为,可通过客户的账户信息、购买产品的信息等捕获。人口统计数据(如年龄、性别、工作等)可根据客户办理业务时,提供给金融机构的信息获得。这在识别或描述客户组的特征时很有用。

第四步:选择细分技术。

目前,通常采用聚了技术来进行客户细分。常用的聚类算法有K-means、两步聚类、Kohonen网络等,可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。

第五步:评估结果。

在对用户群进行细分之后,会得到多个细分的客户群体,但是,并不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试:与业务目标相关的程度;可理解性和是否容易特征化;基数是否足够大,以便保证一个特别的宣传活动;是否容易开发独特的宣传活动等。

第六步:应用细分模型。

根据客户细分的结果,市场部门制定合适的营销活动,进行有针对性的营销。总之,客户细分是金融机构与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势,只有通过深入分析用户消费行为,精确识别、细分用户市场,开发出针对不同层次用户的服务品牌进行服务营销,方能使得各方价值发挥到最大,实现共赢。不同级别的客户对服务的需求以及“赢”的概念是不同的,正是因为为不同的客户提供不同的产品和服务才能使客户都达到满意,从而在市场上占据有利地位。

细分方法介绍

在数据挖掘中,往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类:

(1)K-Means聚类法。使用者需要首先确定数据分为K群,该方法会自动确定K个群的中心位置,继而计算每条记录距离这K个中心位置的距离,按照距离最近的原则把各个记录都加入到K个群,重新计算K个群的中心位置,再次计算每条记录距离这K个中心位置的距离,并把所有记录重新归类,再次调整中心位置,依次类推……,当达到一定标准时,结束上述步骤。这种方法运算速度快,适合于大数据量。

(2)两步聚类法:这种方法首先需要确定一个最大群数(比如说n),并把数据按照一定的规则分为n个群,这是该方法的第一步。接着按照一定的规则把n 个群中最接近的群进行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比如说m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据结构本身自动确定应该把数据分为多少群。

(3)Kohonen网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。为了提升客户的全面经验,许多金融机构将数据挖掘应用于客户细分在客户个人属性以及产品之间提取直观的联系。从这些现存的客户以及潜在客户中得到的客户特征经验的知识进而可以用于配合市场营销工作来增加交叉销售的机会,提高投资回报率(ROI)(Peacock,1998)。这使得金融机构可以提供特定的产品与服务来满足客户的需要。数据挖掘中典型的细分应用要么是使用有监督学习方法,要么是使用非监督学习方法来进行(Chung和Gray,1999)。对于前者,数据挖掘模型学习客户的行为特征与已经确定的我们感兴趣的输出变量之间的关系。例如,客户评价模型,将客户分为不同的等级,并得出每个等级的特征。另一方面,非监督学习方法基于客户的输入属性产生不同的类别,而且不需要设定我们感兴趣的输出变量。每个类别的成员享有相似的特征,并且与其它的类别之间的特征是截然不同的。

客户细分实例

假设Z 银行拥有以下数据:

1.客户号;

2.储蓄账户余额;

3.活期账户余额;

4.投资账户余额;

5.日均交易次数;

6.信用卡支付模式;

7.是否有抵押贷款;

8.是否有赊账额度;

9.客户年龄;

10.客户性别;

11.客户婚姻状况;

12.客户家庭情况(孩子数);

13.客户年收入;

14.客户是否拥有一辆以上小汽车;

15.客户流失状态。

假设Z银行希望建立更为有效的市场营销战略来给持有高价值投资组合的客户推销其金融产品。为了做到这些,Z银行使用细分模型特征化了其客户,并且依赖客户属性分割这些客户为截然不同的类别。其后,自然可以利用这些从客户中得到的特征剖面来定制其市场营销战略来给其潜在的客户提供更多目标性的信息。

此外,假设Z银行使用监督学习以及非监督学习建模技术来生成客户的特征。这里我们使用SPSS公司的数据挖掘软件Clementine。相关的数据挖掘应用程序图示参见图3.2。

图3.2:投资账户余额分段

对于监督学习模型,基于上面涉及到的十三个变量基础进行细分。目标变量是由输入变量-投资账户余额,直接生成的多分类变量。关于投资账户余额的分布可以由直方图节点来决定如何适当的将每个客户分类到三个箱柜中:高、中和低投资组合价值。关于投资账户余额的分布与归箱也显示在图3.2中。关于投资账户余额的归箱组成了我们感兴趣的投资价值目标变量。

进而可以构建Logistic回归模型来生成基于不同单个客户投资价值的不同分类的特征属性。

图3.3描述了Logistic回归模型的结果。进一步的结果表明,在预测每个客户的投资价值的预测模型中统计上显著的变量有储蓄账户余额和活期账户余额。进而,高价值投资组合客户的特征就由这些变量来决定。

图3.3:Logistic回归模型

非监督学习细分模型是基于十四个变量来做出的。在这种情形下,不需要设定目标变量。对于非监督学习细分,通常可以使用三种数据挖掘算法,也就是,两步聚类、Kohonen 网络以及K-means聚类。对于我们的演示,这里仅仅使用了两步聚类。

图3.4:两步聚类分析结果

图3.4显示了使用两步聚类法生成的五个类别的聚类模型。关于每一类的信息也列了出来。例如,第4类包含278个客户,它描述了在这个类别中大部分的客户是男性且大部分无抵押贷款的客户。另一方面,第2类描述了大多数为已婚女性且拥有赊账额度的客户。

更进一步的数据探索是建立在两步聚类结果上,通过利用我们所关心的变量的直方图或是分布图等图形化展示手段来比较五个类别的结果。图3.5显示了关于五个类别中流失状态以及流失率的比较。我们可以看到,第2类中拥有大多数的主动以及被动流失的客户。同样,第3类则是相当的混合了现存客户以及主动流失的客户。此外,第4类中具有最大的现存客户。对于其他的分类输入变量来讲可以绘出相似的分布图。

图3.5:五个类别中流失状态以及流失率的比较

最后,关于投资账户的直方图也可以根据五个类别分别绘出,参见图3.6。我们可以看到,第1类包含了相对其它几类更多的低投资账户的客户。另一方面,第3类则是由持有高价值投资账户的客户组成。如此,如果Z银行能够促销新产品,第3类的客户可能是更为有希望的目标群体,能够生成更好的市场营销结果。利用这些知识,Z 银行现在能够设计适当的银行产品来满足那些不同的客户群体。

图3.6:五个类别的投资账户余额的直方图

4.营销响应

为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上,一方面,客户每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告,缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,用户越来越看重个性化服务,对新的金融产品具有较大的需求。

为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。

所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。

什么是营销响应?

营销响应模型是一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响应,自变量是客户及其行为的各种属性,如:客户年龄,客户收入,客户最近一次购买产品的时间,客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动进行响应,这样,当以后有类似的活动时,可以针对具有较高响应可能性的客户进行相应的营销活动。而对响应度不高的客户就不用对他们进行营销活动,从而减少活动成本,提高投资回报率。

如何提高营销响应率?

金融机构应当在深入了解客户需求和客户特征的基础上,制定营销策略,从而达到增加营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群开展营销活动,而是针对每一个客户开展活动。所谓“知己知彼,百战不殆”,建立在对客户需求良好把握基础之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动,首先需要回答以下几个问题:?

?对谁开展营销活动? ?

?多长时间开展一次营销活动? ?

?何时开展营销活动? ?

?如何开展营销活动?

金融机构在数据挖掘技术的帮助下,针对客户数据建立营销响应模型,在合适的时间,通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响应率和投资回报率。

图4.1:营销活动的四个要素

1)选择合适的客户

金融机构对以往的营销数据进行分析,采用决策树等数据挖掘方法,识别出具有高响应率的客户的特征。通过选择合适的客户,可以排除对促销活动响应不积极的客户,将目标客户的数量大大减小,从而在实现更有针对性地营销的同时减小营销成本。据统计,通过减小目标客户的数量,通常可以节省25%-40%的营销费用,同时增加营销响应率。

2)选择合适的渠道

第二步是要针对用户选择合适的营销渠道,也就是和客户接触的方式。通过使用每个用户偏爱的方式与之接触,也有利于提升客户响应率。在确定促销渠道时,要考虑客户对渠道的偏爱,渠道成本,期望的响应率,其他营销限制条件等。

3)选择合适的时间

在当今竞争激烈的社会里,客户有很多满足自己需求的机会和选择。因此,一旦发现了客户尚未被满足的需求或者出现遗失客户风险时,一定要及时和客户接

4)选择合适的活动频率

此外,并不是促销活动越多,效果越好。活动计划者需要根据实际情况,针对具体的客户,选择一个最优的活动次数,既使得客户的各种需求得到较好的满足,又避免因为过于频繁的接触而导致客户的反感。同时,过多的营销活动,也会增加营销成本。需要在增加的成本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也至关重要,比如,对于不喜欢过于频繁的接到促销电话的客户,就要适量降低电话促销的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动,可以将促销活动的投资收益率提高25%-50%。

表4.1:营销活动四阶段总结

营销响应应用案例

一家虚拟银行新推出了一种新的抵押贷款业务,为了推广新产品,该银行决定执行直接营销活动。为此,分析人员收集了以往进行类似产品的营销时公司执行营销活动的相关数据,经过数据挖掘应用,计算客户影响概率,得到客户响应率模型,进而对客户对新产品的响应概率进行预测。从中选取响应率高的客户开展新产品营销活动。

(1)商业理解

识别出可能响应直接营销活动的客户,提高营销活动的响应率。

(2)数据理解

收集部分以往的营销活动数据(包括对活动响应的客户数据和未对活动响应的客户数据),选择客户属性,包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户响应。所选取的数据属性包括:用户编号、年龄、收入、孩子数目、是否有汽车、是否抵押、居住区域、性别、婚姻状况、在该银行是否有储蓄账户、在该银行是否有活期账户、是否对促销活动响应等12个字段。

其中是否响应是预测的目标变量,共有两个属性:

否:客户未响应营销活动;是:客户响应营销活动。

图4.2:数据

首先采用直方图,散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否察看收入与孩子数目之间的散点图。可见,如果只考虑“孩子数目”属性,发现随着孩子数目增加,响应的客户比率降低。同时考虑“孩子数目”和“收入”属性,发现响应比率与“收入”和“孩子数目”的比值相关,这个比值通常被成为“相对收入”。

图4.3:收入与孩子数目的散点图

下图是孩子数目的分布图。有一个孩子的客户占44.3%。而在这些客户中,大部分是对直接营销活动进行响应的客户。总的说来,随着孩子数目增加,客户响应率降低。

图4.4:孩子数目的分布图

(3)数据准备

根据数据理解的结果准备建模需要的数据,包括数据选择、新属性的派生,数据合并等。在数据理解中发现,是否响应与“收入”和“孩子数目”的比率有关,因此,派生出“相对收入”属性,定义为:如果“孩子数目”为0,则“相对收入”=“收入”;否则,“相对收入”=“收入”/“孩子数目”。

(4)建立模型及评估

对数据进行预处理之后,分别使用C5.0决策树模型,神经网络模型,C&RT决策树分类模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。然后对测试集分别应用这三个模型,选取效果最好的模型部署到企业中。

大大数据概念、技术、特点、应用与案例

大数据 目录 一、大数据概念 (1) 二、大数据分析 (2) 三、大数据技术 (3) 四、大数据特点 (4) 五、大数据处理 (4) 六、大数据应用与案例分析 (6) 一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"

指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 二、大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,

中国平安保险电子商务案例分析报告

传统与新兴的融合——平安保险电子商务之路摘要: 本案例分析分三部分展开对中国平安保险有限公司电子商务的研究,第一部分介绍平安保险的概况和开展电子商务的背景,第二部分具体介绍平安保险的电子商务模式,第三部分从三个角度对平安保险的案例进行评析,包括开展电子商务的益处,存在的问题及启示。关键词:保险电子商务,流程模式,KPI管理,BCC,CRM 一、平安保险概况和开展电子商务的背景 1.1概况 ?中国平安保险(集团)股份有限公司是中国第一家以保险为核心的,融证券、信托、银行、资产管理、企业年金等多元金融业务为一体的紧密、高效、多元的综合金融服务集团。是中国第一家股份制保险公司,也是中国第一家有外资参股的全国性保险公司。公司成立于1988年,总部位于深圳。2003年2月,经国务院批准,公司完成分业重组,更名为现名。经营理念“差异、专业、领先、长远”。 1.2公司历程 ?1988年3月21日成为我国第一家股份制、地方性的保险企业 ?1992年9月29日平安保险公司更名为中国平安保险公司 ?1995年实行了产险、寿险、证券、投资四大业务的统一管理、分业经营。总公司成立电脑工作委员会

?1996年平安信托投资公司和中国平安保险海外公司成立 ?1998年麦肯锡改革方案全面推出 ?1998年10月中旬,中国第一家全国性电话咨询中心—平安Call Center 项目将全面提升平安服务、销售和信息管理的手段和水平。同时电子商务项目也开始起步?2000年平安3A客户服务体系初步建成。7月18日,平安全国电话中心95511在苏州开通,并力争三年内建成亚洲最大的企业电话中心;8月18日,一站式综合理财网站PA18正式启用,平安大步进入电子商务 ?2002年6月27日引进礼贤业务员甄选系统(LASS系统) ?2003年更名为中国平安保险股份有限公司。国内首次实现特服号码海外直拨 ?2004年11月10日平安人寿行销支援管理系统正式投入使用 ?2006年8月成功收购深圳商业银行89.24%股权,取得一张全国性的中资银行牌照。 ?2007年,在上海证券交易所挂牌上市,证券简称为“中国平安” ?2008年,发布公告,公开发行不超过12亿股的A股和412亿元分离交易可转债,其融资总额将近1600亿元。 1.3开展电子商务的背景 ?开展电子商务的必然性: 1.我国加入WTO,由“保险+电子商务”组成的服务则是国内保险公司与国外保险公司竞争的有力武器。 2.随着网络的普及,通过网络对保险业的需求业迅速增长

大学数据挖掘期末考试题

第 - 1 - 页 共 4 页 数据挖掘试卷 课程代码: C0204413 课程: 数据挖掘A 卷 一、判断题(每题1分,10分) 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。( ) 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。( ) 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。( ) 4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。( ) 5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。( ) 6. 属性的性质不必与用来度量他的值的性质相同。( ) 7. 全链对噪声点和离群点很敏感。( ) 8. 对于非对称的属性,只有非零值才是重要的。( ) 9. K 均值可以很好的处理不同密度的数据。( ) 10. 单链技术擅长处理椭圆形状的簇。( ) 二、选择题(每题2分,30分) 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward 方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C 关联规则分析 D 聚类 4.关于K 均值和DBSCAN 的比较,以下说法不正确的是( ) A.K 均值丢弃被它识别为噪声的对象,而DBSCAN 一般聚类所有对象。 B.K 均值使用簇的基于原型的概念,DBSCAN 使用基于密度的概念。 C.K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇 D.K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward ’s Method 说法错误的是:( )

大数据挖掘商业案例

1.前言 随着中国加入WTO,国金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘、模式(Patterns>等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。 从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。

数据挖掘概述

数据挖掘概述 阅读目录 ?何为数据挖掘? ?数据挖掘背后的哲学思想 ?数据挖掘的起源 ?数据挖掘的基本任务 ?数据挖掘的基本流程 ?数据挖掘的工程架构 ?小结 回到顶部何为数据挖掘? 数据挖掘就是指从数据中获取知识。 好吧,这样的定义方式比较抽象,但这也是业界认可度最高的一种解释了。对于如何开发一个大数据环境下完整的数据挖掘项目,业界至今仍没有统一的规范。说白了,大家都听说过大数据、数据挖掘等概念,然而真正能做而且做好的公司并不是很多。

笔者本人曾任职于A公司云计算事业群的数据引擎团队,有幸参与过几个比较大型的数据挖掘项目,因此对于如何实施大数据场景下的数据挖掘工程有一些小小的心得。但由于本系列博文主要是结合传统数据挖掘理论和笔者自身在A云的一些实践经历,因此部分观点会有较强主观性,也欢迎大家来跟我探讨。 回到顶部数据挖掘背后的哲学思想 在过去很多年,首要原则模型(first-principle models)是科学工程领域最为经典的模型。 比如你要想知道某辆车从启动到速度稳定行驶的距离,那么你会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数;然后运用牛顿第二定律(或者其他物理学公式)建立模型;最后根据该车多次实验的结果列出方程组从而计算出模型的各个参数。通过该过程,你就相当于学习到了一个知识--- 某辆车从启动到速度稳定行驶的具体模型。此后往该模型输入车的启动参数便可自动计算出该车达到稳定速度前行驶的距离。 然而,在数据挖掘的思想中,知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了100辆型号性能相似的车从启动到速度稳定行驶的距离,那么我就能够对这100个数据求均值,从而得到结果。显然,这一过程是是直接面向数据的,或者说我们是直接从数据开发模型的。 这其实是模拟了人的原始学习过程 --- 比如你要预测一个人跑100米要多久时间,你肯定是根据之前了解的他(研究对象)这样体型的人跑100米用的多少时间做一个估计,而不会使用牛顿定律来算。 回到顶部数据挖掘的起源 由于数据挖掘理论涉及到的面很广,它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动,常常建立一个能够产生数据的模型;而机器学习则以算法为驱动,让计算机通过执行算法来发现知识。仔细想想,"学习"本身就有算法的意思在里面嘛。

大数据应用案例

四大经典大数据应用案例解析 什么是数据挖掘(Data Mining)?简而言之,就是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。在本文中,我们从数据挖掘的实例出发,并以数据挖掘中比较经典的分类算法入手,给读者介绍我们怎样利用数据挖掘的技术解决现实中出现的问题。 数据挖掘是如何解决问题的? 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。下面关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。

一、尿不湿和啤酒 很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(Wal Mart)拥有世上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式: 在美国,到超市去买婴儿尿不湿是一些年轻的父亲下班后的日常工作,而他们中有30%~40%的人同时也会为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒。另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿。既然尿不湿与啤酒一起被购买的机会很多,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长。按常规思维,尿不湿与啤酒风马牛不相及,若不是

数据挖掘案例分析--啤酒与尿布讲课稿

前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长! 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 购物篮分析的算法很多,比较常用的有A prior/ ?’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作流程,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。 缘起 “啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的“啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中

大学数据挖掘期末考试题

:号学 题目-一 - -二 二 三四五六七八九十总成绩复核得分 阅卷教师 :名姓班 级 业专 院 学院学学科息信与学数 题试试考末期期学季春年学一320数据挖掘试卷 课程代码:C0204413课程:数据挖掘A卷 一、判断题(每题1分,10分) 1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。() 2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。() 3. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。() 4. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。() 5. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。() 6. 属性的性质不必与用来度量他的值的性质相同。() 7. 全链对噪声点和离群点很敏感。() 8. 对于非对称的属性,只有非零值才是重要的。() 9. K均值可以很好的处理不同密度的数据。() 10. 单链技术擅长处理椭圆形状的簇。() 二、选择题(每题2分,30分) 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分 离?() A. 分类 B.聚类 C.关联分析 D.主成分分析 2. ()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A. MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3. 数据挖掘的经典案例“啤酒与尿布试验”最 主要是应用了()数据挖掘方法。 A分类B预测C关联规则分析D聚类 4. 关于K均值和DBSCAN的比较,以下说法不正确的是() A. K均值丢弃被它识别为噪声的对象,而DBSCAN —般聚类所有对 象。 B. K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 C. K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 D. K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5. 下列关于 Ward 'Method说法错误的是:() A. 对噪声点和离群点敏感度比较小 B. 擅长处理球状的簇 C. 对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D. 当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6. 下列关于层次聚类存在的问题说法正确的是:() A. 具有全局优化目标函数 B. Group Average擅长处理球状的簇 C. 可以处理不同大小簇的能力 D. Max对噪声点和离群点很敏感 7. 下列关于凝聚层次聚类的说法中,说法错误的事: () A. 一旦两个簇合并,该操作就不能撤销 B. 算法的终止条件是仅剩下一个簇 2 C. 空间复杂度为O m D. 具有全局优化目标函数 8规则{牛奶,尿布}T{啤酒}的支持度和置信度分别为:()

数据挖掘商业案例

金融行业应用 1.前言 随着中国加入WTO,国内金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢? 数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。用统计分析和数据挖掘解决商务问题。 金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。 客户细分―使客户收益最大化的同时最大程度降低风险 市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。 数据挖掘实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。 客户流失―挽留有价值的客户 在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。 为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着按照客户的价值和流失倾向给客户排序,找出最有价值的客户。 交叉销售 在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。 研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。

武大学长美国计算机硕士经典案例分享

武大学长美国常春藤名校计算机硕士录取经验分享 哥大CS系成立于1979年,项目在计算机领域覆盖很广,学生可以从八个研究方向中选择自己感兴趣的进行修习,包括计算生物学、计算机安全、计算机科学基础、机器学习、自然语言处理、网络系统、软件系统、视觉与图形等等。 哥伦比亚大学计算机硕士课程要求学生必须完成30个学分,至少2.7以上的GPA成绩并完成选修课程,需要完成至少6学分的6000-level的技术课程,最多3学分的非计算机/技术的课程。 一.武汉申友留学美国计算机硕士名校成功申请案例 学生姓名:Chen Z.H. 本科学校:武汉大学 本科专业:计算机 基本条件:GPA3.3+,IELTS7.5,GRE320+ 申请方向:美国计算机硕士 录取结果: 哥伦比亚大学(美国常春藤名校,2019年US NEWS 排名TOP3) 佛罗里达大学($4500奖学金) 武汉申友留学顾问老师点评Chen同学的申请: 记得特别清楚,去年9月28日下午,陈爸爸很焦急的打电话过来咨询孩子的留学申请,因为一开始是打算考国内的研究生,临时决定还是出国读研,留学考试都还没有开始准备,研究背景方面也有所欠缺,所以时间特别紧凑。国庆节过后立即签约加入了武汉申友美国服务,考试辅导老师Bella老师立即帮陈同学定制短期冲刺备考方案,武汉高级文书顾问Jessy老师也根据陈同学的现有背景出文书初稿,好在陈同学学习能力很强,在短短2个月的时间,一战考出GRE320+,IELTS7.5的好成绩,赶在圣诞节前提交了部分申请。由于陈同学的GPA不是很高,研究背景方面有些不足,陆续也收到过几所学校的拒信,但是我们都没有放弃,在3月份终于拿到了哥伦比亚大学和佛罗里达大学带奖学金的录取。 二.去美国留学计算机专业申请难度分析 计算机专业毕业生的一大优势是薪资水平高,本科毕业生平均起薪为58,419美元,研究生则增加到了70,625美元。极高的投资回报率,加上专业方向非常多,不同背景的学生都可以申请,所以计算机专业申请人数连年持续走高,申请竞争激烈,而申请的软硬件条件也水涨船高。

数据挖掘考试习题

欢迎阅读 数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测C关联规则分析D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇 C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 O C.空间复杂度为()2m D.具有全局优化目标函数

数据挖掘经典案例

数据挖掘经典案例 当前,市场竞争异常激烈,各商家企业为了能在竞争中占据优势,费劲心思。使用过OLAP技术的企业都知道,OLAP技术能给企业带来新的生机和活力。OLAP技术把企业大量的数据变成了客户需要的信息,把这些信息变成了价值,提高了企业的产值和效益,增强了客户自身的竞争实力。 “啤酒与尿布”的故事家喻户晓,在IT界里,几乎是数据挖掘的代名词,那么各商家企业受了多少启发,数据挖掘又给他们带来了多少价值呢? 客户需求 客户面对大量的信息,用OLAP进行多维分析。如:一个网上书店,用OLAP技术可以浏览到什么时间,那个类别的客户买了多少书等信息,如果想动态的获得深层次的信息,比如:哪些书籍可以打包推荐,哪些书籍可以在销售中关联推出等等,就要用到数据挖掘技术了。 当客户在使用OLAP技术进行数据的多维分析的时候,联想到“啤酒与尿布”的故事,客户不禁会有疑问,能不能通过数据挖掘来对数据进行深层次的分析呢,能不能将数据挖掘和OLAP结合起来进行分析呢? SQL Server 2005 数据挖掘: SQL Server 2005的Data Mining是SQL Server2005分析服务(Analysis Services)中的一部分。数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之,数据挖掘派生数据中存在的模式和趋势。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案,例如:预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。 Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法 (SSAS),可以预测离散属性,例如,预测目标邮件活动的收件人是否会购买某个产品。 Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性,预测连续属性,例如,预测下一年的销量。 Microsoft 顺序分析和聚类分析算法预测顺序,例如,执行公司网站的点击流分析。 Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组,例如,使用市场篮分析来建议客户购买其他产品。 Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法,查找相似项的组,例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 巅峰之旅之案例一:网上书店关联销售 提出问题 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务,等方式吸引更多的读者。

西安交大数据挖掘第一次作业

第一次作业 Weihua Wang 1.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。 该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答: 亚马逊在线交易平台上的数据挖掘,显示出数据挖掘对于商务的成功是至关重要的。该商务需要统计交易用户的消费信息,对用户进行分类; 根据用户的历史消费信息,给出推荐广告,并定期往用户邮箱发送商品推荐邮件等等。 该商务应用了关联规则数据挖掘功能。 数据挖掘是一个非常重要且复杂的模块,要发现数据间的关联规则,不可能通过简单的数据查询处理或者简单的统计分析实现。亚马逊有非常大的数据库,然后也会有各种各样的数据分析包括会跟很多的出版社还有一些中间商建立合作,然后会帮助他们去做书籍的整理、销售,就是客户满意度。 所以,数据量很大,然后亚马逊还需要通过这些数据去挖掘一些对于客户,对于用户有指导性的数据,他们建立的复杂的系统去分析这些数据。 2.使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模 式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。 1)关联规则挖掘 超市货架的商品摆放:方便面--->火腿肠(大部分人买方便面的同时会买火腿肠)。 2)序列模式分析 可口可乐公司根据往年月份销售额的分析,给出不同季节的生产量。 3)分类 移动公司根据用户的话费和缴费情况等信息,将用户分为不同的等级的

用户,给予不同的透支欠费额度。 4) 聚类 研究人员通过对全国各省份经济的分析,将全国经济大致划分为三种不同的经济类型。 5) 孤立点分析 税务部门根据纳税户的相关数据,重点调查孤立点的纳税情况。 3. 与挖掘少量数据相比,挖掘海量数据的挑战有哪些? a) 规模大。需要高效算法, 进行并行处理。 b) 高维特征。导致搜索空间指数级增长,需要更好的算法进行维度约减。 c) 过拟合。因过分强调对训练样本的效果导致过度拟合,使得对未知预测 样本效果就会变差。 d) 动态、缺失、噪音数据的存在。 e) 领域知识的运用。 f) 模式的可理解性。 4. 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得 到如下结果: a) 计算age 和%fat 的均值、中位数和标准差。 232272394147495052/184654256575826061AgeAve ?+?+++++++?? ??? ==?+++?++ 9.526.57.817.831.425.927.4%27.231.234.642.528.833.4/1828.8 30.234.132.941.235.7fatAve ?? ? ? ++++++=++++++=+++++??? ()5052/251AgeMid =+=

广州药业集团进行数据分析系统的成功案例

广州药业集团进行数据分析系统的成功案例 广州药业集团是香港上市的H股公司,下属八家制造企业,三家医药贸易企业,是中国最大的中成药制造商,中国第三大医药贸易商。广药集团应用广药数据分析系统后,应收款周转天数由70天下降到50天,对于提高企业的整体管理水平和科学决策水平起到了积极的作用。 1.应用背景 由于广药是当初多家企业组成集团公司,在各企业中都存在各自的系统。这就决定了它们产生的营运数据的不同,这些数据格式的不同,跨越软件和硬件平台的不同。而且随着时间的增加,数据量日益增大,如果需要及时访问大量的数据会使系统瘫痪。企业中的这些系统仅是简单的MIS系统,无法提供深层次的管理决策服务,这些数据也没得到很好的利用。同时随着我国市场经济的不断发展,WTO的临近。广药面临着日趋激烈的市场竞争,为了提高企业的整体管理水平、适应社会能力和竞争能力,高效快捷地进行数据分析处理和预测是就显得非常重要。因此建立一套用来"了解和掌握市场信息和企业内部的变化情况和根据市场的变化迅速调整优化企业的产品结构和市场策略"的系统就非常重要。 2.系统目标 帮助企业对内部和外部的营运数据进行收集、归纳、量化,并提供多种数据分析、数据挖掘工具,辅助企业管理者进行科学分析预测,提高企业的数量化管理水平、提高的市场竞争力。主要功能有:关键指标分析系统、财务分析系统、销售分析系统、生产计划和库存分析系统、预测分析系统及多元统计分析系统。 3.体现价值 (1) 实现了关键性分析数据的集中存储、管理和共享 广药以往用于关键性经营指标分析的数据由于存放在不同平台的业务系统数据库中,没有统一的管理和规划,几乎没有通用性和和兼容性,很难实现总部的管理利用,只能由人工进行统计和计算,时间的延误和计算的误差无法避免,分析准确性较差。在广药数据分析系统的实施与使用后,由系统自动从不同的业务系统平台定期收集所需相关数据,存储于数据库中,实现了数据的集中存储、管理和共享。 (2) 日常经营统计数据的灵活获取 以往,要获得不同分析角度不同侧重点的可靠性指标需要进行大量重复工作,难度较大,很难做到及时准确,同时,分析角度稍有变化现有的数据可能就无法再次利用。在使用广药数据分析系统后,系统提供的多视角分析和数据挖掘功能使用户多角度灵活分析其产品可靠性指标的需求得到充分满足。同时,通过对分析角度之间任的意组合、对分析角度任意层次间的灵活钻取和对分析结果的切片等操作,保证了灵活、高效地获取所需的可靠性指标信息。 (3) 使得管理者可以从复杂的观察工作中抽身而出 以往是管理者想知道目前企业经营状况,须叫有关人员统计大量报表,让后管理者再从报表中查找问题。上了广药数据分析系统后,只要通过设定企业日常关注的一些重要指标及这些指标异常的参数,每天本模块会自动检查这些指标,发现问题即时提示。这样管理者每

《数据挖掘:你必须知道的32个经典案例》

第五章 经典的机器学习案例 机器学习是一门成熟的学科,它所能解决的问题涵盖多种行业。本章介绍了四种经典的机器学习算法,它们所关心的重点在于机器学习是如何将统计学和数据挖掘连接起来的。通过学习本章,读者可以见识到机器学习的特殊魅力,并明白机器学习与其他学科的异同。使读者可以熟练地应用机器学习算法来解决实际问题是本章的目标。 5.1 机器学习综述 在正式开始了解机器学习之前,我们首先要搞清楚这样一个问题:世界上是不是所有的问题都可以使用一行一行清楚无误的代码解决?举个例子,倘若我们想让一个机器人完成出门去超市买菜并回家这一任务,我们能不能在程序里详详细细地把机器人所有可能遇到的情况以及对策都写下来,好让机器人一条一条按着执行? 答案是“很难”。机器人在路上可能遭遇塑料袋儿、石头、跑动的儿童等障碍物,在超市可能遇到菜卖完了、菜篮挪动了位置等问题,把这些问题全部罗列出来是不太可能的,因此我们就难以使用硬性的、固定的程序来命令机器人完成这件事,我们需要的是一种灵活的、可以变化的程序。就像你去买菜时不用你妈告诉你路上看见有人打架要躲开,你就知道要躲开一样(即便你以前从来没有遇见过这种情况),我们希望机器人也可以根据经验学习到正确的做法,而不是必须依赖程序员一条一条地输入“IF……THEN……”。 美国人塞缪尔设计的下棋程序是另一个的经典机器学习算法。塞缪尔设计了一个可以依靠经验积累概率知识的下棋程序,一开始这个程序毫无章法,但四年以后,它就能够打败塞缪尔了,又过了三年,它战胜了美国的围棋冠军。这个下棋程序进步的方式和人类学习下棋的过程非常类似,如何让机器像人类一样学习,正是机器学习关心的事情。 不难想象,机器学习是一门多领域交叉的学科,它主要依赖统计学、概率论、逼近论等数学学科,同时也依赖算法复杂度、编译原理等计算机学科。通俗的说,机器学习首先将统计学得到的统计理论拿来进一步研究,然后改造成适合编译成程序的机器学习算法,最终才会应用到实际中。但机器学习和统计学仍有不同的地方,这种差异主要在于统计学关心理论是否完美,而机器学习关心实际效果是否良好。同时,机器学习侧重于归纳和总结,而不是演绎。 机器学习将统计学的研究理论改造成能够移植在机器上的算法,数据挖掘将机器学习的成果直接拿来使用。从这一意义上来说,机器学习是统计学和数据挖掘之间的桥梁。机器学习也是人工智能的核心,机器学习算法普遍应用于人工智能的各个领域。此外,机器学习和模式识别具有并列的关系,它们一个注重模仿人类的学习方式,一个注重模仿人类认识世界的方式。因此机器学习、数据挖掘、人工智能和模式识别等本来就属于一个不可分的整体,离开其他学科的支持,任何学科都难以独立生存下去。 本章介绍了语义搜索、顺序分析、文本分析和协同过滤这四种经典的机器学习算法,它们不仅理论完善,同时也具有广泛的应用。通过本章的学习,读者将看到机器学习在各行各业中的神奇作用以及广阔前景,并学会如何使用机器学习算法来解决实际问题。

SQL Server数据挖掘经典案例——网上书店关联销售、客户类别销售分析

SQL Server数据挖掘经典案例——网上书店关联销售、客户类别销售分析 转自https://www.360docs.net/doc/30770831.html,/wrtandy/articles/591170.html 当前,市场竞争异常激烈,各商家企业为了能在竞争中占据优势,费劲心思。使用过OLAP 技术的企业都知道,OLAP技术能给企业带来新的生机和活力。OLAP技术把企业大量的数据变成了客户需要的信息,把这些信息变成了价值,提高了企业的产值和效益,增强了客户自身的竞争实力。 “啤酒与尿布”的故事家喻户晓,在IT界里,几乎是数据挖掘的代名词,那么各商家企业受了多少启发,数据挖掘又给他们带来了多少价值呢? 客户需求 客户面对大量的信息,用OLAP进行多维分析。如:一个网上书店,用OLAP技术可以浏览到什么时间,那个类别的客户买了多少书等信息,如果想动态的获得深层次的信息,比如:哪些书籍可以打包推荐,哪些书籍可以在销售中关联推出等等,就要用到数据挖掘技术了。当客户在使用OLAP技术进行数据的多维分析的时候,联想到“啤酒与尿布”的故事,客户不禁会有疑问,能不能通过数据挖掘来对数据进行深层次的分析呢,能不能将数据挖掘和OLAP结合起来进行分析呢? SQL Server 2005 数据挖掘: SQL Server 2005的Data Mining是SQL Server2005分析服务(Analysis Services)中的一部分。数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之,数据挖掘派生数据中存在的模式和趋势。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案,例如:预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。 Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法(SSAS),可以预测离散属性,例如,预测目标邮件活动的收件人是否会购买某个产品。 Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性,预测连续属性,例如,预测下一年的销量。 Microsoft 顺序分析和聚类分析算法预测顺序,例如,执行公司网站的点击流分析。Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组,例如,使用市场篮分析来建议客户购买其他产品。 Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法,查找相似项的组,例如,将人口统计数据分割为组以便更好地理解属性之间的关系。 巅峰之旅之案例一:网上书店关联销售 提出问题 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务,等方式吸引更多的读者。 是不是这样就够了呢?这里,给众多网上书店的商家们提供一种非常好的促进销售量增长,吸引读者的方法,就是关联销售分析。这种方法就是给客户提供其他的相关书籍,也就是在客户购买了一种书籍之后,推荐给客户其他的相关的书籍。这种措施的运用给他们带来了可观的效益。

相关文档
最新文档