数据分析实验报告册

《数据分析》

实验报告册

20 15 - 20 16 学年第一学期

班级：

学号：

姓名：

授课教师：实验教师：

实验一网上书店的数据库创建及其查询

实验1-1 “响当当”网上书店的数据库创建

实验1-2 “响当当”网上书店库存、图书和会员信息查询

实验1-3 “响当当”网上书店会员分布和图书销售查询

实验二企业销售数据的分类汇总分析

实验2-1 Northwind公司客户特征分析

实验2-2 “北风”贸易公司销售业绩观测板

实验三餐饮公司经营数据时间序列预测

实验3-1 “美食佳”公司半成品年销售量预测

实验3-2 “美食佳”公司月管理费预测

实验3-3 “美食佳”华东分公司销售额趋势预测

实验3-4 “美食佳”公司会员卡发行量趋势预测

实验3-5 “美食佳”火锅连锁店原料年度采购成本预测

实验四住房建筑许可证数量的回归分析

实验4-1 “家家有房”公司建筑许可证一元线性回归分析实验4-2 “家家有房”公司建筑许可证一元非线性回归分析实验4-3 “家家有房”公司建筑许可证多元线性回归分析实验4-4 “家家有房”公司建筑许可证多元非线性回归分析

实验五手机用户消费习惯聚类分析

实验六新产品价格敏感度测试模型分析

实验一网上书店的数据库创建及其查询实验1-1 “响当当”网上书店的数据库创建

实验类型：验证性实验学时：2

实验目的：

?理解数据库的概念；

?理解关系（二维表）的概念以及关系数据库中数据的组织方式；

?了解数据库创建方法。

实验步骤：

这个实验我们没有直接做，只是了解了一下数据库的概念。

实验1-2 “响当当”网上书店库存、图书和会员信息查询

实验目的

?理解odbc的概念；

?掌握利用microsoft query进行数据查询的方法。

实验步骤：

1..建立odbc数据源：启动microsoft office query应用程序，在microsoft office query应用程序窗口中，执行“文件/新建”命令，出现“选择数据源”对话框，单击“确定”按钮，出现“创建新数据源”对话框，按照要求做相应的操作。

选择数据源对话框创建新数据源窗口

做图上所示的选择odbc microsoft access安装对话框

选择数据库对话框选择数据源对话框

2.查询设计1—低库存量图书信息查询：选择“bookstore”数据源，点击“确定”，进入“添加表”窗口，添加书表后，在“查询设计”窗口的“表”窗格中，分别双击“书”表中需要查询的“书名”、“isbn”、“库存量”等字段，执行“视图/条件”命令，在“条件”窗格的“条件字段”行的第一列中选择“库存量”，并在下一行中输入“<10”后回车，即可在“查询结果”窗格中显示响当当网上书店中库存量小于10的图书信息。

选择bookstore数据源选择好表后点击“添加”

查询设计窗口-查询的相关数据查询设计窗口-输入条件

3.查询设计2—低库存量图书信息以及出版社信息查询：分别添加“书”和“出版社”表，双击“书”表的“书名”和“isbn”字段以及“出版社”表的“出版社名称”、“电话”和“地址”字段，再输入相应的条件即可进行查询。

添加了表后的查询设计窗口

实验小结：

因为我们没有尝试建立数据库，直接开始数据查询，所以实验时遇到了很多问题。比如我们在选择数据源时就遇到了麻烦，弄了半天才开始查询设计，而且不是很熟练，一直做了四五个查询设计才慢慢熟练起来。

实验思考：

1、在数据查询过程中，如果所选的某个表与其他表之间没有联系的话，会产生什么问题？

答：所选的查询数据将会全部显示在查询窗口，与其它表的数据没有直接联系。这样就不能表现出表与表数据之间的关联性，数据也就失去赋予的意义。

2、若“响当当个”网上书店的某个会员了解自己最近2年的图书订购情况，请为他设计一个查询。

答：分别添加“书”、“会员”、“订单明细”和“订单”表，双击“书”表的“书名”、“会员”表的“姓名”和“订单明细”表的“订购数量”以及“订单”表的“订购日期”字段，在向查询条件窗口中输入某一会员姓名以及相应的订购日期.

实验1-3 “响当当”网上书店会员分布和图书销售查询

实验目的

?掌握复杂的数据查询方法：多表查询、计算字段和汇总查询

实验步骤:

1.查询设计1—会员分布信息查询：添加“会员”表到查询设计窗口，在“查询设计”窗口的“表”窗格中，双击“会员”表的“城市”和“会员号”字段。然后双击“会员号”字段的列标，在“编辑列”对话框中输入列标“会员人数”，并选择汇总方式：“计数”，单击“确定”按钮后即可看到查询结果，其中显示了各城市的会员人数，再设置相应的条件，进行相应的查询。

选择汇总方式查询结果

2.查询设计2—图书总订购量和总销售金额查询：添加“订单”、“订单明细”和“书”表。在“查询设计”窗口的“表”窗格中，双击“订单”表的“订购日期”、“订单明细”表的“订购数量”字段。另外还要构造一个计算字段“销售金额”，方法是直接在某空白列的列标中输入公式；在上面的字段中，“订购数量”和“销售金额”是汇总字段，分类字段是“订购年份”，双击“订购日期”列的列标，在编辑列对话框的字段项中输入公式“year(订购日期)”，在其中的列标项中输入“订购年份”然后分别双击“订购数量”和“订购数量*单价”字段的列标，在编辑列对话框的列标项中分别输入“总订购数量”和“总销售金额”字样，并在总计项中选择“求和”。

在“条件”窗格的“条件字段”行的第一列中选择“订购日期”，并在下一行中输入“>=2005-7-1 and <=2006-6-30”后回车，即可在“查询结果”窗格中显示2005上半年和2006下半年的图书总订购量和总销售金额。此时，若想了解各月份的图书总订购量和总销售金额，只要再查询设计窗口中增加一个“订购月份”分类字段即可

增加了订购月份后的查询结果排序对话框

3.查询设计3—会员订购图书详细信息查询：添加“会员”、“订单”、“订单明细”和“书”表，在表之间建立合适的联系。在“查询设计”窗口的“表”窗格中，双击“会员”表的“城市”、“会员号”、“姓名”字段，“订单”表的“订单号”字段、“书”表的“书名”字段和“订单明细”表的“订购数量”字段。选择“记录”菜单的“排序”命令，在随后出现的“排序”对话框中设置排序方式

查询结果共84条记录

4.查询设计4—各城市会员图书订购数量和销售金额统计：添加“会员”、“订单”、“订单明细”和“书”表，在表之间建立合适的联系。在“查询设计”窗口的“表”窗格中，双击“会员”表的“城市”、“订单明细”表的“订购数量”字段。分别双击“订购数量”和“订购数量*单价”字段的列标，在编辑列对话框的列标项中分别输入“总订购数量”和“总销售金额”字样，并在总计项中选择“求和”。按“确定”按钮后即可查看结果。

5.查询设计5—被订购图书的作者和出版社信息查询：添加“会员”、“订单”、“订单明细”、“书”、“作者”和“出版社”表。在表之间建立合适的联系。在“查询设计”窗口的“表”窗格中，双击“书”表的“书名”、“作者”表的“姓名”和“出版社”表的“出版社名称”字段。在条件窗格中添加关于订购日期和会员姓名的条件。可以查看到结果为会员“刘丹”在2007年共订购了7本图书。

实验小结：

实验1-3的实验比较难，但是经过前面的练习还是比之前快一点，不过还是遇到一些困难，比如查看到结果为会员“刘丹”在2007年共订购了几本书的查询设计就在输入指令时卡住了，经过几个同学讨论还是做出来了。一直到晚上天黑了才把一共十个实验做完。

实验思考:

1、在进行汇总查询的过程中，如果被选择的字段除了分类字段以外还包含了其他字段。

查询结果是否正确？为什么?请举例说明。

答：不正确，如果被选择的字段除了分类字段以外还包含了其他字段,那么query将把多余的字段自动作为分类字段。

2、“响当当”网上书店的管理人员想了解最近2年中那位作者的书是最畅销，请你设计一个查询找到相关作者。

答：查询近两年的总订购量。

实验二企业销售数据的分类汇总分析

实验2-1 North wind公司客户特征分析

实验类型：验证性实验学时：2

实验目的：

? 理解数据分类汇总在企业中的作用与意义；

? 掌握数据透视表工具的基本分类汇总功能；

? 掌握建立分类汇总数据排行榜、生成时间序列、绘制praetor曲线图、计算各地区客户分布、统计各地区客户的平均销售额和大宗销售时间序列的方法和步骤。

实验步骤：

一、汇总客户销售额排行榜

为了汇总客户销售额的排行榜，首先要获得客户每笔销售的销售额、所购买产品的类别以及销售发生的时间，然后再利用数据透视表工具将销售额按照客户名称、产品类别和销售时间加以汇总。

步骤1：获取各客户每笔销售的销售额、销售产品的类别和时间。

在一张空白的工作表中，选择菜单“数据”→“数据透视表和数据透视图” →“外部数据源”，单击“获取数据按钮”，随后启动了Microsoft Query，选择所建立的连接到Northwind.mdb数据库的ODBC数据源——“NW”，并选择“确定”，选择“客户”表中的的“公司名称”、“订单”表中的“订购日期”、以及“类别”表中“类别名称”，随后Query弹出窗口“‘查询向导’无法继续，因为该表格无法链接到您的查询中。您必须在Microsoft Query 中的表格之间拖动字段，人工链接。”这是因为类别表无法同订单表建立联系。单击“确定”。

要查询销售额，需要在Query中首先增加“订单明细”表，利用其中的“单价”、“数量”与“折扣”字段中的数据，才能计算销售额。在数据窗格中，在一个空白字段的名称处输入公式：“订单明细.单价*数量*(1-折扣)”。键入回车后就可以计算出销售额。见图2-7。

随后，将“产品”表也添加到查询中，虽然查询结果中并不包括任何“产品”表中的字段，但是该表的能够建立“类别”表与“订单明细”表之间的联系（“订单明细”表指明所订购产品的ID，“产品”表指明该产品属于哪一个类别）。此时，查询中的表都建立了正确的联系，并在查询结果中包括了汇总所需要的数据。如图2-7。

图2-7 查询各客户每笔销售的销售额、销售产品的类别和时间将计算销售额的字段的列标命名为“销售额”。选择Query菜单中的“文件”→“将数据返回Microsoft Office Excel” ，此时Query已经关闭，我们的操作对象回到了Excel，单击“下一步”，指定位置在“现有工作表”，单元格A3，单击完成。

步骤2：汇总客户销售额排行榜，并排序。

此时，在工作表的区域A1:G16的位置，出现了数据透视表的框架，数据透视表的浮动工具栏和数据透视表的字段列表。

为了能对销售的时间——“订购日期”进行组合以获得各年的销售额，首先将“订购日期”拖至行域，将“销售额”拖至数据域，“类别名称”拖至列域，得到如图2- 8所示的数据透视表。

图2-8 按订购日期与类别汇总销售额

为了能将销售额按照年度汇总，将光标停留在“订购日期”下方的任何单元格，右击鼠标，选择“组合及显示明细数据”→“组合”，选择组合的步长为年。

然后将单元格A4当中的字段名称“订购日期”改为“订购年”，将它推至页域，将字段列表中的“公司名称”拖到行域，让透视表按照列总计，从大到小排列，就得到了如图2-9所示的数据透视表。它能够反映了三年或者各年度，各个客户的销售额的大小，以及排列名词的先后，还能够观察到各客户订购的产品类别和该类别的销售额。

图2-9 按照订购年、客户公司名称、类别名称汇总的销售额排行榜

二、汇总前三大客户各月销售额，并绘制图形

在前一部分实验的基础上，选择前三个最重要的客户，进一步观察购买情况，他们购买情况的变化将对公司整体销售业绩产生很大影响。所以，将前三大客户的销售数据加以展开，按月显示其销售的变化。

步骤1：将实验要求1所汇总的数据透视表复制到新的工作表。

步骤2：利用数据透视表，汇总前三大客户的销售额时间序列。

按照实验要求1汇总的数据透视表，反映出“高上补习班、正人资源、大钰贸易”是公司的前三大客户。点开“公司名称”字段，选中这三个公司名称，并拖到列域。

将列域的字段“类别名称”拖出数据透视表。将页域的字段“订购年”旋转到行域，将其重新组合。选择组合的步长为“月”和“年”，把字段名称修改为“订购年”与“订购月”。光标停留在数据表中任何单元格，右击鼠标，选择“表格选项”，将“对于空数据项显示”设置为“0”，即当该单元格汇总出的数据值为空时，在数据透视表中将其显示为0。此时得到的前三大客户销售额时间序列见图2-10。

图2-10 Northwind公司前三大客户销售额时间序列

步骤3：绘制前三大客户销售额时间序列图。

光标停留在数据透视表中，选择菜单“插入”→“图表”，在当前工作簿自动插入一张图表。选择菜单“图表”→“位置”，将该图表调整到与数据透视表位于同一张工作表。选择菜单“图表”→“图表类型”，选择“折线图”→“数据点折线图”。随后，再对该图的大小、外观以及数据系列的格式加以调整，就能得到Northwind公司前三大客户销售额时间序列图，如图2-1所示。

三、绘制按照客户汇总的客户数与销售额帕累托曲线

步骤1：查询“订购日期”、客户的“公司名称”与“销售额”等数据。

在Excel的空白工作表中，选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”，利用Microsoft Query，从“订单”表、“订单明细”表与“客户”表中查询“订购日期”、客户的“公司名称”与“销售额”（销售额=订单明细.单价*数量*(1-折扣)）等字段，将所查询数据返回Excel。

步骤2：利用查询的数据，制作数据透视表。

从数据透视表的字段列表中，选择“订购日期”，拖至行域，将“销售额”拖至数据域。将“订购日期”字段按年组合，然后拖至页域，将“公司名称”拖至行域，按照销售额从大到小的顺序排列，得到按照年度和客户公司名称汇总的数据透视表，如图2-11。

图2-11 Northwind公司按照年度汇总的各客户销售额

步骤3：利用数据透视表的数据，计算客户数累计百分比与客户销售额累计百分比，绘制帕累托曲线。

在区域D4:G4依次输入说明文字，“公司名称”、“ 客户百分比”、“ 客户数累计百分比”、“销售额累积百分比”。按照图2-12输入公式，得到如图2-13所示的汇总数据。

图2-12 Northwind公司按照年度汇总客户数累计百分比和销售额累计百分比公式

图2-13 Northwind公司按照年度汇总客户数累计百分比和销售额累计百分比区域F5:F93汇总累计的客户数，即到该客户为止，已有客户数占到总客户数的百分比。区域G5:G93汇总了到该客户为止，已有客户实现的销售额占总销售额的百分比。

选中区域F4:G93的数据，绘制无数据点散点图，得到如图2-14所示图形。

图2-14 客户数与销售额的帕累托初步曲线

步骤4：在曲线上添加代表20%客户数的垂直参考线。

在I5:I7单元格输入“20%”，在J5与J7单元格输入“0”和“120%”，在J6单元格输入公式：“=INDEX(G5:G93,MA TCH(I5,F5:F93,1),1)”，即从客户数累计百分比中，查找到20%的客户数在第几行，然后用INDEX函数查找，该行对应的销售额累计百分比，计算结果如图2-15。在前面所绘制的图表上，添加一条垂直参考线。该参考线的X轴数据来自区域I5:I7，Y轴数据来自区域J5:J7，得到如图2-2所示的帕累托曲线。

该曲线反映出，Northwind公司20%的客户只实现了59%的销售额，低于20/80准则的比例。通过在数据透视表中调整页域的值，可以发现：96年、97年比例都不足58%，98年有所增长，达到了63%，还是远低于80%。因此，Northwind公司今后销售工作的重点应是更多地关注大客户，通过增加大客户的销售额来增加整个公司的销售额。

图2-15 Northwind公司客户数与销售额帕累托曲线垂直参考线数据最后公司客户销售额与客户数parato曲线呈现如图所示:

图2-2 公司客户销售额与客户数parato曲线

四、绘制按照订单汇总的销售额与销售次数帕累托曲线

步骤1：查询“订购日期”、“订单ID”与“销售额”等数据。

在Excel的空白工作表中，选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”，利用Microsoft Query，从“订单”表和“订单明细”表中查询“订购日期”、“订单ID”与“销售额”（销售额=订单明细.单价*数量*(1-折扣)）等字段，将查询数据返回Excel。

步骤2：利用查询的数据，制作数据透视表。

从数据透视表的字段列表中，选择“订购日期”，拖至行域，将“销售额”拖至数据域。将“订购日期”字段按年组合，拖至页域，将“订单ID”拖至行域，按照销售额从大到小的顺序排列，得到按照年度和订单ID汇总的数据透视表，如图2-16。

图2-16 Northwind公司按照年度汇总各订单销售额

步骤3：利用数据透视表的数据，计算客户数累计百分比与销售额累计百分比，绘制帕累托曲线。

在区域D4:G4依次输入说明文字，“销售次数百分比”、“ 销售次数累计百分比”、“ 销售额累计百分比”。按照图2-17输入公式，得到如图2-18所示的汇总数据。

图2-17 Northwind公司按照年度汇总客户数累计百分比和销售额累计百分比公式

图2-18 Northwind公司按照年度汇总客户数累计百分比和销售额累计百分比区域E5:E834计算单次销售占总销售次数（即订单数）的百分比，区域F5:F834汇总累计销售次数占总销售次数的百分比，即到该订单为止，已有订单数占到总订单数的百分比。区域G5:G834汇总到该订单为止，已有订单实现的销售额占总销售额的百分比。

选中区域F4:G834的数据，绘制无数据点散点图，得到如图2-19图形。

图2-19 销售次数与销售额的帕累托初步曲线

步骤4：在曲线上添加代表20%客户数的垂直参考线。

在I5:I7单元格输入“20%”，在J5与J7单元格输入“0”和“120%”，在J6单元格输入公式：“=INDEX(G5:G834,MATCH(I5,F5:F G834,1),1)”，即从销售次数累计百分比中，查找20%的销售次数在第几行，用INDEX函数查找，该行对应的销售额累计百分比。在前面所绘制的图表上，添加一条垂直参考线。该参考线的X轴数据来自区域I5:I7，Y轴数据来自区域J5:J7，得到如图2-3所示的帕累托曲线。

图2-3 norwthwind公司销售次数与销售额parato曲线

五、汇总各地区客户分布

步骤1：查询“公司名称”与“地区”字段等数据。

将Excel一张空白工作表命名为“5.各地区客户分布”。选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”，利用Microsoft Query，从“客户”表中查询“公司名称”与“地区”字段，然后将所查询的数据返回Excel。

步骤2：利用查询的数据，制作数据透视表。

从数据透视表的字段列表中，选择“地区”，拖至行域，选择“公司名称”，拖至数据域，得到按照地区汇总的客户数的数据透视表，如图2-20。

图2-20 按照地区汇总客户数的数据透视表

步骤3：利用数据透视表的数据，制作数据透视图。

光标停留在数据透视表中，选择菜单“插入”→“图表”，在新建工作表中建立数据透视图，改变该图表位置，将其调整到“5.各地区客户分布”工作表中，得到了如图2- 4所示的图形。

图2-4 公司各地区客户的分布

六、绘制各地区平均销售额及销售额占总销售额百分比

步骤1：查询“地区”与“销售额”等数据。

在Excel的空白工作表中，选择菜单“数据”→“数据透视表与数据透视图” →“外部数据源”→“获取数据”，利用Microsoft Query，选择数据源，从“客户”、和“订单明细”表中，查询客户的“地区”与“销售额”（销售额=订单明细.单价*数量*(1-折扣)）等字段，将查询数据返回Excel。查询时应包括“订单”表，该表能建立“客户”表和“订单明细”表之间的联系。

步骤2：利用查询的数据，制作数据透视表。

从数据透视表的字段列表中，选择“地区”，拖至行域，将“销售额”拖至数据域，得到按照地区汇总的销售额的数据透视表，如图2-21。

图2-21 Northwind公司按照地区汇总的销售额

步骤3：利用数据透视表的数据，计算各地区平均销售额与销售额占总销售额的百分比。

在区域D4:G4依次输入说明文字：“地区”、“ 客户数”、“平均销售额”与“ 销售额占总额百分比”。按照图2-22输入公式，得到如图2-23所示的汇总数据。

图2-22 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比公式

图2-23 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比区域E5:E10存放各地区的客户数，区域F5:F10计算各地区平均销售额，区域G5:G10计算各地区销售额占总销售额的百分比。利用区域D5：D10与区域F5：G10中的数据，绘制柱型图。由于一个数据系列是平均销售额，一个数据系列是百分比，两个系列数值相差悬殊，所以在图2-24中，只能观察到一个数据系列的柱型，另一个系列的柱型贴近“0”，无法观察到。选中代表百分比的系列（选中平均销售额的系列，移动上下箭头，直到选中代表百分比的系列），选择菜单“格式”→“数据系列格式” →“坐标轴”→“次坐标轴”，将代表百分比的系列对应到次坐标轴。

图2-24 Northwind公司按照地区汇总平均销售额、销售额占总销售额百分比图

观察该图形，可以发现“华东”与“西南”地区，客户的平均销售额比其他地区高，说明这两个地区大客户的销售情况比较好。华北地区虽然销售额占总销售额的百分比最高，是Northwind公司最重要的市场，但该地区大客户的销售情况并不理想，平均销售额并不高。今后该地区应更注重改善大客户销售情况。

七、绘制大宗销售的销售额时间序列。

步骤1：查询“公司名称”、“订单ID”、“ 订购日期”与“ 销售额”等数据。

将Excel的空白工作表命名为“7.大宗销售数据”，选择菜单“数据”→“获取外部数据” →“外部数据源”→“获取数据”，利用Microsoft Query，从“客户”表、“订单”表和“订单明细”表中，查询“公司名称”、“订单ID”、“ 订购日期”与“ 销售额”（销售额=订单明细.单价*数量*(1-折扣)）等字段，将查询数据返回Excel，存放在区域A1:D831。

步骤2：挑选出销售额超过2000元的订单。

在区域F1：F2，按照图2-25，输入筛选的条件。利用Excel高级筛选功能，挑选出满足条件的记录，存放在区域H1：K186中。

图2-25 Northwind公司2000元以上销售额的订单的销售情况步骤3：利用挑选出的订单，制作数据透视表。

利用区域H1：K186中的数据，制作数据透视表。从数据透视表的字段列表中，选择“订购日期”，拖至行域，将“销售额”拖至数据域，将“订购日期”字段按年组合，然后拖至页域，将“公司名称”拖至页域，规定行域字段必须“显示空数据项”，得到如图2-26所示的数据透视表。

图2-26 Northwind公司大宗销售的时间序列数据透视表

步骤4：绘制大宗销售的时间序列图形。

为了让图形能够正确反映销售情况，去掉没有发生销售的时间点，如96年1月到96年6月，我们在数据透视表外面，另准备作图数据。按照图2-27，在区域E12:E33输入从96年7月到98年4月的时间（98年5月数据不完整，故不包括在时间序列内），在单元格F12输入公式：“=C12”，并复制到区域F13：F33。

图2-27 Northwind公司大宗销售的时间序列作图数据

利用区域E11:F33中的数据，制作折线图，将图表X轴的类型改为分类轴。“公司名称”选择“全部”，在图形上尝试添加恰当的趋势线，显示趋势线的方程与R2，并前推两个周期，得到的时间序列图形如图2-28。从该图形上，可以大致了解大宗销售的变化趋势，对未来的情况做初步估计。

图2-28 Northwind公司大宗销售的时间序列图

实验小结：

数据透视表分类汇总的两种方法：1、先将数据导入Excel成为数据清单，利用数据透视表汇总对数据清单进行汇总2、利用数据透视表直接从数据库中查询、并汇总数据。数据透视表功能，使用最方便，可以把汇总表“旋转”，从不同的“角度”查看数据，还可以筛选数据、合并数据、展开详细数据、或者选择部分数据加以查看。

实验思考：

1、你还能从哪些方面对客户的销售数据进行分析，帮助该公司促进销售或者为客户提供更好的服务？

答:使用Northwind公司的销售数据，生成净销售额时间序列，创建可以调节的产品列表框，并绘制特定产品销售金额时间序列的图形。观测每种产品在不同年份不同月份的销售情况，对下阶段的销售做出预测。

2、帕累托曲线可以帮助分析投入与产出之间的关系，它还能帮助该公司进哪些方面的分析？

答：①带来80%利润的20%的顾客在哪里，并且留住他们。②销售量达80%的20%产品是哪些，找出来好好包装开发。③销售量达80%的20%城市在哪里，并且维护好。

实验三餐饮公司经营数据时间序列预测实验3-1 “美食佳”公司半成品年销售量预测

实验类型：验证性实验学时：2

实验目的:

? 理解数平滑预测法的概念；

? 掌握在excel中建立指数平滑预测模型的方法；

? 掌握寻找最优平滑常数的各种方法。

实验步骤:

一、运用“数据分析”工具进行指数平滑预测

步骤1：确定时间序列的类型。

如图3-1所示在单元格a1:b21中布置好公司从1987-2006年的销售量数据。然后，绘制公司从1987年至2006年共20年的销售量折线图，结果如图3-2所示，既没有趋势成分也没有季节成分，呈现出的是围绕一个水平上下波动的时间序列，说明适合用指数平滑法或移动平均法进行预测。本实验的数据是年度数据，建议采用指数平滑预测法。

图3-1 公司从1987-2006年的销售量数据

图3-2 公司从1987-2006年的销售量折线图

步骤2：利用“数据分析”工具中的指数平滑功能进行预测。

在“工具”菜单中选择“加载宏”，在随后弹出的“加载宏”对话框中选择“分析工具库”，然后单击“确定”按钮，将会在“工具”菜单下出现“数据分析”选项。在“工具”菜单中选择“数据分析”，在出现的“数据分析”对话框中选择“指数平滑”，出现如图3-3所示的对话框。

图3-3 指数平滑分析的参数设置

在“指数平滑”对话框中，在“输入区域”输入“b2:b21”单元格，“阻尼系数”输入“0.75”（注：阻尼系数=1-平滑常数），在“输出区域”输入“c2”单元格，单击“确定”按钮，将会看到如图3-4中单元格c2:c21的输出结果。

将单元格c21往下复制，便得到2007年的指数平滑预测值7.96。

数据分析实验报告

数据分析实验报告文稿归稿存档编号：[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-

第一次试验报告习题1.3 1建立数据集，定义变量并输入数据并保存。 2数据的描述，包括求均值、方差、中位数等统计量。分析—描述统计—频率，选择如下：输出：统计量全国居民农村居民城镇居民 N 有效 22 22 22 缺失均值 1116.82 747.86 2336.41 中值 727.50 530.50 1499.50 方差 1031026.918 399673.838 4536136.444 百分位数 25 304.25 239.75 596.25 50 727.50 530.50 1499.50 75 1893.50 1197.00 4136.75 3画直方图，茎叶图，QQ 图。（全国居民）分析—描述统计—探索，选择如下：输出：全国居民 Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 0 . 56788 数据分析实验报告【最新资料，WORD 文档，可编辑修改】

2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图，选择如下：输出：习题1.1 4数据正态性的检验：K—S检验，W检验数据：取显着性水平为0.05 分析—描述统计—探索，选择如下：（1）K—S检验

结果：p=0.735 大于0.05 接受原假设，即数据来自正太总体。（2 ）W 检验结果：在Shapiro-Wilk 检验结果972.00 w ，p=0.174大于0.05 接受原假设，即数据来自正太总体。习题1.5 5 多维正态数据的统计量数据：

数据分析实验报告

《数据分析》实验报告班级： 07信计0班学号：姓名：实验日期 2010-3-11 实验地点：实验楼505 实验名称：样本数据的特征分析使用软件名称：MATLAB 1. 熟练掌握利用Matlab 软件计算均值、方差、协方差、相关系数、标准差与变异系数、偏度与峰度，中位数、分位数、三均值、四分位极差与极差; 2. 熟练掌握jbtest 与lillietest 关于一元数据的正态性检验； 3. 掌握统计作图方法； 4. 掌握多元数据的数字特征与相关矩阵的处理方法；安徽省1990-2004年万元工业GDP 废气排放量、废水排放量、固体废物排放量以及用于污染治理的投入经费比重见表 6.1.1,解决以下问题：表6.1.1 实验目的

1. 计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵； 2. 计算各指标的偏度、峰度、三均值以及极差； 3?做出各指标数据直方图并检验该数据是否服从正态分布？若不服从正态分布，利用boxcox变换以后给出该数据的密度函数； 4.上网查找1990-2004江苏省万元工业GDR废气排放量，安徽省与江苏省是否服从同样的分布？

程序如下： clear;clc format ba nk %保留两位小数 %%%%%%%%%%%安徽省%数据%%%%%%%%%%%%%%%%%% A=[104254.40 519.48 441.65 0.18 94415.00 476.97 398.19 0.26 89317.41 119.45 332.14 0.23 63012.42 67.93 203.91 0.20 45435.04 7.86 128.20 0.17 46383.42 12.45 113.39 0.22 39874.19 13.24 87.12 0.15 38412.85 37.97 76.98 0.21 35270.79 45.36 59.68 0.11 35200.76 34.93 60.82 0.15 35848.97 1.82 57.35 0.19 40348.43 1.17 53.06 0.11 40392.96 0.16 50.96 0.12 37237.13 0.05 43.94 0.15 34176.27 0.06 36.90 0.13]; %计算各指标的均值、方差、标准差、变异系数、偏度、峰度以及极差 A1=[mea n(A);var(A);std(A);std(A)./mea n(A);skew ness(A,0);kurtosis(A,0)-3;ra nge( A)] %E均值 A2=[1/4 1/2 1/4]*prctile(A,[25 50 75]) % 十算各指标的相关系数矩阵 A3=corrcoef(A) %做岀各指标数据直方图 subplot(221),histfit(A(:,1),8) subplot(222),histfit(A(:,2),8) subplot(223),histfit(A(:,3),8) subplot(224),histfit(A(:,4),7) %检验该数据是否服从正态分布 for i=1:4 [h(i),p(i),lstat(i),cv(i)]=lillietest(A(:,i),0.05); end h,p %十算岀前二列不服从正态分布，利用boxcox变换以后给岀该数据的密度函数[t1,l1]=boxcox(A(:,1)) [t2,l2]=boxcox(A(:,2)) [t3,I3]=boxcox(A(:,3))

数据分析实验报告册

《数据分析》实验报告册 20 15 - 20 16 学年第一学期班级：学号：姓名：授课教师：实验教师：

目录实验一网上书店的数据库创建及其查询实验1-1 “响当当”网上书店的数据库创建实验1-2 “响当当”网上书店库存、图书和会员信息查询实验1-3 “响当当”网上书店会员分布和图书销售查询实验二企业销售数据的分类汇总分析实验2-1 Northwind公司客户特征分析实验2-2 “北风”贸易公司销售业绩观测板实验三餐饮公司经营数据时间序列预测实验3-1 “美食佳”公司半成品年销售量预测实验3-2 “美食佳”公司月管理费预测实验3-3 “美食佳”华东分公司销售额趋势预测实验3-4 “美食佳”公司会员卡发行量趋势预测实验3-5 “美食佳”火锅连锁店原料年度采购成本预测实验四住房建筑许可证数量的回归分析实验4-1 “家家有房”公司建筑许可证一元线性回归分析实验4-2 “家家有房”公司建筑许可证一元非线性回归分析实验4-3 “家家有房”公司建筑许可证多元线性回归分析实验4-4 “家家有房”公司建筑许可证多元非线性回归分析实验五手机用户消费习惯聚类分析实验六新产品价格敏感度测试模型分析

实验一网上书店的数据库创建及其查询实验1-1 “响当当”网上书店的数据库创建实验类型：验证性实验学时：2 实验目的： ?理解数据库的概念； ?理解关系（二维表）的概念以及关系数据库中数据的组织方式； ?了解数据库创建方法。实验步骤：这个实验我们没有直接做，只是了解了一下数据库的概念。实验1-2 “响当当”网上书店库存、图书和会员信息查询实验目的 ?理解odbc的概念； ?掌握利用microsoft query进行数据查询的方法。实验步骤： 1..建立odbc数据源：启动microsoft office query应用程序，在microsoft office query应用程序窗口中，执行“文件/新建”命令，出现“选择数据源”对话框，单击“确定”按钮，出现“创建新数据源”对话框，按照要求做相应的操作。选择数据源对话框创建新数据源窗口做图上所示的选择odbc microsoft access安装对话框

大数据分析技术与应用_实验2指导

目录 1实验主题 (1) 2实验目的 (1) 3实验性质 (1) 4实验考核方法 (1) 5实验报告提交日期与方式 (1) 6实验平台 (1) 7实验内容和要求 (1) 8实验指导 (2) 8.2 开启Hadoop所有守护进程 (2) 8.2 搭建Eclipse环境编程实现Wordcount程序 (3) 1.安装Eclipse (3) 2.配置Hadoop-Eclipse-Plugin (3) 3.在Eclipse 中操作HDFS 中的文件 (7) 4.在Eclipse 中创建MapReduce 项目 (8) 5.通过Eclipse 运行MapReduce (13) 6.在Eclipse 中运行MapReduce 程序会遇到的问题 (16)

1实验主题 1、搭建Hadoop、Eclipse编程环境 2、在Eclipse中操作HDFS 3、在Eclipse中运行Wordcount程序 4、参照Wordcount程序，自己编程实现数据去重程序 2实验目的（1）理解Hadoop、Eclipse编程流程；（2）理解MapReduce架构，以及分布式编程思想； 3实验性质实验上机内容，必做，作为课堂平时成绩。 4实验考核方法提交上机实验报告，纸质版。要求实验报告内容结构清晰、图文并茂。同学之间实验报告不得相互抄袭。 5实验报告提交日期与方式要求提交打印版，4月19日（第10周）之前交到软件学院412。 6实验平台操作系统：Linux Hadoop版本：2.6.0或以上版本 JDK版本：1.6或以上版本 Java IDE：Eclipse 7实验内容和要求（1）搭建Hadoop、Eclipse编程环境；（2）运行实验指导上提供的Wordcount程序；（3）在Eclipse上面查看HDFS文件目录；（4）在Eclipse上面查看Wordcount程序运行结果；（5）熟悉Hadoop、Eclipse编程流程及思想；程序设计题，编程实现基于Hadoop的数据去重程序，具体要求如下：把data1文件和data2文件中相同的数据删除，并输出没有重复的数据，自己动手实现，把代码贴到实验报告的附录里。设计思路：数据去重实例的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。具体就是Reduce的输入应该以数据作为Key，而对value-list则没有要求。当Reduce 接收到一个时就直接将key复制到输出的key中，并将value设置成空值。在MapReduce流程中，Map的输出经过shuffle过程聚集成后会被交给Reduce。所以从设计好的Reduce输入可以反推出Map输出的key应为数据，而

数据分析实验报告

《数据分析》实验报告班级：07信计0班学号：姓名：实验日期2010-3-11 实验地点：实验楼505 实验名称：样本数据的特征分析使用软件名称：MATLAB 实验目的1.熟练掌握利用Matlab软件计算均值、方差、协方差、相关系数、标准差与变异系数、偏度与峰度，中位数、分位数、三均值、四分位极差与极差； 2.熟练掌握jbtest与lillietest关于一元数据的正态性检验； 3.掌握统计作图方法； 4.掌握多元数据的数字特征与相关矩阵的处理方法；实验内容安徽省1990-2004年万元工业GDP废气排放量、废水排放量、固体废物排放量以及用于污染治理的投入经费比重见表6.1.1，解决以下问题：表6.1.1废气、废水、固体废物排放量及污染治理的投入经费占GDP比重年份万元工业GDP 废气排放量万元工业GDP 固体物排放量万元工业GDP废水排放量环境污染治理投资占GDP比重（立方米）（千克）（吨）（%）1990 104254.40 519.48 441.65 0.18 1991 94415.00 476.97 398.19 0.26 1992 89317.41 119.45 332.14 0.23 1993 63012.42 67.93 203.91 0.20 1994 45435.04 7.86 128.20 0.17 1995 46383.42 12.45 113.39 0.22 1996 39874.19 13.24 87.12 0.15 1997 38412.85 37.97 76.98 0.21 1998 35270.79 45.36 59.68 0.11 1999 35200.76 34.93 60.82 0.15 2000 35848.97 1.82 57.35 0.19 2001 40348.43 1.17 53.06 0.11 2002 40392.96 0.16 50.96 0.12 2003 37237.13 0.05 43.94 0.15 2004 34176.27 0.06 36.90 0.13 1.计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵； 2.计算各指标的偏度、峰度、三均值以及极差； 3.做出各指标数据直方图并检验该数据是否服从正态分布？若不服从正态分布，利用boxcox变换以后给出该数据的密度函数； 4.上网查找1990-2004江苏省万元工业GDP废气排放量，安徽省与江苏省是否服从同样的分布？

数值分析实验报告

学生实验报告实验课程名称开课实验室学院年级专业班学生姓名学号开课时间至学年学期

if(A(m,k)~=0) if(m~=k) A([k m],:)=A([m k],:); %换行 end A(k+1:n, k:c)=A(k+1:n, k:c)-(A(k+1:n,k)/ A(k,k))*A(k, k:c); %消去end end x=zeros(length(b),1); %回代求解 x(n)=A(n,c)/A(n,n); for k=n-1:-1:1 x(k)=(A(k,c)-A(k,k+1:n)*x(k+1:n))/A(k,k); end y=x; format short;%设置为默认格式显示,显示5位（2）建立MATLAB界面利用MA TLAB的GUI建立如下界面求解线性方程组：详见程序。五、计算实例、数据、结果、分析下面我们对以上的结果进行测试，求解：

? ? ? ? ? ? ? ? ? ? ? ? - = ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? - - - - - - 7 2 5 10 13 9 14 4 4 3 2 1 13 12 4 3 3 10 2 4 3 2 1 x x x x 输入数据后点击和，得到如下结果：更改以上数据进行测试，求解如下方程组： 1 2 3 4 43211 34321 23431 12341 x x x x ?? ???? ?? ???? ?? ???? = ?? ???? - ?? ???? - ???? ?? 得到如下结果：

宏观经济实验报告

学生实验报告

注：1.指导教师和学生成绩一栏由指导教师填写，其它栏目内容均由学生填写。 2.“实验项目名称”要与该实验课程教学大纲中的“实验项目”相对应。

附一：四、实验指南（一）宏观经济分析的基本方法 1.总量分析法总量分析法是对影响宏观经济的总量指标进行分析，如GDP，消费额、投资额、银行贷款总额、物价水平等。总量分析主要是一种动态分析，主要研究总量指标的变动规律 2.结构分析法是指对经济系统中各组成部分及其对比关系变动规律的分析。比如分析第一产业、第二产业、第三产业之间的比例，分析消费与投资的比例关系。结构分析主要是一种静态分析，即对一定时间内经济系统中各组成部分变动规律的分析 3.宏观分析资料的搜集与处理宏观分析所需的有效资料一般包括政府的重点经济政策与措施、一般生产统计资料、金融物价统计资料、贸易统计资料、每年国民收入统计与景气动向、突发性非经济因素等。（二）宏观经济分析的主要内容宏观经济分析主要包括宏观经运行的变动、宏观经济政策、国际金融环境以及对证券市场的

供求关系等几个方面。当然像人口因素、能源因素以及包括政治因素、战争因素、灾害因素都有可能对证券市场产生决定性的影响，但在一般情况下，上述因素的作用机制必须单独分析研究。宏观经济分析的内容重在对宏观经济形势与经济背景作出基本判断，以分析在新兴加转型背景下中国宏观经济对证券市场的的影响，把握证券市场总体变动趋势，掌握宏观经济政策对证券市场的影响力度与方向，判断整个证券市场的投资价值。 1.宏观经济变动对证券市场的影响宏观经济分析最重要的参考依据要选取官方公开公布的数据，尤其是国家统计局的数据相对最可靠。可借助统计工具与手段，了解证券价格变化与经济运行形势的关联性。宏观经济分析包含的内容有许多，在此可重点选取几个方面进行分析，比如可以以国民生产总值对证券价格的影响，看看经济持续增长与衰退对证券市场的影响；也可以选取就业状况的变动对证券市场影响分析，就业状况的好坏不仅反映了经济状况，而且对证券市场资金供给的增减变化有密切关系。通过具体因素的分析，掌握宏观经济形势对证券市场的影响方式与影响程度。宏观经济的运行形势对证券市场的影响可见表3-1、3-2、3-3。表3-1 评价宏观经济形势的基本指标表3-2 宏观经济运行对证券市场的影响

数据分析实验报告

数据分析实验报告【最新资料，WORD文档，可编辑修改】第一次试验报告习题1.3 1建立数据集，定义变量并输入数据并保存。 2数据的描述，包括求均值、方差、中位数等统计量。分析—描述统计—频率，选择如下：输出：

方差1031026.918399673.8384536136.444百分位数25304.25239.75596.25 50727.50530.501499.50 751893.501197.004136.75 3画直方图，茎叶图，QQ图。（全国居民）分析—描述统计—探索，选择如下：输出：全国居民Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 0 . 122223344 5.00 0 . 56788 2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689

1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图，选择如下：输出：习题1.1 4数据正态性的检验：K—S检验，W检验数据：取显着性水平为0.05 分析—描述统计—探索，选择如下：（1）K—S检验单样本Kolmogorov-Smirnov 检验身高N60正态参数a,,b均值139.00

标准差7.064 最极端差别绝对值.089 正.045 负-.089 Kolmogorov-Smirnov Z.686 渐近显着性(双侧).735 a. 检验分布为正态分布。 b. 根据数据计算得到。结果：p=0.735 大于0.05 接受原假设，即数据来自正太总体。（2）W检验

数据仓库与数据挖掘实验二(多维数据组织与分析)

一、实验内容和目的目的： 1．理解维（表）、成员、层次（粒度）等基本概念及其之间的关系； 2．理解多维数据集创建的基本原理与流程； 3．理解并掌握OLAP分析的基本过程与方法；内容： 1．运用Analysis Server工具进行维度、度量值以及多维数据集的创建（模拟案例）。 2．使用维度浏览器进行多维数据的查询、编辑操作。 3．对多维数据集进行切片、切块、旋转、钻取操作。二、所用仪器、材料（设备名称、型号、规格等）操作系统平台：Windows 7 数据库平台：SQL Server 2008 SP2 三、实验原理在数据仓库系统中，联机分析处理（OLAP）是重要的数据分析工具。OLAP的基本思想是企业的决策者应能灵活地、从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 OLAP是在OLTP的基础上发展起来的，OLTP是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数据的查询和增、删、改等进行处理。而OLAP是以数据仓库为基础的数据分析处理。它具有在线性（online）和多维分析（multi-dimension analysis）的特点。OLAP超越了一般查询和报表的功能，是建立在一般事务操作之上的另外一种逻辑步骤，因此，它的决策支持能力更强。建立OLAP的基础是多维数据模型，多维数据模型的存储可以有多种不同的形式。MOLAP和ROLAP是OLAP的两种主要形式，其中MOLAP（multi-dimension OLAP）是基

于多维数据库的OLAP，简称为多维OLAP；ROLAP（relation OLAP）是基于关系数据库的OLAP，简称关系OLAP。 OLAP的目的是为决策管理人员通过一种灵活的多维数据分析手段，提供辅助决策信息。基本的多维数据分析操作包括切片、切块、旋转、钻取等。随着OLAP的深入发展，OLAP也逐渐具有了计算和智能的能力，这些能力称为广义OLAP操作。四、实验方法、步骤要求：利用实验室和指导教师提供的实验软件，认真完成规定的实验内容，真实地记录实验中遇到的各种问题和解决的方法与过程，并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后，应根据实验情况写出实验报告。五、实验过程原始记录(数据、图表、计算等) 本实验以实验一建立的数据仓库为基础，使用Microsoft的SQL Server Business Intelligence Development Studio工具，建立OLAP相关模型，并实现OLAP的一些简单基本功能。首先打开SQL Server Business Intelligence Development Studio工具，新建一个Analysis Service项目，命名为：DW

数值分析实验(2)word版本

数值分析实验(2)

实验二插值法 P50 专业班级：信计131班姓名：段雨博学号：2013014907 一、实验目的 1、熟悉MATLAB 编程； 2、学习插值方法及程序设计算法。二、实验题目 1、已知函数在下列各点的值为试用4次牛顿插值多项式()4P x 及三次样条函数()S x （自然边界条件）对数据进行插值用图给出(){},,0.20.08,0,1,11,10i i i x y x i i =+=，()4P x 及()S x 。 2、在区间[]1,1-上分别取10,20n =用两组等距节点对龙格函数()2 1125f x x = +作多项式插值及三次样条插值，对每个n 值，分别画出插值函数及()f x 的图形。 3、下列数据点的插值可以得到平方根函数的近似，在区间[]0,64上作图（1）用这9个点作8次多项式插值()8L x （2）用三次样条（第一边界条件）程序求()S x 从得到结果看在[]0,64上，哪个插值更精确；在区间[]0,1上，两种插值哪个更精确？三、实验原理与理论基础

1、拉格朗日差值公式 )()(111k k k k k k x x x x y y y x L ---+ =++ 点斜式 k k k k k k k k x x x x y x x x x y x L --+--=++++11111)( 两点式 2、n 次插值基函数 ....,2,1,0,)()(0n j y x l y x L i j n k k k j n ===∑= n k x x x x x x x x x x x x x l n k n k k k k k ,...,1,0,) () (... ) () (... ) () ()(1100=------= -- 3、牛顿插值多项式 ...))(](,,[)](,[)()(102100100+--+++=x x x x x x x f x x x x f x f x P n ))...(](,...,[100---+n n x x x x x x f )(],...,,[)()()(10x x x x f x P x f x R n n n n +=-=ω 4、三次样条函数若函数],,[)(2b a C x S ∈且在每个小区间],[1+j j x x 上是三次多项式，其中， b x x x a n =<<<=...10是给定节点，则称)(x S 是节点n x x x ,...,,10上的三次样条函数。若在节点j x 上给定函数值),,...,2,1,0)((n j x f y j i ==并成立,,...,2,1,0,)(n j y x S i j ==则称)(x S 为三次样条插值函数。 5、三次样条函数的边界条件（1）0)()(''''''00''====n n f x S f x S （2）'''00')(,)(n n f x S f x S == 四、实验内容 1、M 文件： function [p]=Newton_Polyfit(X,Y) format long g r=size(X); n=r(2); M=ones(n,n); M(:,1)=Y'; for i=2:n

数据分析实验报告

实验一SAS系统的使用【实验类型】（验证性）【实验学时】2学时【实验目的】使学生了解SAS系统，熟练掌握SAS数据集的建立及一些必要的SAS语句。【实验内容】 1. 启动SAS系统，熟悉各个菜单的内容；在编辑窗口、日志窗口、输出窗口之间切换。 2. 建立数据集表1 Name Sex Math Chinese English Alice f908591 Tom m958784 Jenny f939083 Mike m808580 Fred m848589 Kate f978382 Alex m929091 Cook m757876 Bennie f827984 Hellen f857484 Wincelet f908287 Butt m778179 Geoge m868582 Tod m898484 Chris f898487 Janet f866587 1）通过编辑程序将表1读入数据集sasuser.score; 2）将下面记事本中的数据读入SAS数据集，变量名为code name scale share

price: 000096 广聚能源8500 0.059 1000 13.27 000099 中信海直6000 0.028 2000 14.2 000150 ST麦科特12600 -0.003 1500 7.12 000151 中成股份10500 0.026 1300 10.08 000153 新力药业2500 0.056 2000 22.75 3)将下面Excel表格中的数据导入SAS数据集work.gnp； name x1 x2 x3 x4 x5 x6 北京190.33 43.77 7.93 60.54 49.01 90.4 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.46 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.79 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.22 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 21.72 47.12 34.35 5 安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.54 21.59 17.64 19.19 15.97 4.94 山东115.84 30.76 12.2 33.1 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3 湖北140.64 28.26 12.35 18.53 20.95 6.23 湖南164.02 24.74 13.63 22.2 18.06 6.04 广东182.55 20.52 18.32 42.4 36.97 11.68 广西139.08 18.47 14.68 13.41 20.66 3.85 四川137.8 20.74 11.07 17.74 16.49 4.39 贵州121.67 21.53 12.58 14.49 12.18 4.57 云南124.27 19.81 8.89 14.22 15.53 3.03 陕西106.02 20.56 10.94 10.11 18 3.29 甘肃95.65 16.82 5.7 6.03 12.36 4.49 青海107.12 16.45 8.98 5.4 8.78 5.93 宁夏113.74 24.11 6.46 9.61 22.92 2.53

数据分析与挖掘实验报告

《数据挖掘》实验报告目录 1.关联规则的基本概念和方法 (1) 1.1数据挖掘 (1) 1.1.1数据挖掘的概念 (1) 1.1.2数据挖掘的方法与技术 (2) 1.2关联规则 (5) 1.2.1关联规则的概念 (5) 1.2.2关联规则的实现——Apriori算法 (7) 2.用Matlab实现关联规则 (12) 2.1Matlab概述 (12) 2.2基于Matlab的Apriori算法 (13) 3.用java实现关联规则 (19) 3.1java界面描述 (19) 3.2java关键代码描述 (23) 4、实验总结 (29) 4.1实验的不足和改进 (29) 4.2实验心得 (30)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里，数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的，人们事先不知道的但又是潜在有用的信息和知识的过程。许多人将数据挖掘视为另一个流行词汇数据中的知识发现（KDD）的同义词，而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下： ·数据清理（消除噪声和删除不一致的数据）·数据集成（多种数据源可以组合在一起）·数据转换（从数据库中提取和分析任务相关的数据） ·数据变换（从汇总或聚集操作，把数据变换和统一成适合挖掘的形式） ·数据挖掘（基本步骤，使用智能方法提取数

据模式） ·模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式） ·知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。 1.1.2数据挖掘的方法与技术数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法：神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类：以感知机、bp反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以hopfield 的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art 模型、koholon模型为代表的，用于聚类的自组

经济数据分析实验报告

(此文档为word格式，下载后您可任意编辑修改！) 实验报告格式：商学院经济与管理实验教学中心实验报告实验名称经济数据分析综合实验班级学号姓名同组学生姓名实验时间：7-18周得分：批改时间：2014年01月03日实验教师(签名)：孙小红评语：实验一：数据文件的建立一、实验目的 1、理解并掌握数据类型的概念。 2、掌握一份具体问卷转化为数据文件。 3、掌握正确设置变量及属性，区分处理主观题与客观题、单选题、多选题及表格式题目的不同之处。 4、掌握带标签值数据的录入。二、实验内容见《实验手册》。三、实验步骤本次试验的内容是“数据文件的建立”。以下介绍两种不同的数据文件建立方法。第一种输入变量和数据建立数据文件，以“温州企业基本情况”数据文件为例 1、双击打开SPSS 17.0软件，在弹出的对话框中选择“输入数据” 2、切换到“变量视图”，单击“名称”下的空格，输入“ID”，单击“类型”下的空格，选择“数值，宽度为2，小数为0”，单击“标签”下的空格，输入“问卷编号”，其他各列选择默认值 3、同步骤2，在“名称”下输入“企业名称”，在“类型”下选择“字符串，宽度为30，

小数为0”，其余默认。 4、在“名称”下输入“企业性质”，在“类型”下选择“数值，宽度为1，小数为0”。单击“值”，弹出“值标签”对话框，在“值”栏输入“1”，在“标签”输入“国有及国有控股企业”，选择“添加”，同理输入其他的选项，接着按“确定”，其余默认。 5、按照步骤4，输入“企业经营情况”和“所属行业” 6、切换到“数据视图”，在各个变量下输入数据 7、选择“文件”菜单，下拉，按“保存” 第二种导入EXCEL文件建立数据文件，以“学生”数据文件为例 1、双击打开SPSS.17.0 2、选择“文件”菜单，下拉，选择“打开---数据”，在弹出的对话框中，在“文件类型”下拉，选择“EXCEL”，然后再选择“查找范围”，选中所要导入的EXCEL“学生”文件。 3、切换到“变量视图”，在“gender”变量的“值”栏，单击添加“1=男生，2=女生”，点击“确认”。 4、选择“文件”菜单，下拉，按“另存为”，存在D盘四、实验结果与分析 1 企业基本情况 2 态度与认识 3 资金投入、人力资源和企业文化

光电效应实验报告数据处理误差分析

表1-1：不同频率下的遏止电压表 λ（nm）365 404.7 435.8 546.1 577 v（10^14）8.219 7.413 6.884 5.493 5.199 |Ua|(v) 1.727 1.357 1.129 0.544 0.418 表1-2：λ=365（nm）时不同电压下对应的电流值 U/(v)-1.927 -1.827 -1.727 -1.627 -1.527 -1.427 -1.327 I/(10^-11)A-0.4 -0.2 0 0.9 3.9 8.2 14 -1.227 -1.127 -1.027 -0.927 -0.827 -0.727 -0.718 24.2 38.1 52 66 80 97.2 100 表1-3：λ=404.7（nm）时不同电压下对应的电流值 U/(v) -1.477 -1.417 -1.357 -1.297 -1.237 -1.177 -1.117 I/(10^-11)A -1 -0.4 0 1.8 4.1 10 16.2 -1.057 -0.997 -0.937 -0.877 -0.817 -0.757 -0.737 24.2 36.2 49.8 63.9 80 93.9 100 表1-4：λ=435.8（nm）时不同电压下对应的电流值 U/(v)-1.229 -1.179 -1.129 -1.079 -1.029 -0.979 -0.929 I/(10^-11)A-1.8 -0.4 0 2 4.2 10.2 17.9 -0.879 -0.829 -0.779 -0.729 -0.679 -0.629 -0.579 -0.575 24.8 36 47 59 71.6 83.8 98 100 表1-5：λ=546.1（nm）时不同电压下对应的电流值 U/(v)-0.604 -0.574 -0.544 -0.514 -0.484 -0.454 -0.424 I/(10^-11)A-4 -2 0 3.8 10 16.2 24 -0.394 -0.364 -0.334 -0.304 -0.274 -0.244 -0.242 34 46 56.2 72 84.2 98.2 100 表1-6：λ=577（nm）时不同电压下对应的电流值 U/(v)-0.478 -0.448 -0.418 -0.388 -0.358 -0.328 -0.298 I/(10^-11)A-3.1 -1.8 0 2 6 10.2 16.1 -0.268 -0.238 -0.208 -0.178 -0.148 -0.118 -0.088 -0.058 22.1 31.8 39.8 49 58 68.2 79.8 90.1 -0.04 100

数据分析实验报告p

第一次试验报告习题1.3 1建立数据集，定义变量并输入数据并保存。 2数据的描述，包括求均值、方差、中位数等统计量。分析—描述统计—频率，选择如下：输出： 3画直方图，茎叶图，QQ 图。（全国居民）分析—描述统计—探索，选择如下：输出：全国居民 Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 0 . 56788 2.00 1 . 03 数据分析实验报告【最新资料，WORD 文档，可编辑修改】

1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图，选择如下：输出：习题1.1 4数据正态性的检验：K—S检验，W检验数据：取显着性水平为0.05 分析—描述统计—探索，选择如下：（1）K—S检验单样本 Kolmogorov-Smirnov 检验身高 N 60 正态参数a,,b均值139.00 标准差7.064 最极端差别绝对值.089 正.045 负-.089 Kolmogorov-Smirnov Z .686 渐近显着性(双侧) .735 a. 检验分布为正态分布。 b. 根据数据计算得到。结果：p=0.735 大于0.05 接受原假设，即数据来自正太总体。（2）W检验正态性检验

结果：在Shapiro-Wilk 检验结果972.00=w ，p=0.174大于0.05 接受原假设，即数据来自正太总体。习题1.5 5多维正态数据的统计量均值向量为：)767.33,505.4,836.27,219.18(=- X

数值分析实验报告册

实验名称：Lagrange插值（实验一）实验目的：掌握Lagrange插值数值算法，能够根据给定的函数值表达求出插值多项式和函数在某一点的近似值。实验准备： 1.在开始本实验之前，请回顾教科书的相关内容； 2.需要一台准备安装Windows XP Professional操作系统和装有数学软件的计算机。实验内容及要求已知数据如下：要求：试用Lagrange插值多项式求0.5626,0.5635,0.5645 x 时的函数近似值．实验过程：编写Matlab函数M文件Lagrange如下： function yy=lagrange(x,y,xi) m=length(x); n=length(y); if m~=n,error('向量x与y的长度必须一致');end for k=1:length(xi) s=0; for i=1:m z=1; for j=1:n if j~=i z=z*(xi(k)-x(j))/(x(i)-x(j)); end end s=s+z*y(i); end yy=s end 在命令窗口调用函数M文件lagrange，输出结果如下： >>x=[0.56160, 0.56280, 0.56401, 0.56521]; >>y=[0.82741, 0.82659, 0.82577, 0.82495]; >>xi=[0.5626, 0.5635, 0.5645]; >>yi= lagrange (x,y,xi)

yi= 0.8628 0.8261 0.8254 实验总结（由学生填写）：教师对本次实验的评价（下面的表格由教师填写）：实验名称：曲线拟合的最小二乘方法（实验二）实验目的：掌握最小二乘方法，并能根据给定数据求其最小二乘一次或二次多项式，然后进行曲线拟合。实验准备： 1.在开始本实验之前，请回顾教科书的相关内容；

spss相关分析实验报告

实验五相关分析实验报关费一、实验目的：学习利用spss对数据进行相关分析(积差相关、肯德尔等级相关)、偏相关分析。利用交叉表进行相关分析。二、实验内容：某班学生成绩表1如实验图表所示。 1.对该班物理成绩与数学成绩之间进行积差相关分析和肯德尔等级相关分析。 2.在控制物理成绩不变的条件下，做数学成绩与英语成绩的相关分析（这种情况下的相关分析称为偏相关分析）。 3.对该班物理成绩与数学成绩制作交叉表及进行其中的相关分析。三、实验步骤： 1.选择分析→相关→双变量，弹出窗口，在对话框的变量列表中选变量 “数学成绩”、“物理成绩”，在相关系数列进行选择，本次实验选择皮尔逊相关（积差相关）和肯德尔等级相关。单击选项，对描述统计量进行选择，选择标准差和均值。单击确定，得出输出结果，对结果进行分析解释。 2.选择分析→相关→偏相关，弹出窗口，在对话框的变量列表选变量“数学成绩”、“英语成绩”，在控制列表选择要控制的变量“物理成绩” 以在控制物理成绩的影响下对变量数学成绩与英语成绩进行偏相关分析；在“显著性检验”框中选双侧检验，单击确定，得出输出结果，对结果进行分析解释。 3.选择分析→描述统计→交叉表，弹出窗口，对交叉表的行和列进行选择，行选择为数学成绩，列选择为物理成绩。然后对统计量进行设置，选择相关性，点击继续→确定，得出输出结果，对结果进行分析解释。四、实验结果与分析：

表1

五、实验结果及其分析：

分析一：由实验结果可观察出，数学成绩与物理成绩的积差相关系数r=，肯德尔等级相关系数r=可知该班物理成绩和数学成绩之间存在显著相关。

试验设计与数据分析

1.方差分析在科学研究中有何意义？如何进行平方和与自由度的分解？如何进行F检验和多重比较？（1）方差分析的意义方差分析，又称变量分析，其实质是关于观察值变异原因的数量分析，是科学研究的重要工具。方差分析得最大公用在于：a. 它能将引起变异的多种因素的各自作用一一剖析出来，做出量的估计，进而辨明哪些因素起主要作用，哪些因素起次要作用。b. 它能充分利用资料提供的信息将试验中由于偶然因素造成的随机误差无偏地估计出来，从而大大提高了对实验结果分析的精确性，为统计假设的可靠性提供了科学的理论依据。（2）平方和及自由度的分解方差分析之所以能将试验数据的总变异分解成各种因素所引起的相应变异，是根据总平方和与总自由度的可分解性而实现的。（3）F检验和多重比较 ①F检验的目的在于，推断处理间的差异是否存在，检验某项变异原因的效应方差是否为零。实际进行F检验时，是将由试验资料算得的F值与根据df1=df t（分子均方的自由度）、df2=df e（分母均方的自由度）查附表4（F值表）所得的临界F值（F0.05（df1，df2）和F0.01（df1，df2））相比较做出统计判断。若F< F0.05（df1，df2），即P>0.05，不能否定H0，可认为各处理间差异不显著；若F0.05（df1，df2）≤F＜F0.01（df1，df2），即0.01

数据分析实验报告册

数据分析实验报告

数据分析实验报告

数据分析实验报告册

大数据分析技术与应用_实验2指导

数据分析实验报告

数值分析实验报告

宏观经济实验报告

数据分析实验报告

数据仓库与数据挖掘实验二(多维数据组织与分析)

数值分析实验(2)word版本

数据分析实验报告

数据分析与挖掘实验报告

经济数据分析实验报告

光电效应实验报告数据处理 误差分析

数据分析实验报告p

数值分析实验报告册

spss相关分析实验报告

试验设计与数据分析

光电效应实验报告数据处理误差分析