2021年大数据实验报告

课程实验报告

欧阳光明（2021.03.07）专业年级14级软件工程

课程名称大数据技术原理与应用指导教师李均涛

学生姓名吴勇

学号20142205042026

实验日期2017.05.04

实验地点笃行楼B栋301

实验成绩

教务处制

2017年03月09日

实验步骤

1.Liunx输入输出命令。

2.使用touch命令创建文件夹，后缀都为txt。

3.学会在命令行中获取帮助。

4.输出图形字符。

5.查看用户。

6.创建新用户。

7.删除用户。

8.查看文件权限。

9.用ls –A/Al/dl/AsSh查看文件。

10.变更文件所有者。

11.修改文件权限。

12.目录路径。

13.新建空白文件。

14.文件的复制、删除、移动、重命名。

实验环境

Liunx 操作系统

实验结果

与

分析通过学习Liunx操作系统的发展历史、基本操作、用户及文件权限管理以及Linux 目录结构及文件基本操作。是得我大致了解Liunx操作系统的使用，并且能够完成相应的练习。

教师评语

注：可根据实际情况加页

课程实验报告

专业年级14级软件工程

课程名称大数据技术原理与应用

指导教师李均涛

学生姓名吴勇

学号20142205042026

实验日期2017.05.04

实验地点笃行楼B栋301

实验成绩

教务处制

2017年03月09日

实验项目

名称

Hadoop的基本操作

实验目的及要

求1.Hadoop单机模式安装.

2.Hadoop伪分布模式配置部署.

3.Hadoop介绍及1.X伪分布式安装.

4.adoop2.X 64位编译.

5.Hadoop2.X 64位环境搭建.

实验内容1.hadoop三种安装模式介绍,hadoop单机模式安装,测试安装

2.hadoop配置文件介绍及修改,hdfs格式化,启动hadoop进程，验证安装.

3.Hadoop1.X伪分布安装,Hadoop介绍,Hadoop变量配置.

4.Hadoop2.X 64位编译,编译Hadoop2.X 64位,编译Hadoop.

5.搭建环境,部署Hadooop2.X,启动Hadoop.

实验步骤1.用户及用户组,添加用户及用户组,添加sudo权限.

2.安装及配置依赖的软件包,安装openssh-server、java、rsync等,配置ssh免密码登录.

3.下载并安装Hadoop, 下载Hadoop 2.6.0,解压并安装, 配置Hadoop.

4.测试验证.

5.相关配置文件修改:修改core-site.xml:

6.格式化HDFS文件系统.

7.Hadoop集群启动.

8.测试验证.

9.设置Host映射文件.

10.下载并解压hadoop安装包

11.在Hadoop-1.1.2目录下创建子目录.

12.启动hadoop.

13. 编译Hadoop2.X 64位.

14.使用yum安装sun.

注：可根据实际情况加页

课程实验报告

专业年级14级软件工程

课程名称大数据技术原理与应用

指导教师李均涛

学生姓名吴勇

学号20142205042026

实验日期2017.06.01

实验地点笃行楼B栋301 实验成绩

教务处制

2017年03月09日

2. 建立例子文件上传到HDFS中

3.配置本地环境

4.编写代码

5.编译代码

6.使用编译代码读取HDFS文件

2. MapReduce原理及操作。

2.1环境说明。

虚拟机操作系统： CentOS6.6 64位，单核，1G内存

JDK：1.7.0_55 64位

Hadoop：1.1.2

2.2MapReduce原理。

Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会

首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上

去执行，每一个Map 任务处理输入数据中的一部分，当Map 任务完

成后，它会生成一些中间文件，这些中间文件将会作为Reduce 任务

的输入数据。Reduce 任务的主要目标就是把前面若干个Map 的输出

汇总到一起并输出。

2.3Map过程。

每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一

个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大

小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的

大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出

时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制），

会在本地文件系统中创建一个溢出文件，将该缓冲区中的数据写入这

个文件。

2.4Reduce过程。

Reduce会接收到不同map任务传来的数据，并且每个map传来的数

据都是有序的。如果reduce端接受的数据量相当小，则直接存储在

内存中（缓冲区大小由mapred.job.shuffle.input.buffer.percent

属性控制，表示用作此用途的堆空间的百分比），如果数据量超过了

该缓冲区大小的一定比例（由mapred.job.shuffle.merge.percent

决定），则对数据合并后溢写到磁盘中。

2.5测试例子。

1．编写代码。

2.编译代码。

3.打包编译文件。

4.解压气象数据并上传到HDFS中。

5. 运行程序。

6. 查看结果。

实验环境虚拟机操作系统： CentOS6.6 64位，单核，1G内存

JDK：1.7.0_55 64位

Hadoop：1.1.2

实验结果

与

分析实验分析：通过学习HDFS和MapReduce，了解其原理及操作，但是在实验过程中遇到很多问题，例如无法启动Hadoop、无法连接到Hadoop等问题，通过自己请教老师、同学以及网上自己动手查阅资料得以解决。明白其工作原理，从而进一步了解到Hadoop的运行机制与操作，更加了解大数据。

教师评语

注：可根据实际情况加页

20152567-李莹-实验报告4

《大数据技术原理与应用》实验报告题目：MapReduce编程初级实践姓名：李莹日期：2018.6.22

实验四MapReduce编程初级实践一、实验环境操作系统：Linux 工具：Eclipse或者Intellij Idea等Java IDE 二、实验内容 1.安装Hbase 2.创建文件

3.上传文件夹 4.创建项目 5.编程 package org.apache.hadoop.examples; public class WordCount { public WordCount() { } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs(); if(otherArgs.length < 2) {

System.err.println("Usage: wordcount [...] "); System.exit(2); } Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(WordCount.TokenizerMapper.class); job.setCombinerClass(WordCount.IntSumReducer.class); job.setReducerClass(WordCount.IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); for(int i = 0; i < otherArgs.length - 1; ++i) { FileInputFormat.addInputPath(job, new Path(otherArgs[i])); } FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1])); System.exit(job.waitForCompletion(true)?0:1); } public static class IntSumReducer extends Reducer { private IntWritable result = new IntWritable(); public IntSumReducer() { } public void reduce(Text key, Iterable values, Reducer.Context context) throws IOException, InterruptedException { int sum = 0;

大数据分析报告与挖掘实验报告材料

《数据挖掘》实验报告目录 1.关联规则的基本概念和方法 (1) 1.1数据挖掘 (1) 1.1.1数据挖掘的概念 (1) 1.1.2数据挖掘的方法与技术 (1) 1.2关联规则 (2) 1.2.1关联规则的概念 (2) 1.2.2关联规则的实现——Apriori算法 (3) 2.用Matlab实现关联规则 (5) 2.1Matlab概述 (5) 2.2基于Matlab的Apriori算法 (6) 3.用java实现关联规则 (10) 3.1java界面描述 (10) 3.2java关键代码描述 (13) 4、实验总结 (18) 4.1实验的不足和改进 (18) 4.2实验心得 (19)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里，数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的，人们事先不知道的但又是潜在有用的信息和知识的过程。许多人将数据挖掘视为另一个流行词汇数据中的知识发现（KDD）的同义词，而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下：·数据清理（消除噪声和删除不一致的数据） ·数据集成（多种数据源可以组合在一起） ·数据转换（从数据库中提取和分析任务相关的数据） ·数据变换（从汇总或聚集操作，把数据变换和统一成适合挖掘的形式） ·数据挖掘（基本步骤，使用智能方法提取数据模式） ·模式评估（根据某种兴趣度度量，识别代表知识的真正有趣的模式） ·知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识）。 1.1.2数据挖掘的方法与技术数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法：神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类：以感知机、bp反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art模型、koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性，人们难以理解网络的学习和决策过程。遗传算法：遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。sunil已成功地开发了一个基于遗传算法的数据挖掘工具，利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验，结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和bp算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。决策树方法：决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从

大数据实验报告

学生实验报告册（理工类）课程名称：大型数据库技术专业班级：12计算机科学与技术（1）学生学号：学生姓名：所属院部：计算机工程学院指导教师：陈爱萍

2014——20 15学年第2 学期金陵科技学院教务处制

实验报告书写要求实验报告原则上要求学生手写，要求书写工整。若因课程特点需打印的，要遵照以下字体、字号、间距等的具体要求。纸张一律采用A4的纸张。实验报告书写说明实验报告中一至四项内容为必填项，包括实验目的和要求；实验仪器和设备；实验内容与过程；实验结果与分析。各院部可根据学科特点和实验具体要求增加项目。填写注意事项（1）细致观察，及时、准确、如实记录。（2）准确说明，层次清晰。（3）尽量采用专用术语来说明事物。（4）外文、符号、公式要准确，应使用统一规定的名词和符号。（5）应独立完成实验报告的书写，严禁抄袭、复印，一经发现，以零分论处。实验报告批改说明实验报告的批改要及时、认真、仔细，一律用红色笔批改。实验报告的批改成绩采用百分制，具体评分标准由各院部自行制定。实验报告装订要求实验批改完毕后，任课老师将每门课程的每个实验项目的实验报告以自然班为单位、按学号升序排列，装订成册，并附上一份该门课程的实验大纲。

实验项目名称：Oracle数据库安装与配置实验学时： 1 同组学生姓名：实验地点：1316 实验日期：2015/3/27 实验成绩：批改教师：陈爱萍批改时间：

实验1：Oracle数据库安装与配置一、实验目的和要求（1）掌握Oracle数据库服务器的安装与配置。（2）了解如何检查安装后的数据库服务器产品，验证安装是否成功。（3）掌握Oracle数据库服务器安装过程中出现的问题的解决方法。（4）完成Oracle 11g数据库客户端网路服务名的配置。（5）检查安装后的数据库服务器产品可用性。（6）解决Oracle数据库服务器安装过程中出现的问题。二、实验设备、环境设备：奔腾Ⅳ或奔腾Ⅳ以上计算机环境：WINDOWS 7、ORACLE 11g中文版三、实验步骤（1）从Oracle官方网站下载与操作系统匹配的Oracle 11g数据库服务器和客户机安装程序。（2）解压Oracle 11g数据库服务器安装程序，进行数据库服务器软件的安装。

大数据挖掘weka大数据分类实验报告材料

一、实验目的使用数据挖掘中的分类算法，对数据集进行分类训练并测试。应用不同的分类算法，比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。二、实验环境实验采用Weka 平台，数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java 写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据，所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示图1 ARFF格式数据集(iris.arff)

对于iris数据集，它包含了150个实例（每个分类包含50个实例），共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型，class属性为分类属性，表示实例所对应的的类别。该数据集中的全部实例共可分为三类：Iris Setosa、Iris Versicolour和Iris Virginica。实验数据集中所有的数据都是实验所需的，因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性，则需要使用weka平台的Filter(过滤器)实现属性的筛选。实验所需的训练集和测试集均为iris.arff。四、实验过程及结果应用iris数据集，分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价，分别在训练数据上训练出分类模型，找出各个模型最优的参数值，并对三个模型进行全面评价比较，得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器，并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器，要使用该分类器，需要下载libsvm.jar并导入到Weka中。用“Explorer”打开数据集“iris.arff”，并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”，选择LibSVM分类算法。在Test Options 面板中选择Cross-Validatioin folds=10，即十折交叉验证。然后点击“start”按钮：

广东海洋大学大数据库实验报告材料

实验四数据的完整性、安全性一、实验目的 1．掌握数据安全性和完整性的概念，以及如何保证数据库中数据安全及完整性。 2．掌握SQL Server中有关用户、角色及操作权限的管理方法． 3．学会创建和使用规则、缺省。二、实验容 1 数据库的安全性实验，通过SSMS设置SQL Server的安全认证模式．实现对SQL Server 的用户和角色管理，设置和管理数据操作权限． 2数据库的完整性实验。使用Transact-SQL设计规则、缺省、约束和触发器。三、实验要求 1．数据的完整性实验 ⑴用SQL语句创建一学生成绩数据库(XSCJ)，包括学生(XSQK)、课程(KC)和成绩表(XS_KC)：学生情况表（XSQK）列名数据类型长度是否允许为空值学号Char 6 N Char 8 N 性别Bit 1 N 出生日期smalldatetime 2 专业名Char 10 所在系Char 10 联系char 11 Y

课程表（KC）列名数据类型长度是否允许为空值课程号Char 3 N 课程名Char 20 N 教师Char 10 开课学期Tinyint 1 学时Tinyint 1 学分Tinyint 1 N 成绩表（XS_KC）列名数据类型长度是否允许为空值学号Char 6 N 课程号成绩Char Smallint 3 2 N ⑵数据的实体完整性实验 ① 用SSMS分别将学生情况表（XSQK）的学号字段、课程表（KC）的课程号字段设置为主健

②用T－SQL语句将成绩表（XS_KC）的学号、课程号字段设置为主健 ⑶数据的参照完整性实验 ①用SSMS为成绩表（XS_KC）创建外键FK_ XSQK_ID，外键FK_ XSQK_ID参照学生情况表（XSQK）表的学号 ②用T－SQL语句成绩表（XS_KC）创建外键FK_ KC_ID，外键FK_ KC _ID参照课程表（KC）表的课程号 ⑷数据的用户定义完整性实验 ① 用T－SQL语句为学生情况表（XSQK）的列创建一个唯一约束

大数据技术实践实验报告

实验报告课程名称：大数据技术实践实验项目：大数据平台实验仪器： PC机学院：计算机学院专业：计算机科学与技术班级姓名： * 学号： * 日期： 2019-5-9 指导教师： * 成绩：

一. 实验目的 1. 熟练掌握大数据计算平台相关系统的安装部署 2. 理解大数据MapReduce计算模型，并掌握MapReduce程序开发 3. 掌握Hive的查询方法 4. 掌握Spark的基本操作二. 实验内容 1. Hadoop完全分布模式安装 2. Hadoop开发插件安装 3. MapReduce代码实现 4. Hive安装部署 5. Hive查询 6. Spark Standalone模式安装 7. Spark Shell操作三. 实验过程 Hadoop开发插件安装实验步骤： 1.Eclipse开发工具以及Hadoop默认已经安装完毕，安装在/apps/目录下。 2.在Linux本地创建/data/hadoop3目录，用于存放所需文件。切换目录到/data/hadoop3目录下，并使用wget命令，下载所需的插件hadoop-eclipse-plugin-2.6.0.jar。

2.将插件hadoop-eclipse-plugin-2.6.0.jar，从/data/hadoop3目录下，拷贝到/apps/eclipse/plugins的插件目录下。 3.进入ubuntu图形界面，双击eclipse图标，启动eclipse。 5.在Eclipse窗口界面，依次点击Window => Open Perspective => Other。弹出一个窗口。

华中科技大学大数据结构实验报告材料

课程实验报告课程名称：数据结构实验专业班级：信息安全201502 学号：姓名：指导教师：报告日期：2016年10月28 日计算机科学与技术学院

目录 1基于顺序存储结构的线性表实现 (1) 1.1问题描述 (1) 1.2系统设计 (1) 1.3系统实现 (1) 1.4实验小结 (1) 2 基于二叉链表的二叉树实现 (2) 2.1问题描述 (2) 2.2系统设计 (2) 2.3系统实现 (2) 2.4实验小结 (2) 指导教师评定意见 (3) 附录A 基于顺序存储结构线性表实现的源程序 (4) 附录B 基于二叉链表二叉树实现的源程序 (5)

1 基于顺序存储结构的线性表实现 1.1 问题描述采用顺序表的物理结构，构造一个具有菜单的功能演示系统。其中，在主程序中完成函数调用所需实参值的准备和函数执行结果的显示。定义了线性表的初始化表、销毁表、清空表、判定空表、求表长和获得元素等基本运算对应的函数，并给出适当的操作提示显示，可选择以文件的形式进行存储和加载，即将生成的线性表存入到相应的文件中，也可以从文件中获取线性表进行操作。 1.1.1 线性表的基本概念线性表是最常用且最简单的一种数据结构，即n个数据元素的有限序列。线性表中元素的个数n定义为线性表的长度，n=0时成为空表。在非空表中的每个数据元素都有一个确定的位置，如a1是第一个数据元素，an是最后一个数据元素，ai是第i个数据元素。线性表的存储结构分为线性存储和链式存储。 1.1.2 逻辑结构与基本运算线性表的数据逻辑结构定义如下: ADT List｛数据对象：D=｛ai|ai∈ElemSet，i=1，2，……，n，n≥0｝数据关系：R1=｛ | ai-1，ai∈D，i=2，……，n｝｝依据最小完备性和常用性相结合的原则，以函数形式定义了包括线性表的初始化表、加载表、保存表、销毁表、清空表、判定空表、求表长、获得元素、查找元素、获得前驱、获得后继、插入元素、删除元素、遍历表 14 个基本运算，要求分别定义函数来实现上述功能，具体功能运算如下： ⑴初始化表：函数名称是InitaList(L)；初始条件是线性表L不存在已存在；操作结果是构造一个空的线性表。 ⑵销毁表：函数名称是DestroyList(L)；初始条件是线性表L已存在；操作结果是销毁线性表L。

SQL大数据库实验报告材料 (1)

资源与环境科学学院实验报告一、上机实习名称：SQL Server的安装及数据库的建立二、实验目的： 1、通过对某个商用数据库管理系统的使用，了解DBMS的工作原理和系统构架。 2、熟悉对DBMS的操作 3、熟悉如何使用SSMS和SQL建立数据库和表，并加深对于完整性的理解。三、实验容： 1、根据安装文件的说明安装数据库管理系统。 2、学会启动和停止数据库服务，思考可以用哪些方式来完成启动和停止。 3、掌握管理工具的使用 (1)SQL Server Management Studio的使用 ?连接服务器的方法 ?查询分析器的使用 (2)配置管理器的使用 4、了解数据库系统的逻辑组件：它们主要是数据库对象，包括基本表、视图、触发器、存储过程、约束等。今后将学习如何操作这些数据库对象。 5．在SSMS中创建数据库和表四、实验步骤 1. SQL Server 2008的体系结构和特点介绍 SQL Server 是一个关系数据库管理系统。由微软公司2008年第三季度正式发布， SQL Server 2008是一个重大的产品版本，在安全性、可用性、易管理性、可扩展性、商业智能等方面有了更多的改进和提高，对企业的数据存储和应用需求提供了更强大的支持和便利，使得它成为迄今为止最强大和最全面的SQL Server版本。 SQL Server 2008 版本体系：根据不同的用户类型和使用需求，微软公司推出了5种不同的SQL Server版本，包括企业版（Enterprise）、标准版（Standard）、

工作组版（Workgroup）、学习版（Express）和移动版（Compact） Microsoft SQL Server 2008系统由4个主要部分组成。这4个部分被称为4个服务，这些服务分别是数据库引擎、分析服务、报表服务和集成服务。 2. SQL Server管理工作室的启动打开windows控制面板—管理—服务,启动SQL Server 服务,如下图（1）开始→程序→Microsoft SQL Server 2008→SQL Server Management Studio（如图1.1所示）。图1.1 SQL Server 2008 服务器连接GUI （2）在服务器类型（T）右侧的下拉列表中选择服务器类型。本例选择：数据库引擎。在身份验证（A）右侧的下拉列表中选择身份验证方式。本例选择：Windows 身份验证；如果选择SQL Server身份验证，则还需要在其下方输入用户名和密

大数据结构实验报告材料全集

数据结构实验报告全集实验一线性表基本操作和简单程序 1．实验目的（1）掌握使用Visual C++ 6.0上机调试程序的基本方法；（2）掌握线性表的基本操作：初始化、插入、删除、取数据元素等运算在顺序存储结构和链表存储结构上的程序设计方法。 2．实验要求（1）认真阅读和掌握和本实验相关的教材内容。（2）认真阅读和掌握本章相关内容的程序。（3）上机运行程序。（4）保存和打印出程序的运行结果，并结合程序进行分析。（5）按照你对线性表的操作需要，重新改写主程序并运行，打印出文件清单和运行结果实验代码： 1）头文件模块 #include iostream.h>//头文件 #include//库头文件-----动态分配内存空间 typedef int elemtype;//定义数据域的类型 typedef struct linknode//定义结点类型 { elemtype data;//定义数据域 struct linknode *next;//定义结点指针 }nodetype; 2）创建单链表

nodetype *create()//建立单链表，由用户输入各结点data域之值，//以0表示输入结束 { elemtype d;//定义数据元素d nodetype *h=NULL,*s,*t;//定义结点指针 int i=1; cout<<"建立一个单链表"<> d; if(d==0) break;//以0表示输入结束 if(i==1)//建立第一个结点 { h=(nodetype*)malloc(sizeof(nodetype));//表示指针h h->data=d;h->next=NULL;t=h;//h是头指针 } else//建立其余结点 { s=(nodetype*) malloc(sizeof(nodetype)); s->data=d;s->next=NULL;t->next=s; t=s;//t始终指向生成的单链表的最后一个节点

大数据采集实验报告材料

中国石油大学（）实验报告实验名称：基于声卡的数据采集班级：过程10-4班学号：2010032221 ：夏亚康成绩：

实验日期：2013 年 1 月 4 日一、实验目的 1、掌握Labview软件的基本使用方法； 2、掌握利用Labview功能模板进行虚拟仪器设计； 3、了解声卡的工作原理 4、学习用Labview进行数据采集的基本过程。 5、利用Labview8.2软件设计并实现一台虚拟数字录音机，完成音频数据采集、显示、保存、处理、回放的功能。通过练习使用Labview设计数字录音机。二、实验仪器和设备 1. 计算机 1台、MIC 1只、耳机1只 2．编程环境WindowsXP操作系统 3. Labview实验软件 1套二、实验说明： 1、声卡的工作特点本设计采取的方法是在LabVIEW虚拟仪器环境中利用Windows自带声卡采集语音信号。从数据采集的角度来看,PC声卡本身就成为一个优秀的数据采集系统，它同时具有A/D和D/A转换功能，不仅价格低廉，而且兼容性好、性能稳定、灵活通用，软件特别是驱动程序升级方便。如果测量对象的频率在音频围(20 Hz-20 kHz)，而且对采样频率等指标又没有太高要求，就可以考虑使用声卡。而语音音频围一般在5kHz以，满足声卡采集的要求。在采集语音信号前，要检查声卡的设置，保证已配置的输入功能(录音功能)不处于静音状态。主机通过总线将数字化的声音信号送到数模转换器(D / A)，将数字信号变成模拟的音频信号同时，又可以通过模数转换器(A/D)将麦克风或CD的输入信号转换成数字信号，送到计算机进行各种处理。衡量声卡的技术指标包括复音数量、采样频率、采样位数(即量化精度)、声道数、信噪比(SNR)和总谐波失真（THD）等。复音数量代表声卡能够同时发出多少种声音，复音数越大，音色就越好，播放声音时可以听到的声部越多、越细腻;采样频率是每秒采集声音样本的数量，采样频率越高，记录的声音波形越准确，保真度就越高，但采样数据量相应变大，要求的存储空间也越多。采样位数是指将声音从模拟信号转化为数字信号的二进制位数(bit) ,位数越高，在定域能表示的声波振幅的数目越多，记录的音质也就越高，例如

北邮大三下第4次大数据库实验报告材料--mysql

实验四数据库接口实验－１一、实验容以教科书第四章关于SQL语言相关容为基础，课后查阅、自学ODBC接口有关容，包括ODBC的体系结构、工作原理、数据访问过程、主要API接口的语法和使用方法等。以实验二建立的学生数据库为基础，编写C语言(或其它支持ODBC接口的高级程序设计语言) 数据库应用程序，按照如下步骤访问数据库 a)Step1. ODBC初始化，为ODBC分配环境句柄 b)Step2. 建立应用程序与ODBC数据源的连接 c)Step3. 利用SQLExecDirect语句，实现数据库应用程序对数据库的建立、查询、修改、删除等操作 d)Step4. 检索查询结果集 e)Step5. 结束数据库应用程序二、实验要求要求所编写的数据库访问应用程序中使用到以下主要的ODBC API函数：（1）SQLALLocEnv：初始化ODBC环境，返回环境句柄（2）SQLALLocConnect：为连接句柄分配存并返回连接句柄（3）SQLConnect：连接一个SQL数据资源 (4) SQLDriverConnect连接一个SQL数据资源，允许驱动器向用户询问信息 (5) SQLALLocStmt；为语句句柄分配存, 并返回语句句柄 (6) SQLExecDirect 把SQL语句送到数据库服务器，请求执行由SQL语句定义的数据库访问 (7) SQLFetchAdvances将游标移动到到查询结果集的下一行(或第一行) (8) SQLGetData 按照游标指向的位置，从查询结果集的特定的一列取回数据 (9) SQLFreeStmt释放与语句句柄相关的资源 (10) SQLDisconnect 切断连接 (11) SQLFreeConnect 释放与连接句柄相关的资源 (12) SQLFreeEnv ；释放与环境句柄相关的资源三、实验环境 Windows 7系统 mysql数据库管理平台 visual studio C++编程平台（codeblocks或者devc++）四、实验步骤 1、ODBC的体系结构、工作原理、数据访问过程、主要API接口的语法和使用方法等。以实验二建立的学生数据库为基础，编写C语言(或其它支持ODBC接口的高级程序设计语言) 数据库应用程序，按照如下步骤访问数据库。

大数据结构实验-二叉排序树应用实验报告材料

实验报告实验课程：数据结构实验项目：实验四二叉排序树应用专业：计算机科学与技术班级：姓名：学号：指导教师：

目录一、问题定义及需求分析（1）问题描述（2）实验任务（3）需求分析二、概要设计： (1)抽象数据类型定义 (2)主程序流程 (3) 模块关系三、详细设计 (1)数据类型及存储结构 (2)模块设计四、调试分析 (1)调试分析 (2)算法时空分析 (3)经验体会五、使用说明 (1)程序使用说明六、测试结果 (1)运行测试结果截图七、附录 (1)源代码

一、问题定义及需求分析（1）实验目的二叉排序树应用问题描述互联网域名系统是一个典型的树形层次结构。从根节点往下的第一层是顶层域，如cn、com等，最底层（第四层）是叶子结点，如www等。因此，域名搜索可以构造树的结构完成；（2）实验任务设计基于二叉排序树的搜索互联网域名的程序。（3）需求分析： 1）采用二叉树的二叉链表存储结构。 2）完成二叉排序树的创建、插入、删除、查询操作。 3）可以考虑两棵二叉排序树的合并。二、概要设计： (1)抽象数据类型定义：程序中定义了二叉排序树的节点类型；由数据域和左右孩子指针构成；指针类型为该节点类型，指向该类型的节点形成二叉排序树；数据域是由字符数组构成，用于存储节点数据信息。 (2)主程序流程：输入域名拆分域名并完成二叉排序树的创建调用功能函数进入功能菜单选择执行不同的操作(查找、插入、删除) 操作完毕后可选择返回功能函数继续执行操作或者结束程序 (3)模块间的调用关系: 创建二叉排序树功能函数查找插入选择结束

大数据库实验报告材料华北电力大学

课程设计报告 (2014--2015年度第2学期) 名称：数据库原理课程设计题目：图书管理信息系统院系：计算机系班级：计科1203 学号：学生姓名：指导教师：熊海军设计周数： 1 成绩：日期：2015年6月25日

《数据库原理课程设计》课程设计任务书一、目的与要求 1.本实验是为计算机各专业的学生在学习数据库原理后，为培养更好的解决问题和实际动手能力而设置的实践环节。通过这个环节，使学生具备应用数据库原理对数据库系统进行设计的能力。为后继课程和毕业设计打下良好基础。 2.通过该实验，培养学生在建立数据库系统过程中使用关系数据理论的能力。 3.通过对一个数据库系统的设计，培养学生对数据库需求分析、数据库方案设计、系统编码、界面设计和软件调试等各方面的能力。是一门考查学生数据库原理、面向对象设计方法、软件工程和信息系统分析与设计等课程的综合实验。二、主要内容针对一个具有实际应用场景的中小型系统（见题目附录）进行数据库设计，重点分析系统涉及的实体、实体之间的联系，实现增加、删除、更新、查询数据记录等基本操作。大致分为如下步骤： 1. 理解系统的数据库需求，分析实体及实体间联系，画出E-R图： 1．分析确定实体的属性和码，完成对该实体的实体完整性、用户自定义完整性的定义。 2．设计实体之间的联系，包括联系类型和联系的属性。最后画出完整的E-R图。 2．根据设计好的E-R图及关系数据库理论知识设计数据库模式： 1）把E-R图转换为逻辑模式； 2）规范化设计。使用关系范式理论证明所设计的关系至少属于3NF并写出证明过程；如果不属于3NF则进行模式分解，直到该关系满足3NF为止，要求写出分解过程。 3）设计关系模式间的参照完整性，要求实现级联删除和级联更新。 4）用SQL语言完成数据库内模式的设计。 3．数据库权限的设计： 1）根据系统分析，完成授权操作； 2）了解学习收回权限的操作。 4．完成用户界面的设计，对重要数据进行加密。 5．连接数据库，用宿主语言实现系统所需的各种操作： 1）实现数据记录的录入、删除、查询和修改。 2）以视图的形式完成复杂查询，比如多表、多条件等。三、进度计划

北邮大数据库实验报告材料(3)

数据库实验报告（三）姓名：学号：班级: 1.用Transact-SQL语句、数据导入、SQL Server Management Studio（企业管理器）输入的方法对所给定的8张表的数据输入到数据库中。自行决定每张表的数据导入办法，但每种方法各针对二或三张表。 ●Transact-SQL语句：导入department, student, student_course表。 insert into department select*from openrowset ('microsoft.jep.oledb.4.0','excel 5.0;hdr=yes;database=D:\课件\数据库 \database2.xls',department$); insert into student select*from openrowset ('microsoft.jep.oledb.4.0','excel 5.0;hdr=yes;database=D:\课件\数据库 \database2.xls',student$); insert into student_course select*from openrowset ('microsoft.jep.oledb.4.0','excel 5.0;hdr=yes;database=D:\课件\数据库 \database2.xls',student_course$); ●数据导入：操作：选中数据库studentsdb，右键-任务-导入数据。导入book, class, course表。

SQL Server Management Studio：操作：右键需要编辑的表，选择编辑前200行。Teacher: Teacher_course_class: 导入结果： Book：

大数据实验报告

第二次上机实验实验报告 1.创建Pycharm项目，创建Scrapy工程目录（2分） a)使用Pycharm新建项目，安装Scrapy（本小题1分） b)使用Pycharm中的命令行工具，创建Scrapy工程目录（本小题1分）截图过程和结果，包括命令和输出。 2.使用Pycharm完成Scrapy爬虫程序的编写（13分） a)给出新建的Scrapy工程目录截图，说明各个文件的作用（本小题1分）

spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息，对于URL的选择、xpath的设置均在此文件编辑。 scrapy.cfg：项目的总配置文件，通常无须修改。 items.py：用于定义项目用到的Item 类。Item类就是一个DTO（数据传输对象），通常就是定义N个属性，相当于一哥容器接受爬取到的数据，该类需要由开发者来定义。pipelines.py：项目的管道文件，它负责处理爬取到的信息，例如对数据格式进行规范，将数据保存到文件中等，该文件需要由开发者编写。 setting.py：项目的配置文件，在该文件中进行项目相关配置，可以设置启用的各类功能。middlewares.py：中间件，处理request和reponse等相关配置。 b)给出爬虫程序运作流程，包括Scrapy运作流程，爬取思路，元素定位路径（XPath，CSS Selector等方式），数据存储等（本小题4分） Scrapy运作流程：由下图可知Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine （Scrapy引擎），Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline（项目管道）。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载器，然后下载器向服务器发送服务请求，得到响应后将下载的网页内容交与蜘蛛来处理，之后蜘蛛会对网页进行详细的解析。对于本次作业，初始的url为寻医问药网的眼科症状界面。蜘蛛分析的结果有两种：一种是得到新的URL，之后再次请求调度器，开始进行新一轮的爬取，不断的重复上述过程；另一种是得到所需的数据，之后会转交给项目管道继续处理。对于本次作业，首先，蜘蛛获取到特定症状的url，再请求调度器，开始新一轮爬取。在新一轮爬取过程中，蜘蛛在症状详情的网页爬取了该症状的可能疾病有关的信息，将数据传给管道。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理，最后由Pipeline输出到文

大数据实验

云南大学软件学院实验报告课程：大数据分析及应用任课教师：蔡莉实验指导教师（签名）：学号：姓名：专业：日期：成绩：实验三IBM SPSS软件的基本操作一、实验目的 1．熟悉SPSS的菜单和窗口界面，熟悉SPSS各种参数的设置； 2．掌握SPSS的数据管理功能。二、实验内容及步骤（一）数据的输入和保存 1. SPSS界面当打开SPSS后，展现在我们面前的界面如下： 2.定义变量选择菜单Data==>Define Variable。系统弹出定义变量对话框如下：对话框最上方为变量名，现在显示为“VAR00001”，这是系统的默认变量名；往下是变量情况描述，可以看到系统默认该变量为数值型，长度为8，有两位小数位，尚无缺失值，

显示对齐方式为右对齐；第三部分为四个设置更改按钮，分别可以设定变量类型、标签、缺失值和列显示格式；第四部分实际上是用来定义变量属于数值变量、有序分类变量还是无序分类变量，现在系统默认新变量为数值变量；最下方则依次是确定、取消和帮助按钮。假如有两组数据如下： GROUP 1: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 GROUP 2: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 先来建立分组变量GROUP。请将变量名改为GROUP，然后单击OK按钮。现在SPSS的数据管理窗口如下所示：第一列的名称已经改为了“group”，这就是我们所定义的新变量“group”。现在我们来建立变量X。单击第一行第二列的单元格，然后选择菜单Data==>Define Variable，同样，将变量名改为X，然后确认。此时SPSS的数据管理窗口如下所示：现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“var”，表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。