统计学(复习)

第1章统计和统计数据

1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学

描述统计与推断统计的含义、内容、目的。

描述统计: 是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.

推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:

参数估计: 是利用样本信息推断所关心的总体特征.

假设体验:是利用样本信息判断对总体的某个假设是否成立.

2、变量与数据：不同数据类型的含义，会判断已有数据的类型.

变量:它们的特点是从一次观察到下一次观察会出现不同结果.

Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数

数据: 把观察到的结果记录下来.

总体:包含所研究的全部个体(数据)的集合

样本: 从总体中抽取的一部分元素的集合

样本量: 构成样本的元素的数目

定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结果.如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

定性变量:分类变量和顺序变量统称为定性变量

分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等. 分

类变量的观察结果就是分类数据

顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级，一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据

离散型变量: 只能取有限个值得随机变量

连续型变量:可以取一个或多个区间中任何值得随机变量

3、获得数据的概率抽样方法有哪些？

根据一个已知的概率来抽取样本单位，也称随机抽样

-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本，使得总体中每一个元素都有相同的机会(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后，再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回，再从所剩下的个体中抽取第二个元素，直到抽取n 个个为止。

- 分层抽样或分类抽样：它是在抽样之前先将总体的元素划分为若干层（类），然后从各个层中抽取一定数量的元素组成一个样本。

-系统抽样或等距抽样：它是想将总体个元素按某个顺序排列，并按某种规则确定一个随机起点，然后，每隔一定的间隔抽取一个元素，直至抽取n 个元素组成一个样本。

-整群抽样：是先将总体划分成若干群，然后以群作为抽样单元从中抽取部分群组成一个样本，再对抽中的每个群中包含的所有元素进行观察。

第二章.用图表展示数据

频数: 落在各类别中的数据个数

比例:某一类别数据个数占全部数据个数的比值

百分比:将对比的基数作为100而计算的比值

比率: 不同类别数值个数的比值

频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.

什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.

帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图

饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.

环形图: 只能显示一个样本各部分所占的比例

数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.

1. 下限(lower limit) ：一个组的最小值

2. 上限(upper limit) ：一个组的最大值

3. 组距(class width) ：上限与下限之差

4. 组中值(class midpoint) ：下限与上限之间的中点值

组中值=下限值+上限值/2

直方图与条形图的区别。

1.条形图中的每一矩形表示一个类别，其宽度没有意义，而直方图的宽度则表示各组的组距

2.由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列

3.条形图主要用于展示定性数据，而直方图则主要用于展示定量数据

茎叶图: 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等

箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.

雷达图: 是显示多个变量的常用图示方法.

1.从一个点出发，用每一条射线代表一个变量，多个变量的数据点连接成线，即围成一个区域，多个样

本围成多个区域，就是雷达图

2.可用于研究多个样本在多个变量上的相似程度

3.当多个变量的取值相差较大或量纲不同时，可进行变换处理后再做图。

第三章. 用统计量描述数据

1、水平的度量

描述数据水平的统计两主要有: 平均数,中位数,分位数以及众数等.

平均数。平均数的计算:

1.也称为均值，常用的统计量之一

2.消除了观测值的随机波动

3.易受极端值的影响

4.根据总体数据计算的，称为平均数，记为μ；根据样本数据计算的，称为样本平均数，记为?x

中位数: 是一组数据排序后处于中间位置上数值,用M e 表示.

四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值

众数、中位数和平均数的关系*

2、差异的度量

极差:

1.一组数据的最大值与最小值之差

2.离散程度的最简单测度值

3.易受极端值影响

4.未考虑数据的分布

5.计算公式为：R = max(x i) - min(x i)

四分位差

1.也称为内距或四分间距

2.上四分位数与下四分位数之差：Q d=Q U–Q L

3.反映了中间50%数据的离散程度

4.不受极端值的影响

5.用于衡量中位数的代表性

样本方差和标准差（会计算）

1.数据离散程度的最常用测度值

2.反映各变量值与均值的平均差异

3.根据总体数据计算的，称为总体方差(标准差)，记为σ2(σ)；根据样本数据计算的，称为样本方差(标

准差)，记为s2(s)

4.样本方差

假设是一个样本，则样本方差的计算公式为：

其中是样本均值。例如，一样本取值为3,4,4,5,4，则样本均值=，样本方差=。样本方差是常用的统计量之一，是描述一组数

据变异程度或分散程度大小的指标。

样本标准差

S称为样本标准差。如在上例中，S=0.7071。称（S/ X）×100%为样本变异系数。由于S与X都是从同一个样本资料中求得，两者的单位相同，故变异系数为一纯数。当两种样本资料所用的单位不同时，只要计算出变异系数，就可以比较它们的变异程度。

标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置,并可以用它来判断一组数据是否有离群点

离散系数（变异系数）是一组数据的标准差与其相应的平均数据之比,它消除了数据绝对值大小和计量单位对标准差大小的影响.

分布形状的度量

偏态：是指数据分布的不对称性。侧度数据分布不对称性的统计量称为（偏态系数）

峰态：是指数据分布峰值的高低。测度峰态的统计量是（峰态系数）

弄清偏态系数的取值含义，会判断左偏、右偏和对称情形*

弄清峰态系数的取值含义，会判断尖峰、扁平和正常情形*

第四章.概率分布

概率：概率是对事件发生的可能性大小的度量

随机变量：是用数值来描述特定试验一切可能出现的结果，它的取值事先不能确定，具有随机性

连续性随机变量：只能取一个或多个区间中任何值得随机变量

离散型随机变量：只能取有限个值得随机变量

随机变量的概括性度量：期望值和方差的计算：描述随机变量集中程度的统计量称为(期望值)

离散型概率分布：是用表格的形式表现出来，就是离散型随机变量的概率分布

二项分布: 二项分布是建立在伯努利试验基础上的。N重伯努利

1.贝努里试验满足下列条件

?一次试验只有两个可能结果，即“成功”和“失败”

●“成功”是指我们感兴趣的某种特征

?一次试验“成功”的概率为p ，失败的概率为q =1- p，且概率p对每次试验都是相同的

?试验是相互独立的，并可以重复进行n次

?在n次试验中，“成功”的次数对应一个离散型随机变量X

泊松分布：

1.1837年法国数学家泊松(D.Poisson，1781—1840)首次提出

2.用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布

3.泊松分布的例子

?一定时间段内，某航空公司接到的订票电话数

?一定时间内，到车站等候公共汽车的人数

?一定路段内，路面出现大损坏的次数

?一定时间段内，放射性物质放射的粒子数

?一匹布上发现的疵点个数

?一定页数的书刊上出现的错别字个数

超几何分布的应用背景

1.采用不重复抽样，各次试验并不独立，成功的概率也互不相等

2.总体元素的数目N很小，或样本容量n相对于N来说较大时，样本中“成功”的次数则服从超几何

概率分布

3.概率分布函数为

连续型概率分布：

正态分布:

1.由C.F.高斯(Carl Friedrich Gauss，1777—1855)作为描述误差相对频数分布的模型而提出