统计学思考题

统计学思考题

第一章导论

1、统计数据可分为哪几种类型?不同类型的数据各有什么特点?

按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。按照统计数据

的收集方法,可以将其分为观测数据和实验数据。按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。

分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的,是用文字来表述的。数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中处理的大多数都是数值型数据。

2、解释分类数据、顺序数据和数值数据的意义。

对分类数据,我们通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如计算各种统计量,进行参数估计和检验等

3、举例说明总体、样本、参数、统计量、变量这几个概念。

总体:是包含所研究的全部个体的集合,它通常由所研究的一些个体组成。如多个企业构成的集合,多个居民户构成的集合,多个人构成的集合

样本:是从总体中抽出的一部分元素的集合。如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。

参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。在统计中,总体参数通常用希腊字母表示,如,总体平均数用u(miu)表示,总体标准差用(sigma)表示,总体比例用(pai)表示,等。

统计量:是用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。样本统计量通常用英文字母来表示。如,样本平均数用(x-bar)表示,样本标准车用s表示,样本比例用p表示,等。

变量:是说明现象某种特征的概念。如,商品销售额,受教育程度,产品的质量等级等。

4、变量可分为哪几类?

变量可以分为分类变量、顺序变量、数值型变量,数值型变量根据其取值的不同,又可分为离散型变量和连续型变量。分类变量是说明事物类别的一个名称,顺序变量是说明事物有序类别的一个名称,数值型变量是说明事物数字特征的一个名称。

5、举例说明离散型变量和连续性变量。

离散型变量是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举,如,企业量,产品数量;连续型变量是可以在一个或多个区间中取任何值的变量。它的取值是连续不断的,不

能一一列举,如,年龄,温度,零件尺寸的误差等。

第二章数据的搜集

1、比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。

概率抽样也称随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有以下几个特点:首先,抽样时是按一定的概率以随机抽样原则抽取样本;其次,每个单位被抽中的概率是已知的,或是可以计算出来的;最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。

非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。

如果调查的目的在于掌握研究对象总体的数量特征,根据调查的结果对总体参数进行评估,得到总体参数的置信区间,就应当采用概率抽样的方法。非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做好准备。非抽样调查也适合市场调查中概念测试,如产品包装测试、广告测试等。第三章数据的图表表示

1、分类数据和顺序数据的整理和图示方法各有那些?

分类数据的整理方法有频数和频数分布,图示方法有条形图、帕累托图、饼图、环形图;顺序数据的整理方法有累积频数和累积频率,图示方法有累积频数分布和频率图。

2、数值型数据的分组方法有哪些?简述组距分组的步骤。

数据分组的方法有单变量值分组和组距分组。

组距分组的步骤:(1)确定组数,一般数据所分组数不应少于5组且不多于15组;(2)确定各组的组距,组距=(最大值-最小值)/组数,组距宜取5或10的倍数;(3)确定上下限,第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

3、直方图与条形图有何区别?

直方图与条形图不同。首先,条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是

分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

第四章数据的概括性变量

1、一组数据的分布特征可以从那几个方面进行测度?

一组数据的分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。

2、对于比率数据的平均为什么采用几何平均?

3、简述众数、中位数、和平均数的特点和应用场合。

众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜采用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。

平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等时,这时则应选择平均数作为集中趋势的测度值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。

4、为什么要计算离散系数?

方差和标准差是反映数据离散程度的绝对值,其数值的大小一方面受原变量值自身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

离散系数也成为变异系数,它是一组数据的标准差与其相应的平均数之比,其计算公式为:v s=s/(x-bar),离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说

明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

第五章参数估计

1、怎样理解置信区间?

在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限,由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。

2、解释95%的置信区间

如果抽取了许多不同的样本,比如说抽取了100个样本,根据每一个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含,则95%这个值称为置信水平。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例成为置信水平,也称为置信度或置信系数。

第六章假设检验

1、什么是假设检验中的显著性水平?统计显著是什么意思?

通常把(a-er-fa)称为显著性水平,显著性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05或0.01.

2、什么是假设检验中的两类错误?

对于原假设提出的命题,我们需要做出判断,这种判断可以用“原假设正确”或“原假设错误”来表述。当然,这是依据样本提供的信息进行判断的,也就是由部分来推断,总体。因而判断有可能正确,也有可能错误,也就是说,我们面临着犯错误的可能。所犯的错误有两种类型,第一类错误是原假设H0为真却被我们拒绝了,犯这种错误的概率用(a-er-fa)表示所以成为其真错误;第二类错误是原假设为伪我们却没有拒绝,犯这类错误的概率用(bei-ta)表示,所以成为取伪错误。

3、解释假设检验中的P值。

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。

第七章方差分析

1、什么是方差分析?它研究的是什么?

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型隐变量是否有显著影响。

方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。

2、简述方差分析的基本思想。

为了研究分类型自变量对对数值型因变量的影响,需要从对数据误差来源的分析入手,误差主要分为组内误差和组间误差,组内误差只包含随机误差,而组间误差除了包含随机误差,还会包含系统误差。3、解释组内误差和组间误差的含义。

组内误差(SSE):反映组内误差大小的平方和,也称为残差平方和,是由于抽样的随机性所造成的随机误差。它反映了每个样本内各观测值之间的离散状况。

组间误差(SSA):反映组间误差大小的平方和,也称为因素平方和,是随机误差和系统误差的总和。它反映了样本均值之间的差异程度。

4、解释则内方差和组间方差的含义。

组间误差和组内误差经过平均后的数值称为均方或方差。

组间方差(MSA)=组间平方和/自由度(SSA/k-1)

组内误差(MSE)=组内平方和/自由度(SSE/n-k)

5、简述方差分析的基本步骤。

1、提出假设;

2、构造检验的统计量;(1)计算各样本的均值(2)计算全部观测值的总均值(3)计算各误差平方和(4)计算统计量

3、统计决策;

4、方差分析表;

5、用Excel进行方差分析。

第八章一元线性回归

1、解释相关关系的含义,说明相关系的特点。

相关关系1)变量间关系不能用函数关系精确表达;2)一个变量的取值不能由另一个变量唯一确定;3)当变量x 取某个值时,变量y 的取值可能有几个。

2、相关分析主要解决那些问题?

相关分析就是对两个变量之间线性关系的描述和度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本之间的变量关系是否能代表总体变量之间的关系?

3、解释回归模型、回归方程、估计的回归方程的含义。

回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。

回归方程:描述因变量y的期望值如何依赖于自变量x的方程。

估计的回归方程:根据样本数据求出的回归方程的估计。

4、解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的联系。

总平方和(SST):是全部观测值Xij与总均值x-两bar的误差平方和。

残差平方和(SSE):反映组内误差大小的平方和。

回归平方和(SSR):反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分。

SST=SSR+SSE

5、解释判定系数(R2)的含义和作用。

含义:判定系数是对估计的回归方程拟合优度的度量。判定系数等于相关系数的平方,即r2=(r)2

作用:反映回归直线的拟合程度;R2越接近1,说明回归方程拟合的越好;R2越接近0,说明回归方程拟合的越差。

6、在回归分析中,F检验和t检验各有什么作用?

F检验是检验自变量和因变量之间的线性关系是否显著,或者说,它们之间能否用一个线性模型y= 来表示。

t检验的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型y=

中,如果白塔1=0,则回归线是一条水平线,表面因变量y的取值不依赖与自变量x,即两个变量之间没有线性关系。

7、简述线性关系检验和回归系数检验的具体步骤。

线性关系检验:1、提出假设,H0:回归系数等于0,两个变量之间的线性关系不显著;2、计算检验统计量F=(SSR/1)/(SSE/(n-2));3、做出决策,根据显著性水平,分子自由度和分母自由度查F分布表,找到相应的临界值,比较与F的大小,判断是否拒绝原假设

回归系数检验:1、提出检验;2、计算检验统计量t;3、做出决策

统计学基础课后思考题答案(仅供参考)前六章

第一章概论 1、“统计”一词有统计工作、统计资料、统计学三种涵义。统计资料是统计工作的成果,统计工作和统计资料是过程与成果的关系。 2、统计学的研究对象是客观现象(包括社会现象和自然现象)总体的数量方面。它具有数量性、总体性、变异性、具体性、社会性的特点。 3、统计学的性质是属于方法论学科,统计学是一门研究客观现象总体数量方面的独立的方法论科学。 4、统计学的基本研究方法:大量观察法、统计分组法、综合指标法、统计模型法、归纳推断法。 5、统计学的基本职能有:信息职能、咨询职能、监督职能。 6、统计的基本任务:一方面是以国民经济和社会发展为统计调查的对象,在对其数量方面进行科学的统计分析的基础上,为党和国家制定政策、各部门编制计划,指导经济和社会发展及进行科学管理提供信息和咨询服务;另一方面则是对国民经济和社会的运行状态、国家政策,计划的执行情况等进行统计监督。 7、统计工作的过程包括:统计设计、统计调查、统计整理和统计分析。 8、统计总体是指客观存在的,在同一性质的基础上结合起来的许多个别事物构成的整体,简称总体。总体单位是指构成总体的个别事物,简称个体。总体和总体单位是整体与部分、集合与元素的关系,它们互为存在条件。总体是界定总体单位的前提条件,总体单位是构成总体的基本元素。 9、标志按性质不同可分为品质标志和数量标志,按变异情况可分为不变标志和可变标志。 10、统计指标的特点:数量性、综合性、具体性。统计指标按其说明总体特征的性质不同,可分为数量指标和质量指标;按表现形式不同,可分为总量指标、相对指标,平均指标;按计量单位的不同,可分为实物量指标、价值指标和劳动量指标;按指标功能的不同,可分为描述指标、评价指标和预警指标。 11、(简)指标与标志的联系,具有对应关系、汇总关系、转换关系;指标与标志的区别,说明对象范围的不同,具体表现形式不同。(详)指标与标志有哪些区别及联系? 区别: ①指标和标志的概念明显不同,标志是说明个体特征的,一般不具有综合的特征:指标是说明总体特征的,具有综合的性质。 ②统计指标分为数量指标和质量指标,它们都是可以用数量来表示的;标志分为数量标志和品质标志,它们不是都可以用数量来表示,品质标志只能用文字表示。 联系: ③统计指标是建立在标志值的基础之上的,它是各个总体单位的数量标志值的汇总,没有总体单位的标志值 也就不可能有总体的指标值。 ④随研究目的不同,指标与标志之间可以互相转化。两者体现这样的关系,指标在标志的基础上形成,指标又是确定标志的依据。 12、变量的分类:按变量值是否连续,可分为连续型变量和离散型变量;按照其性质不同,可分为确定性变量和随机变量。13、统计指标体系分为基本统计指标体系和 专题统计指标体系两大类。 第二章统计调查 1、统计调查是根据统计研究的目的、要求和 任务,采用科学的调查方法,有计划、有组 织地搜集统计资料的工作过程。统计调查在 统计工作的整个过程中,担负着提供基础资 料的任务,所有的统计计算和统计研究都是 在原始资料搜集的基础上建立起来的。 2、统计调查的基本要求: (1)准确性。即统计调查得到的资料应 该是真实可靠的、符合客观实际,不受人的 主观偏见和错误意识的影响。 (2)及时性。即统计调查要按时完成资 料的搜集和上报任务,以及充分发挥统计资 料的时间价值。 (3)完整性。统计调查搜集的资料,一 是要调查单位的完整、做到调查单位不重复、 不遗漏,以保证反映被研究对象整体的面貌; 二是要做到搜集的项目齐全,调查项目不仅 具有层次性,而且是紧密链接、赋予逻辑联 系,齐全的调查项目才能实现调查研究的目 的和任务。 3、一份完整的统计调查方案,应包括: (1)确定调查目的; (2)确定调查对象、调查单位和报告单位; (3)拟定调查项目、制定调查表; (4)规定调查时间和调查期限、调查地点 和方法; (5)制定调查工作的组织实施计划。 4、调查表的内容有:表头、表体和表脚。 调查表分无记名调查反馈表和记名调查 反馈表。 5、统计调查的组织形式有统计报表、普查、 重点调查、典型调查和抽样调查。 6、重点调查与典型调查有何异同? 相同点: 都是非全面调查;调查单位少,可节省 人力、物力、时间;灵活性强;属于有部分 到全面的调查方式。 区别: (1)定义不同 重点调查是一门专门组织的非全面调 查,它是在调查对象的全部单位中只选择一 小部分重点单位进行调查,以了解总体的基 本情况。 典型调查是一种十分重要的,行之有效 的非全面调查方法。它是根据调查目的和要 求,在对被研究对象做全面分析的基础上, 有意识地从中选择少数具有代表性的典型单 位进行深入细致地调查研究,以便认识事物 的本质及其规律性的一种非全面调查。 (2)特点不同 重点调查的主要特点是:投入少、调查 速度快、所反映的主要情况或基本趋势比较 准确。 典型调查的主要特点是:调查单位少、 机动灵活、典型单位的选择带有一定的主观 性、典型单位可以注重于现象数量方面的分 析。 (3)组织形式不同 重点调查既可以是一次性调查性调查, 也可以用于经常性调查。其组织形式可以是 组织专门调查,也可以颁发统计报表,由选 中重点单位填报。 典型调查一般有两种方式:“解剖麻雀” 式和“化类选典”式。 (4)调查方式的优缺点不同 重点调查:优点:调查单位少,可调查 较多的项目和指标,了解较详细的效果,能 使党政领导尽快的掌握基本情况,发现问题, 采取措施,以指导工作。 缺点:因为重点调查单位与一般单位的 差别较大,通常不能用重点调查结果来推算 调查总体的指标 典型调查:优点:是补充全面调查资料 的缺口,利用典型调查资料,可以分析全面 调查不能认识清楚地一些具体问题,还可以 深入研究新生事物,找出事物变化发展的规 律,用来推断总体的指标数值。 缺点:主要是针对问题的普遍性研究, 不够深入 根本区别在于选取调查单位的方法不同。 典型调查单位的选择取决于调查者的主 观判断,因此具有主观性。重点调查单位的 选择取决于某一标志总量在总体所占比重, 因此具有客观性。 典型调查虽然在一定条件下,能根据典 型单位估计推断总体。但由于无法合理估计 其误差,因此不能根据典型单位的数量特征, 推断总体单位的数量特征。不过,可以利用 典型调查得到的具体、详细事例,补充分析 抽样调查无法获得具体、详细事例的不足。 7、统计调查的方法有:观察法、询问法、报 告法、网络调查法和问卷调查法。 观察法:优点是取得的资料比较准确; 缺点是花费的人力、物力、财力和时间都较 多,而且具有局限性。 询问法:优点是调查者能按统计口径逐 项询问,对统计项目有统一的理解,可保证 调查资料的准确性;缺点是花费大量的人力 和时间。 报告法:优点是准确性不亚于观察法; 缺点是花费较多的人力和物力。 网络调查法:优点是速度快、费用低、 易获得联系性数据、调研内容设置灵活、调 研群体大和可视性强;缺点是代表性问题、 安全性问题和无限制样本问题。 问卷调查法:优点是节省时间、经费和 人力;调查结果容易量化、便于统计处理与 分析;现在的电子问卷克服了纸质问卷的一 些缺点,方便实施与调整;可以进行大规模 的调查。 缺点是面向设计的问题问卷调查比较 难;调查结果广而不深;问卷调查经常采用 由用户自己填答问卷的方式,所以其调查结 果的质量常常得不到保证。;问卷调查的回 收率难以保证。 8、调查问卷的结构由卷首语(开场白)、正 文和结尾组成。 问卷的设计形式有开放式和封闭式。 第三章统计数据的整理与显示 1、统计数据整理的主要内容(步骤)是:(1) 统计资料整理方案的设计;(2)对调查资料 的审核;(3)对调查资料进行科学的分组、 汇总;(4)数据资料的显示——编制和绘制 统计表(图);(5)统计资料的保管与积累。 2、统计分组就是根据统计研究的目的和被研 究现象总体的内在特征,将统计整体按照一 定的标志划分为若干性质不同的部分或组的 一种统计方法。统计分组的关键在于确定分 组标志和组距。

应用统计学案例统计调查方案设计

应用统计学案例统计调查方案设计

统计调查方案设计案例 ▲统计调查方案的内容和撰写: 一、统计调查方案的主要内容 1、确定统计调查目的和任务 2、确定调查对象和调查单位 调查对象是指依据调查的任务和目的,确定本次调查的范围及需要调查的那些现象的总体。 调查单位是指所要调查的现象总体所组成的个体,也就是调查对象中所要调查的具体单位,即我们在调查中要进行调查研究的一个个具体的承担者。 3、确定调查内容和调查表 (1)调查课题如何转化为调查内容 调查课题转化为调查内容是把已经确定了的调查课题进行概念化和具体化。 (2)调查内容如何转化为调查表 如何把调查内容设计为调查表,这一问题会在下一章中专门介绍。 4、调查方式和调查方法 5、调查项目定价与预算 6、统计数据分析方案 7、其它内容

包括确定调查时间,安排调查进度,确定提交报告的方式,调查人员的选择、培训和组织等。 二、统计调查方案的撰写 1、统计调查方案的格式 包括摘要、前言、统计调查的目的和意义、统计调查的内容和范围、调查采用方式和方法、调查进度安排和有关经费开支预算、附件等部分。 2、撰写统计调查方案应注意的问题 (1)一份完整的统计调查方案,上述1—7部分的内容均应涉及,不能有遗漏。否则就是不完整的。 (2)统计调查方案的制订必须建立在对调查课题的背景的深刻认识上。 (3)统计调查方案要尽量做到科学性与经济性的结合。 (4)统计调查方案的格式方面能够灵活,不一定要采用固定格式。 (5)统计调查方案的书面报告是非常重要的一项工作。一般来说,统计调查方案的起草与撰写应由课题的负责人来完成。三、统计调查方案的可行性研究 (一)统计调查方案的可行性研究的方法 1、逻辑分析法 逻辑分析法是指从逻辑的层面对统计调查方案进行把关,考察其是否符合逻辑和情理。

统计学思考题答案复习进程

4.1一组数据的分布特征可以从哪几个方面进行测度? 数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。 2. 4.5简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受极端值的影响。当数据的分布偏斜较大时,使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。 平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。 4.7标准分数有哪些用途? 标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。 7.3怎样理解置信区间? 置信区间:由样本统计量所构造的总体参数的估计区间 7.4解释95%的置信区间。 95%的置信区间指用某种方法构造的所有区间中有95%的区间包含总体参数的真值。 7.5 Za/2的含义是什么 含义:Za/2是标准正态分布上侧面积为a/2的z值,公式是统计总体均值时的边际误差。 7.6 解释独立样本和匹配样本的含义。 独立样本:如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立。 匹配样本:一个样本中的数据与另一个样本中的数据相对应。 7.8简述样本量与置信水平、总体方差、边际误差的关系。 样本量越大置信水平越高,总体方差和边际误差越小 10.1什么是方差分析?它研究的是什么? 答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是非类型自变量对数值型因变量的影响。 10.4方差分析中有哪些基本假定? 答:方差分析中有三个基本假定: (1)每个总体都应服从正态分布 (2)各个总体的方差σ2必须相同 (3)观测值是独立的

贾俊平 统计学(第六版)思考题答案

1、什么是统计学? 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类? 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

统计学课后题答案第四版中国人民大学出版社

●3.2.某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元): 1521241291161001039295127104 10511911411587103118142135125 117108105110107137120136117108 9788123115119138112146113126 (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率; (2)如果按规定:销售收入在125万元以上为先进企业,115万~125万元为良好企业,105万~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 解:(1)要求对销售收入的数据进行分组, 全部数据中,最大的为152,最小的为87,知数据全距为152-87=65; 为便于计算和分析,确定将数据分为6组,各组组距为10,组限以整10划分; 为使数据的分布满足穷尽和互斥的要求,注意到,按上面的分组方式,最小值87可能落在最小组之下,最大值152可能落在最大组之上,将最小组和最大组设计成开口形式; 按照“上限不在组内”的原则,用划记法统计各组内数据的个数——企业数,也可以用Excel 进行排序统计(见Excel练习题2.2),将结果填入表内,得到频数分布表如下表中的左两列;将各组企业数除以企业总数40,得到各组频率,填入表中第三列; 在向上的数轴中标出频数的分布,由下至上逐组计算企业数的向上累积及频率的向上累积,由上至下逐组计算企业数的向下累积及频率的向下累积。 整理得到频数分布表如下: 40个企业按产品销售收入分组表 (2)按题目要求分组并进行统计,得到分组表如下: 某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40100.0

统计学思考题(20200920020408)

思考题: 1什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源 于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接 组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或 从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1 )反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量 特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨()提出,依据(意)帕累托() 的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0?1之间 ①基尼系数小于,表明分配平均;②在?之间,分配比较适当;③是收入分配不公平的警 戒线,超过,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分 布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰 度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率 实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;别:概率密 (2)区 度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。

统计案例分析典型例题

统计案例分析及典型例题 §抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案3,9,18 4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= . 答案80 例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k= 10 0001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分

统计学原理复习思考题与练习题参考答案

第一章复习思考题与练习题: 一、思考题 1.统计的基本任务是什么? 2.统计研究的基本方法有哪些? 3.如何理解统计总体的基本特征。 4.试述统计总体和总体单位的关系。 5.标志与指标有何区别何联系。 二、判断题 1、社会经济统计的研究对象是社会经济现象总体的各个方面。() 2、在全国工业普查中,全国企业数是统计总体,每个工业企业是总体单位。() 3、总体单位是标志的承担者,标志是依附于单位的。() 4、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。() 5、全面调查和非全面调查是根据调查结果所得的资料是否全面来划分的()。 三、单项选择题 1、社会经济统计的研究对象是()。 A、抽象的数量关系 B、社会经济现象的规律性 C、社会经济现象的数量特征和数量关系 D、社会经济统计认识过程的规律和方法 2、某城市工业企业未安装设备普查,总体单位是()。 A、工业企业全部未安装设备 B、工业企业每一台未安装设备 C、每个工业企业的未安装设备 D、每一个工业

3、标志是说明总体单位特征的名称,标志有数量标志和品质标志,因此()。 A、标志值有两大类:品质标志值和数量标志值 B、品质标志才有标志值 C、数量标志才有标志值 D、品质标志和数量标志都具有标志值 4、统计规律性主要是通过运用下述方法经整理、分析后得出的结论()。 A、统计分组法 B、大量观察法 C、综合指标法 D、统计推断法 5、指标是说明总体特征的,标志是说明总体单位特征的,所以()。 A、标志和指标之间的关系是固定不变的 B、标志和指标之间的关系是可以变化的 C、标志和指标都是可以用数值表示的 D、只有指标才可以用数值表示 答案:二、 1.× 2.× 3.√ 4.× 5.× 三、 1.C 2.B 3.C 4.B 5.B 第四章 一、复习思考题 1.什么是平均指标?平均指标可以分为哪些种类? 2.为什么说平均数反映了总体分布的集中趋势? 3.为什么说简单算术平均数是加权算术平均数的特例? 4.算术平均数的数学性质有哪些?

统计学课后习题答案(袁卫)

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章绪论 1.什么是统计学?怎样理解统计学与统计数据的关系? 2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。 答:(1)总体:最近的一个集装箱内的全部油漆; (2)研究变量:装满的油漆罐的质量; (3)样本:最近的一个集装箱内的50罐油漆; (4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)一描述推断。 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型;

统计学思考题最新版本

思考题(仅供参考) 部分题目超出范围。同学们仅作上课讲授过的题目即可 二、判断题 1、对于定性变量不能确定平均数.( ) 2、根据组距式数列计算的平均数、标准差等都是近似值.( ) 3、任何平均数都受变量数列中的极端值的影响.( ) 4、中位数把变量数列分成了两半,一半数值比它大,一半数值比它小.( ) 5、任何变量数列都存在众数.( ) 6、如果x >,”,由此可以肯定B 企业生产的均衡性比A 企业好。 ( ) 18.对于分组资料,若不同时期相比,各组平均数均程度不同地上升,则总平均数一定上升。 ( ) 19.n 个同性质独立变量和的方差等于各个变量方差之和。 ( ) 20.n 个同性质独立变量平均数的方差等于各变量方差的平均数。 ( ) 21.变量的方差等于变量平均数的平方减变量平方的平均数。 ( ) 22、峰态一词是由统计学家Galton 于1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。( ) 三、选择题 1、某工厂新工人月工资400元,工资总额为200000元,老工人月工资800元,工资总额80000元,则总平均工资为( ) A 、 600元 B 、 533.33元 C 、466.67元 D 、 500元 2、标志变异指标是反映同质总体的( ). A 、集中程度 B 、离中程度 C 、一般水平 D 、变动程度 3、权数对算术平均数的影响作用,实质上取决于( ) A 、作为权数的各组单位数占总体单位数比重的大小 B 、各组标志值占总体标志总量比重的大小

统计学课后习题参考问题详解

思考题与练习题 参考答案 【友情提示】请各位同学完成思考题和练习题后再对照参考答案。回答正确,值得肯定;回答错误,请找出原因更正,这样使用参考答案,能力会越来越高,智慧会越来越多。学而不思则罔,如果直接抄答案,对学习无益,危害甚大。想抄答案者,请三思而后行! 第一章绪论 思考题参考答案 1.不能,英军所有战机=英军被击毁的战机+英军返航的战机+英军没有弹孔的战机,因为英军被击毁的战机有的掉入海里、敌军占领区,或因堕毁而无形等,不能找回;没有弹孔的战机也不可能自己拿来射击后进行弹孔位置的调查。即便被击毁的战机找回或没有弹孔的战机自己拿来射击进行实验,也不能从多个弹孔中确认那个弹孔是危险的。 2.问题:飞机上什么区域应该加强钢板?瓦尔德解决问题的思想:在他的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,找出几乎布满弹孔的区域;发现:没有弹孔区域是军机的危险区域。 3.能,拯救和发展自己的参考路径为:①找出自己的优点,②明确自己大学阶段的最佳目标,③拟出一个发扬自己优点,实现自己大学阶段最佳目标的可行计划。 练习题参考答案 一、填空题 1.调查。

2.探索、调查、发现。 3. 目的。 二、简答题 1.瓦尔德;把剩下少数几个没有弹孔的区域加强钢板。 2.统计学解决实际问题的基本思路,即基本步骤是:①提出与统计有关的实际问题; ②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据合理推断给出更好决策的建议。不解决问题时,重复第②-⑥步。 3.在结合实质性学科的过程中,统计学是能发现客观世界规律,更好决策,改变世界和培养相应领域领袖的一门学科。 三、案例分析题 1.总体:我班所有学生;单位:我班每个学生;样本:我班部分学生;品质标志:;数量标志:每个学生课程的成绩;指标:全班学生课程的平均成绩;指标体系:上学期全班同学学习的科目;统计量:我班部分同学课程的平均成绩;定性数据:;定量数据:课程成绩;离散型变量:学习课程数;连续性变量:学生的学习时间;确定性变量:全班学生课程的平均成绩;随机变量:我班部分同学课程的平均成绩,每个同学进入教室的时间;横截面数据:我班学生月门课程的出勤率;时间序列数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;面板数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;选用描述统计。 2.(1)总体:市大学生;单位:市的每个大学生。(2)如果调查中了解的是价格高低,为定序尺度;如果调查中了解的是商品丰富、价格合适、节约时间,为定类尺度。(3)市大学生在网上购物的平均花费。(4)是用统计量作为参数的估计。(5)推断统计。 3.(1)10。(2)6。(3)定类尺度:汽车名称,燃油类型;定序尺度:车型大小;定距尺度:引擎的汽缸数;定比尺度:市区驾车的油耗,公路驾车的油耗。(4)定性变量:汽车名称,车型大小,燃油类型;定量变量:引擎的汽缸数,市区驾车的油耗,公路驾车的油耗。(5)4 0%;(6)30%。 第二章收集数据

统计学复习题1要点

第一章绪论 一、填空 1、统计数据按测定层次分,可以分为分类数据、顺序数据和数值型数据;如果按时间状况分,可以分为截面数据和时间序列数据。 2、由一组频数2,5,6,7得到的一组频率依次是0.1 、0.25 、0.3 和0.35 ,如果这组频数各增加20%,则所得到的频率不变。 3、已知一个闭口等距分组数列最后一组的下限为600,其相邻组的组中值为580,则最后一组的上限可以确定为640,其组中值为620 。 4、如果各组相应的累积频率依次为0.2,0.25,0.6,0.75,1,观察样本总数为100,则各组相应的观察频数为___20 5 35 15 25___。 5、中位数e M可反映总体的集中趋势,四分位差D Q.可反映总体的离散程度,数据组1,2,5,5,6,7,8,9中位数是 5.5,众数为 5 。 6、假如各组变量值都扩大2 倍,而频数都减少为原来的1/3 ,那么算术平均数扩大为原来的2倍。 四、计算题 1、某班的经济学成绩如下表所示: 43 55 56 56 59 60 67 69 73 75 77 77 78 79 80 81 82 83 83 83 84 86 87 88 88 89 90 90 95 97 (1)计算该班经济学成绩的平均数、中位数、第一四分位数、第三四分位数(2)计算该班经济学成绩的众数、四分位差和离散系数。 (3)该班经济学成绩用哪个指标描述它的集中趋势比较好,为什么? (4)该班经济学的成绩从分布上看,它属于左偏分布还是右偏分布? (3)上四分位数和下四分位数所在区间? 4、对成年组和青少年组共500人身高资料分组,分组资料列表如下: 成年组青少年组按身高分组(cm) 人数(人) 按身高分组(cm) 人数(人) 150~155 155~160 160~165 165~170 22 108 95 43 70~75 75~80 80~85 85~90 26 83 39 28

贾俊平 统计学(第六版)思考题答案

第一章: 1、什么是统计学 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定) 样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

统计学思考题

思考题: 1、什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1)反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨(,依据(意)帕累托(V.Pareto)的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0~1之间 ①基尼系数小于0.2,表明分配平均;②在0.2~0.4之间,分配比较适当;③0.4 是收入分配不公平的警戒线,超过0.4,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;(2)区别:概率密度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。11、离散型随机变量和连续型随机变量的概率分布的描述有些什么不同? 答:⑴离散型随机变量的概率分布可以用表格、函数或图形等形式来表现。最常见的离散型随机变量的概率分布是二项分布,此外还有伯松分布、超几何分布; ⑵连续型随机变量的概率分布可以用概率密度和分布函数以及对应的曲线图来表示。最常见

统计学复习思考题

第一章总论 1、统计的内涵有哪三层含义?这三层含义之间有什么关系?哪个是最基础的? 内涵:(1)统计工作/统计活动(最基础的);(2)统计资料;(3)统计学 关系:统计工作是收集统计资料的基础,统计资料是统计学研究的前提。 2、统计工作过程有哪几个阶段? (1)统计设计;(2)统计调查;(3)统计整理; (4)统计分析;(5)统计资料的提供和开发 3、总体?什么是总体单位?两者的关系怎样? 总体:根据一定的目的确定的所要研究的事物的全体。 总体单位:构成总体基本单位的个别事物。 关系:(1)总体由总体单位构成; (2)总体与总体单位不是一成不变的,在不同的研究目的下,总体与总体单位可相互转换。 4、什么是标志?什么是指标?什么是变量? 标志:标志是与总体单位相对应的概念,是反映总体单位特征的名称。 指标:指标是反映总体的数量特征的概念及其具体数值。 变量:指可变的数量指标。 5、什么是数量指标与质量指标?如何区分? 数量指标:反映的是社会经济现象总规模、总水平或工作总量的统计指标。 质量指标:反映的是现象与现象之间相互联系过程以及现象所达到的一般水平的统计指标。区分标准:数量指标一般具有可加性,质量指标一般具有可除性。 第二章统计调查 1、什么是统计调查?它在整个统计工作中有什么作用? 统计调查:统计调查搜集的资料主要是数据资料,是反映总体特征的数据。 作用:基础环节,担负着提供基础资料的作用。 2、什么是时期指标?什么是时点指标?如何区分时期指标和时点指标? 时期指标:主要是反映现象在一段时期内活动过程所达到的总量。 时点指标:主要是反映现象在某一个瞬间或某一时刻上所达到的总量。 区分:从时间角度看能否相加,能相加的为时期指标,不能相加或相加无意义的是时点指标。但两者都是总量指标。 3、统计调查方式有哪些?哪些是全面调查方式?哪些是非全面调查方式? (1)普查——全面调查;(2)重点调查——非全面调查; (3)典型调查——非全面调查;(4)抽样调查——非全面调查。 第三章统计整理 1、什么是统计整理?它在整个统计工作中有什么作用? 统计整理:指对统计调查取得的资料进行加工处理的工作过程。 作用:对现象个体量认识过渡到现象总体量认识的连接点。(承上启下作用) 2、什么是统计分组?统计分组的关键是什么?为什么? 统计分组:根据统计研究的目的和要求,将总体中的所有单位按照一定的标志分为若干部分或组别的方法。 关键:统计分组是统计整理的关键 3、什么是分配数列?怎样编制等距数列? 分配数列:在统计分组的基础上,将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为分配数列。

相关文档
最新文档