2019高考数学精讲二轮专题七 概率与统计第二讲统计与统计案例

第二讲统计与统计案例

考点一抽样方法

三种抽样方法的区别与联系

[对点训练]

1.(2018·安徽宣城二模)一支田径队共有运动员98人,其中女运动员42人,用分层抽样的方法抽取一个样本,每名运动员被抽到的

概率都是2

7,则男运动员应抽取( )

A .18人

B .16人

C .14人

D .12人

[解析] ∵田径队共有运动员98人,其中女运动员有42人,∴男运动员有56人,

∵每名运动员被抽到的概率都是2

7, ∴男运动员应抽取56×2

7=16(人),故选B. [答案] B

2.(2018·安徽皖南八校联考)某校为了解1000名高一新生的健康状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )

A .16

B .17

C .18

D .19

[解析] 第一组用简单随机抽样抽取的号码为443-(18-1)×1000

40=18,故选C.

[答案] C

3.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:

则下面结论中不正确的是( )

A.新农村建设后,种植收入减少

B.新农村建设后,其他收入增加了一倍以上

C.新农村建设后,养殖收入增加了一倍

D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半

[解析]设建设前经济收入为a,则建设后经济收入为2a,由题图可知:

根据上表可知B、C、D结论均正确,结论A不正确,故选A.

[答案] A

4.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.

若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.[解析]由题意可知,这35名运动员的分组情况为,第一组(130,130,133,134,135),第二组(136,136,138,138,138),第三组

(139,141,141,141,142),第四组(142,142,143,143,144),第五组(144,145,145,145,146),第六组(146,147,148,150,151),第七组(152,152,153,153,153),故成绩在区间[139,151]上的运动员恰有4组,故运动员人数为4.

[答案] 4

[快速审题] (1)看到系统抽样,想到分段间隔. (2)看到分层抽样,想到抽样比.

系统抽样与分层抽样的关注点

(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m 为首项,组距d 为公差的等差数列{a n },第k 组抽取样本的号码a k =m +(k -1)d .

(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,抽样比等于样本容量与总体容量的比,各层所抽取的样本容量等于该层个体总数与抽样比的乘积.

考点二 用样本估计总体

1.频率分布直方图

(1)频率分布直方图中横坐标表示组距,纵坐标表示频率

组距

,频率=组距×频率组距

.

(2)频率分布直方图中各小长方形的面积之和为1. 2.方差公式

s 2

=1

n [(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2]

[对点训练]

1.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )

A .56

B .60

C .120

D .140

[解析] 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140,故选D.

[答案] D

2.(2018·广东韶关调研)在某次测量中得到的A 样本数据如下:41,44,45,51,43,49,若B 样本数据恰好是A 样本数据每个都减5后所得数据,则A ,B 两样本的下列数据特征对应相同的是( )

A .众数

B .中位数

C .平均数

D .标准差

[解析] 由众数、平均数、中位数、标准差的定义知,A 样本中各数据都减5后,只有标准差不改变,故选D.

[答案] D

3.(2018·山东临沂一模)传承传统文化再掀热潮,在刚刚过去的

新春假期中,央视科教频道以诗词知识竞赛为主的《中国诗词大会》火爆荧屏,如图的茎叶图是两位选手在个人追逐赛中的比赛得分,则下列说法正确的是()

A.甲的平均数大于乙的平均数

B.甲的中位数大于乙的中位数

C.甲的方差大于乙的方差

D.甲的平均数等于乙的中位数

[解析]由茎叶图,知:x-甲=1

9(59+45+32+38+24+26+11

+12+14)=29,

x-乙=1

9(51+43+30+34+20+25+27+28+12)=30,

s2甲=1

9[30

2+162+32+92+(-5)2+(-3)2+(-18)2+(-17)2+(-

15)2]≈235.3,

s2乙=1

9[21

2+132+02+42+(-10)2+(-5)2+(-3)2+(-2)2+(-

18)2]≈120.9,

甲的中位数为:26,乙的中位数为:28,

∴甲的方差大于乙的方差,故选C.

[答案] C

4.(2018·正定中学抽测)从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图),则这100名学生成绩的平均数为________,中位数为________.

[解析]由图可知,平均数x=105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.

中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.

[答案]125124

[快速审题](1)看到频率分布直方图,想到频数与频率的区别以及计算方法和频率分布直方图中横轴与竖轴中的数据的意义.

(2)看到方差,想到方差的含义及方差的计算公式.

用样本估计总体问题应关注两点

(1)在频率分布直方图中,众数为最高矩形的底边中点的横坐标,中位数为垂直横轴且平分直方图面积的直线与横轴交点的横坐标,平均数为每个小矩形的面积乘以相应小矩形底边中点的横坐标之积的和.

(2)计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.

考点三统计案例

1.线性回归方程

方程y^=b^x+a^称为线性回归方程,其中b^=∑

i=1

n

x i y i-n x y

i=1

n

x2i-n x2

,a^=y

-b^x;(x,y)称为样本中心点.2.独立性检验

K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

(其中n=a+b+c+d为样本容量).角度1:线性回归分析

【例1】(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.

[解](1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y^=-30.4+13.5×19=226.1(亿元).

利用模型②,该地区2018年的环境基础设施投资额的预测值为y^=99+17.5×9=256.5(亿元).

(2)利用模型②得到的预测值更可靠.

理由如下:

(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y^=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.

(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.

(答出其中任意一种或其他合理理由均可)

角度2:独立性检验

【例2】(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

[解](1)第二种生产方式的效率更高.

理由如下:

(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产

方式的效率更高.

(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.

(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.

(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.

(以上给出了4种理由,答出其中任意一种或其他合理理由均可). (2)由茎叶图知m =79+81

2=80. 列联表如下:

(3)由于K 2=40×(15×15-5×5)

2

20×20×20×20

=10>6.635,所以有99%的把

握认为两种生产方式的效率有差异.

(1)求回归直线方程的关键

①正确理解计算b^,a^的公式和准确的计算,其中线性回归方程必过样本中心点(x,y).

②在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.

(2)独立性检验的关键

根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.K2的观测值k越大,对应假设事件H0成立的概率越小,H0不成立的概率越大.

[对点训练]

1.[角度1]某地随着经济的发展,居民收入逐年增长,该地一建设银行连续五年的储蓄存款(年底余额)如下表:

t =x-2010,z=y-5得到下表:

(1)

(2)通过(1)中的方程,求出y关于x的回归方程;

(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?

(附:对于线性回归方程y ^=b

^x +a ^,其中b ^=∑i =1

n

x i y i -n x -

·y -∑i =1

n

x 2i -n x

-2

,a ^=y

--b ^x -)

[解] (1)令z 关于t 的线性回归方程为z ^=b ^t +a ^, ∵t -=3,z -=2.2,∑i =1

5

t i z i =45,∑i =1

5

t 2i =55,

b ^=45-5×3×2.255-5×9=1.2,a ^=z --b ^t -=2.2-3×1.2=-1.4,

∴z ^=1.2t -1.4.(2)将t =x -2010,z =y -5,代入z ^=1.2t -1.4,

得y ^-5=1.2(x -2010)-1.4,即y ^=1.2x -2408.4. (3)∵y ^=1.2×2020-2408.4=15.6(千亿元),

∴预测到2020年年底,该地储蓄存款额可达15.6千亿元. 2.[角度2]某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人成绩为优秀的概率为311.

(2)根据列联表中的数据,若按99.9%的可靠性要求,能否认为“成绩是否优秀与班级有关系”.

参考公式与临界值表:K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

.

(2)

K2=110×(10×30-20×50)2

60×50×30×80

≈7.486<10.828.因此按99.9%的可

靠性要求,不能认为“成绩是否优秀与班级有关系”.

1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图:

根据该折线图,下列结论错误的是()

A.月接待游客量逐月增加

B.年接待游客量逐年增加

C.各年的月接待游客量高峰期大致在7,8月

D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

[解析]折线图呈现出的是一个逐渐上升的趋势,但是并不是每个月都在增加,故A说法错误;折线图中按照年份进行划分,可以看出每年的游客量都在逐年增加,故B说法正确;折线图中每年的

高峰出现在每年的7,8月,故C 说法正确;每年的1月至6月相对于7月至12月的波动性更小,变化的幅度较小,说明变化比较平稳,故D 说法正确.

[答案] A

2.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知∑i =1

10

x i =225,∑i =1

10

y i

=1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )

A .160

B .163

C .166

D .170

[解析] 由题意可得x -=22.5,y -=160,∴a ^=160-4×22.5=70,即y ^=4x +70.当x =24时,y ^=4×24+70=166,故选C.

[答案] C

3.(2018·江苏卷)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________.

[解析] 5位裁判打出的分数分别为89,89,90,91,91,则这5位裁判打出的分数的平均数为1

5×(89+89+90+91+91)=90.

[答案] 90

4.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:

(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A 的概率;

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:

的估计值(精确到0.01).

附:

.

K2=

(a+b)(c+d)(a+c)(b+d)

[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.

由题意知P(A)=P(BC)=P(B)P(C).

旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+

0.034+0.040)×5=0.62,

故P(B)的估计值为0.62.

新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,

故P(C)的估计值为0.66.

因此,事件A的概率估计值为0.62×0.66=0.4092.

(2)根据箱产量的频率分布直方图得列联表

K2=

100×100×96×104

≈15.705.

由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.

(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新

养殖法箱产量的中位数的估计值为50+0.5-0.34

0.068≈52.35(kg).

1.统计与统计案例在选择或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.

2.统计的解答题多在第18或19题的位置,多以交汇性的形式考查,交汇点主要有两种:频率分布直方图、茎叶图择一与随机变量的分布列、数学期望、方差、正态分布相交汇考查;频率分布直方图、茎叶图择一与线性回归或独立性检验相交汇来考查,难度中等.

热点课题18概率与统计的交汇问题

[感悟体验]

(2018·四川成都一模)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:

性相关关系.试根据上表,求B项指标数据y关于A项指标数据x 的线性回归方程y^=b^x+a^;

(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只小白鼠的B项指标数据高于3的概率.

(参考公式:b

^=∑i =1

n

(x i -x -

)(y i -y -)∑i =1n

(x i -x -

)2=

∑i =1

n

x i y i -n x -

y -∑i =1

n

x 2i -n x

-2

,a ^=y --b ^x -)

[解] (1)由题意,可得x -=7,y -=3,

∑i =1

5

x i y i =110,∑i =1

5

x 2i =255,b

^=

∑i =15

x i y i -5x -

y -∑i =1

5

x 2i -5x

-2

=1

2.

∵a ^=y --b ^x -,∴a ^=-12. ∴所求线性回归方程为y ^=12x -12.

(2)设1号至5号小白鼠依次为a 1,a 2,a 3,a 4,a 5,则在这5只小白鼠中随机抽取3只的抽取情况有a 1a 2a 3,a 1a 2a 4,a 1a 2a 5,a 1a 3a 4,a 1a 3a 5,a 1a 4a 5,a 2a 3a 4,a 2a 3a 5,a 2a 4a 5,a 3a 4a 5,共10种.

随机抽取的3只小白鼠至少有一只的B 项指标数据高于3的情况有a 1a 2a 4,a 1a 2a 5,a 1a 3a 4,a 1a 3a 5,a 1a 4a 5,a 2a 3a 4,a 2a 3a 5,a 2a 4a 5,a 3a 4a 5,共9种,

∴从这5只小白鼠中随机抽取3只,其中至少有一只的B 项指标数据高于3的概率为9

10.

专题跟踪训练(二十九)

1.(2018·长春市第一次质量监测)已知某班级部分同学一次测验的成绩统计如图所示,则其中位数和众数分别为( )

相关主题
相关文档
最新文档