高中数学练习:变量的相关性与统计案例
高中数学练习:变量的相关性与统计案例基础巩固(时间:30分钟)
1.对变量x,y有观测数据(x
i ,y
i
)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据
(u
i ,v
i
)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( C )
(A)变量x与y正相关,u与v正相关
(B)变量x与y正相关,u与v负相关
(C)变量x与y负相关,u与v正相关
(D)变量x与y负相关,u与v负相关
解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.故选C.
2.(湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为
Y X y
1
y
2
总计
x
1
a 10 a+10
x
2
c 30 c+30
总计60 40 100
(A)a=45,c=15 (B)a=40,c=20
(C)a=35,c=25 (D)a=30,c=30
解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A.
3.(甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表.
月份 1 2 3 4 5 6 7 8 9 10
最高温 5 9 9 11 17 24 27 30 31 21 最低温-12 -3 1 -2 7 17 19 23 25 10 已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( B )
(A)最低温与最高温为正相关
(B)每月最高温与最低温的平均值在前8个月逐月增加
(C)月温差(最高温减最低温)的最大值出现在1月
(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大
解析:根据题意,依次分析选项,
A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3.5,3,5,4.5,12,20.5,23,
26.5,28,15.5,在前8个月不是逐月增加的,因此B错误;
C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确.故选B.
4.(贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6.5x+17.5,则表格中n的值应为( D ) x 2 4 5 6 8
y 30 40 n 50 70
解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方
程可得=6.5×5+17.5?n=60,故选D.
5.(定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:
男女总计
喜欢40 20 60
不喜欢20 30 50
总计60 50 110
由K2=算得K2=≈7.8.
附表:
P(K2≥k) 0.050 0.010 0.001 k 3.841 6.635 10.828
(A)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”
(B)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”
(C)有99%以上的把握认为“喜欢该节目与性别有关”
(D)有99%以上的把握认为“喜欢该节目与性别无关”
解析:因为7.8<10.828,所以不能在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”;又因为7.8>6.635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C.
6.(四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:
x 6 5 10 12
y 6 5 3 2
(A)=0.7x-2.3 (B)=-0.7x+10.3
(C)=-10.3x+0.7 (D)=10.3x-0.7
解析:根据表中数据,得
=(6+5+10+12)=,
=(6+5+3+2)=4,
且变量y随变量x的增大而减小,是负相关,
所以,验证=时,=-0.7×+10.3≈4,
即回归直线=-0.7x+10.3过样本点的中心(,).
故选B.
7.(广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:
理科文科总计男13 10 23
女7 20 27
总计20 30 50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能性约为.
解析:由4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.
答案:5%
8.已知下列表格所示的数据的回归直线方程为=3.8x+,则的值为.
x 2 3 4 5 6 y 251 254 257 262 266
解析:由表格可知,==4,
==258.
由回归直线经过样本点的中心(,),得258=3.8×4+,
所以=242.8.
答案:242.8
能力提升(时间:15分钟)
9.(豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:
x 4 6 8 10 12
y 1 2 3 5 6
由表中数据求得y关于x的回归方程为=0.65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为( A )
(A)(B)(C)(D)
解析:因为=8,=3.4,所以3.4=0.65×8+,解得=-1.8,则=0.65x-1.8,可知5个点中
落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A.
10.已知下列命题:
①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于1;
③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;
④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中正确命题的序号是.
解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误.所以正确命题的序号是①②③.
答案:①②③
11.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:
感染未感染总计服用10 40 50
未服用20 30 50
总计30 70 100
参考公式:K2=
) 0.15 0.10 0.05 0.025 P(K2>k
2.072 2.706
3.841 5.024
k
P(K2>k
) 0.010 0.005 0.001
6.635
7.879 10.828
k
参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”.
解析:由题意可得,K2的观测值k=≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”.
答案:5%
12.(青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 50 60 70
根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为万元.
解析:由题意可得:==5,==50,
线性回归方程过样本点的中心,则50=7×5+,所以=15,
线性回归方程为=7x+15,
据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元.
答案:85
13.(漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值.
496.1
x
i
y
i
168.6
(x
i -)2
1.989
(y
i -)2
0.244
x i y
i
8 364.92
(x
i -)(y
i
-)
0.674
(2)根据表中数据,建立y关于x的回归方程.
参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘
估计公式分别是=,=-.
解:(1)根据题意,计算相关系数为
r==;
所以r2=≈0.936且r>0,
故y与x具有很强的正相关关系.
(2)依题意,=≈0.34,
又=x
i
=49.61.
=y
i
=16.86,
解得=16.86-0.34×49.61≈0;
故y关于x的回归直线方程为y=0.34x.
14.(厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读
时间
[0,20)
[20,
40)
[40,
60)
[60,
80)
[80,
100)
[100,
120]
人数8 10 12 11 7 2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
男生女生总计阅读达人
非阅读达人
总计
附:参考公式:K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k
) 0.100 0.050 0.010 0.001
k
2.706
3.841 6.635 10.828
10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+
4.4=52(分).
(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表
如下:
男生女生总计阅读达人 6 14 20
非阅读达人18 12 30 总计24 26 50
计算K2==≈4.327,
由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.