变量间的相关关系与统计案例
第3课时 变量间的相关关系与统计案例
一、基础知识总结复习
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:
1
1
(,)x y ,2
2
(,)x y ,…,(,)n
n
x y ,其回归方程为 y bx
a =+ ,其中, 1
1
2
22
2
21
1
()()()n n
i
i
i i
i i n
n
i i i i x x y y x y nx y
xy x y b
x x
x x x nx
====----==
=
---∑∑∑∑ , a
y bx =- b
是斜率, a 是y 轴上的截距.0b >正相关,0b <负相关. ③样本中心:
(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:
()()
n
i
i
x x y y r --=
=
∑,
用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;
③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强
的线性相关关系.
(5)相关指数2R :
①
2
2
12
1
()1()
n
i
i
i n
i
i
i y y R y y ==-=-
-∑∑(线性回归模型中2
1R 0≤≤,且2
R 越大拟合效果越好).
②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2
R 越大.
(6)总偏差平方和、残差平方和、回归平方和
总偏差平方和:2
()n
i y y -∑;残差平方和 2()n
i i y y -∑;回归平方和 2()n
i y y -∑.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.
一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:
随机变量2
2()()()()()
n ad bc K a b a c b d c d -=
++++ (其中n a b c d =+++为样本容量),则利用独立性检验判
断表来判断“X 与Y 的关系”. 2
K 越大,X 与Y 的无关性越小,相关性越强.
二、基础知识过关
判断下列结论的正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)
(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√)
(3)通过回归方程 y bx a =+ 可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√)
(8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+, 则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定
(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习
20()P K k ≥ 0k 0.001 10.8280.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708
[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测
数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( )
A .变量x 与y 正相关,u 与v 正相关
B .变量x 与y 正相关,u 与v 负相关
C .变量x 与y 负相关,u 与v 正相关
D .变量x 与y 负相关,u 与v 负相关
解:由图1可知,各点整体呈递减趋势,
x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C (2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A .r 2<r 4<0<r 3<r 1
B .r 4<r 2<0<r 1<r 3
C .r 4<r 2<0<r 3<r 1
D .r 2<r 4<0<r 1<r 3
解:因为正相关0r >,负相关0r <,
132400 00r r r r ,,,>><<∴
又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r ||>|| 24310 0r r r r <<<<<∴;故选A.
练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x ,y 是负相关关系;
②在该相关关系中,若用21c x
y c e
=拟合时的相关
指数为21R ,用拟合时的相关指数为2
2R , 则2212R R >;
③x 、y 之间不能建立回归直线方程.
解:①显然正确;由散点图知,用21c x
y c e
=拟合的效果比用y bx a =+拟合的效果要好,
2212R R >∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故
③不正确.故填:①②
2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,
剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,
带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D
[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:7
1
9.32i i y ==∑,7
1
40.17i i i t y ==∑
,
0.55=
2.646≈.
参考公式:相关系数()()
n
i
i
t t y y r --=
∑
回归方程 y a
bt =+ 中斜率和截距的最小二乘估计公式分别为: 1
21
()()
()n
i
i i n
i
i t
t y y b
t
t ==--=-∑∑ , a
y bt =- 解:(1) 由折线图中数据得4t =,7
2
1
()28i i t t =-=∑∴
,0.55=
0.55 1.1 2.646 2.9106=?=?=
又7
7
11()()7i i i i i i t t y y t y t y ==--=-∑∑∵,7
1
9.32i i y ==∑,7
117i i y y ==∑∴
777
111
()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-?=∑∑∑∴, 2.89
0.9932.9106r =
≈
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.
(2) 719.32i i y ==∑∵,7119.32
1.3377i i y y ===≈∑∴,又7
21
()28i i t t =-=∑∵,
7
1
()() 2.89i i i t t y y =--=∑∴, 2.890.1028b
=≈ ∴, 1.330.1040.93a
y bt =-=-?= ∴ 所以,y 关于t 的回归方程为 0.930.1y t =+.
根据年份代码,2016年对应t =9, 0.930.109 1.83y =+?= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.
练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.
表中i ω=8
1
18i i ωω==∑,
(1)根据散点图判断,y a bx =+
与y c =+y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =- .根据(2)的结果回答下列问题:
①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率
和截距的最小二乘估计分别为:
1
2
1
()()
()
n
i
i i n
i
i u u
v v
u u β
==--=-∑∑, v u α
β=- 解:(1)
由散点图可以判断,y c =+y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程.
根据题目所给出的统计量有: 8
1
8
2
1()()
108.8
681.6
()i
i
i i i y y d
ωωωω==--==
=-∑∑ 6.8,563
y ==
∵, 56368 6.8100.6c y d ω=-=-?=∴, 100.668y ω=+∴, 因此y 关于x 的回归方程为
100.6y =+(3)①由(2)知,
100.6y =+所以当x =49时,
年销售量y 的预报值
100.6576.6y =+=,0.2z
y x =- ∵ ∴年利润z 的预报值0.2576.64966.32z
=?-= . ②根据(2)的结果知,年利润z
的预报值:0.2(100.620.12z
x x =+-=-+ ∵
所以当13.6 6.82
==时,即46.24x =时,z 取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.
[例3]为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人数的表格:
将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.
(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌
迷”与性别有关?
(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名
女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率.
注:
K2=
(a+b)(c+d)(a+c)(b+d)
,n=a+b+c+d.
解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45
2100(30104515)100
3.030 3.841
7525554533
K
?-?
==≈
???
<
所以我们没有95%的把握认为是否为“歌迷”与性别有关.
(2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,
记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A,
因为从5名歌迷中任选2人的不同选法有2
510
C=种,其中有一名是女性的选法有11
326
C C=种,
有两名女性的选法有2
21
C=种,
16
()0.7
10
P A
+
==∴.
[注]:
1.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
计算K2的值.
2.两个分类变量x 和y 是否有关系的判断方法
(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.
练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从
男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:
(1)试估计该校学生阅读莫言作品超过50篇的概率;
(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?
附:K 2=
解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学
生阅读莫言作品超过50篇的概率约为79
100.
(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:
根据列联表数据得:2
100(30252520)100 1.01 1.3235545505099
K ?-?=
=≈???< 所以没有75%的把握认为对莫言作品非常了解与性别有关.
案例统计公式(绝对精华)
统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明
统计学复习题 答案七
相关与回归分析 一、填空题 1、社会经济现象之间的相互关系可以概括为函数关系和相关关系两种类型。 2、现象之间的相关关系按相关程度不同分为完全相关、不完全相关和完全不相关。 3、现象之间的相关关系按相关方向不同分为正相关和负相关。 4、现象之间的相关关系按相关的形式不同分为线性相关和非线性相关。 5、判断现象之间相关关系表现形式的方法是散点图;测定现象之间相关关系密切程度的方法是计算相关系数。 6、相关系数R的值介于—1——+1 之间,当它为正值时,表示现象之间存在着正相关;当它为负值时,表示现象之间存在着负相关。 7、进行回归分析时,首先要确定哪个是自变量,哪个是因变量,在这一点上与相关分析不同。 8、客观现象之间确实存在的但关系值不固定的数量上的相互依存关系称为相关关系;与相关关系对应的是函数关系,反映现象之间存在的严格的依存关系。 9、用直线方程来表明两个变量间的变动关系,并进行估计和推算的分析方法称为简单线性回归分析。 10判断现象之间的相关关系表现形式的方法是散点图,测定现象之间的相关关系密切程度的指标是相关系数,确定现象之间相关变量之间的一般关系式的方法是回归分析。 11、直线回归方程y=a+bx中参数a、b的数值用最小平方法方法确定,其中 a= ,b= 。 二、是非题 1、判断现象之间是否存在相关关系必须计算相关系数。 F 2、回归分析和相关分析一样,所分析的两个变量一定都是随机变量。 F 3、当直线相关系数R=0时,说明变量之间不存在任何相关关系。 F 4、回归系数b的符号与相关系数r的符号一般相同,但有时也不同。 F 5、相关系数越大,说明相关程度越高;相关系数越小,说明相关程度越低。 F 6、回归分析中计算的估计标准误就是因变量的标准差。T 7、现象之间确实存在着的关系值固定的依存关系是相关关系。 F 8、按变量之间的相关强度不同,相关关系可分为正相关和负相关。 F 9、计算相关系数时,应首先确定自变量和因变量。 F
(新人教A版)2020版高考数学大一轮复习第九章统计第3节变量间的相关关系与统计案例讲义理
考试要求 1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^ =b ^ x +a ^ ,则b ^ =∑n i =1 (x i -x - )(y i -y - )∑n i =1 (x i -x - )2=∑n i =1 x i y i -nx - y - ∑n i =1 x 2 i -nx -2,a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^ 是在y 轴上的截距. 回归直线一定过样本点的中心(x - ,y - ). 3.回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x - ,y - )称为样本点的中心. (3)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强. r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.
【免费下载】概率论与数理统计案例
实例1 发行彩票的创收利润某一彩票中心发行彩票 10万张, 每张2元. 设头等奖1个, 奖金 1万元, 二等奖2个,奖金各 5 千元;三等奖 10个, 奖金各1千元; 四等奖100个, 奖金各100元; 五等奖1000个, 奖金各10 元.每张彩票的成本费为 0.3 元, 请计算彩票发行单位的创收利润.解:设每张彩票中奖的数额为随机变量X , 则X 10000 5000 1000 100 10 0p 51/1052/10510/105100/1051000/100p 每张彩票平均能得到奖金 05512()10000500001010E X p =? +?++? 0.5(),=元每张彩票平均可赚20.50.3 1.2(), --=元因此彩票发行单位发行 10 万张彩票的创收利润为:100000 1.2120000().?=元实例2 如何确定投资决策方向?某人有10万元现金,想投资于某项目,预估成功的机会为 30%,可得利润8万元 , 失败的机会为70%,将损失 2 万元.若存入银行,同期间的利率为5% ,问是否作此项投资?解:设 X 为投资利润,则 X 8 -2p 0.3 0.7()80.320.71(),E X =?-?=万元存入银行的利息:故应选择投资.1050.5(),%?=万元实例3 商店的销售策略某商店对某种家用电器的销售采用先使用后付款的方式,记使用寿命为X (以年计),规定1,1500;12,2000;23,2500; 3,3000.X X X X ≤<≤<≤>一台付款元一台付款元一台付款元一台付款元10,1e ,0,()100, 0.x X x f x x Y -?>?=??≤? 设寿命服从指数分布概率密度为试求该商店一台家用电器收费的数学期望定盒位置保护层防腐跨接地线弯曲半径标高等,要求技术交底。管线敷设技术、电气课校对图纸,编写复杂设备与装置高中资料试卷调试方案,编写重要设备高中资料、电气设备调试高中中资料试卷工况进行自动处理,尤其要避免错误高中资料试卷保护装置动作,并
高中数学必修三检测:变量间的相关关系习题(附解析)
2.3.1 变量之间的相关关系 40分钟课时作业 一、选择题 1.某商品销售量y (件)与销售价格x (元/件)负相关,则其线性回归方程可能是( ) A.y ^ =-10x +200 B.y ^ =10x +200 C.y ^ =-10x -200 D.y ^ =10x -200 答案 A 解析 x 的系数为负数,表示负相关,排除B 、D ,由实际意义可知x >0,y >0,C 中,散点图在第四象限无意义,故选A. 2.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) A .逐年比较,2008年减少二氧化硫排放量的效果最显著 B .2007年我国治理二氧化硫排放显现成效 C .2006年以来我国二氧化硫年排放量呈减少趋势 D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D 解析 由柱形图可知:A 、B 、C 均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D 不正确. 3.对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,…,10),得散点图2,由这两个散点图可以判断( )
A .y 与x 正相关,v 与u 正相关 B .y 与x 正相关,v 与u 负相关 C .y 与x 负相关,v 与u 正相关 D .y 与x 负相关,v 与u 负相关 答案 C 解析 根据散点图直接进行判断. 4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^ =0.4x +2.3 B.y ^ =2x -2.4 C.y ^ =-2x +9.5 D.y ^ =-0.3x +4.4 答案 A 解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 5.已知x 与y 之间的一组数据: 若y 与x 线性相关,则y 与x 的回归直线y ^ =b ^ x +a ^ 必过( ) A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4) 答案 D 解析 ∵x = 0+1+2+34=1.5,y =1+3+5+7 4 =4, ∴回归直线必过点(1.5,4).故选D. 6.已知x ,y 的取值如表所示:
计数原理、概率、随机变量及其分布、统计、统计案例
计数原理、概率、随机变量及其分布、统计、统计案例 第Ⅰ卷(选择题 共60分) 一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的) 1.已知随机变量ξ服从正态分布N (1,σ2),P (ξ≤4)=,则P (ξ≤-2)=( ) A . B . C . D . 2.以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分) 已知甲组数据的平均数为17,乙组数据的中位数为17,则x ,y 的值分别为( ) A .2,6 B .2,7 C .3,6 D .3,7 3.将4个颜色互不相同的球全部收入编号为1和2的两个盒 子里,使得放入每个盒子里的球的个数不小于该盒子的编号,则不同的放球方法有( ) A .10种 B .20种 C .36种 D .52种 4.已知f (x )、g (x )都是定义在R 上的函数,g (x )≠0,f ′(x )g (x )-f (x )g ′(x )<0,fx gx =a x ,f 1g 1+ f -1 g -1=52,则关于x 的方程abx 2+2x +5 2=0(b ∈(0,1))有两个不同实根的概率为( ) 5.用0,1,…,9十个数字,可以组成有重复数字的三位数的个数为( ) A .243 B .252 C .261 D .279 6.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y 与x 负相关且y ^ =-; ② y 与x 负相关且y ^ =-+; ③y 与x 正相关且y ^ =+; ④y 与x 正相关且y ^ =--. 其中一定不正确的结论的序号是( ) A .①② B .②③
人教版高中数学必修3试题 2.3变量间的相关关系 (2)
2.3变量间的相关关系 [A.基础达标] 1.有几组变量: ①汽车的重量和汽车每消耗1升汽油所行驶的平均路程; ②平均日学习时间和平均学习成绩; ③立方体的棱长和体积. 其中两个变量成正相关的是( ) A .①③ B .②③ C .② D .③ 解析:选C.①是负相关;②是正相关;③是函数关系,不是相关关系. 2.对于给定的两个变量的统计数据,下列说法正确的是( ) A .都可以分析出两个变量的关系 B .都可以用一条直线近似地表示两者的关系 C .都可以作出散点图 D .都可以用确定的表达式表示两者的关系 解析:选C.由两个变量的数据统计,不能分析出两个变量的关系,A 错;不具有线性相关的两个变量不能用一条直线近似地表示他们的关系,更不能用确定的表达式表示他们的关系,B ,D 错. 3.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^ ( ) A .不能小于0 B .不能大于0 C .不能等于0 D .只能小于0 解析:选C.当b ^=0时,r =0,这时不具有线性相关关系,但b ^ 能大于0,也能小于0. 4.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:( ) ① y 与x 负相关且y ^=2.347x -6.423;② y 与x 负相关且y ^=-3.476x +5.648;③ y 与x 正相关且y ^ =5.437x +8.493;④ y 与x 正相关且y ^ =-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③
C .③④ D .①④ 解析:选D.由正负相关性的定义知①④一定不正确. 5.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^ =0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x -,y -) C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 解析:选D.当x =170时,y ^ =0.85×170-85.71=58.79,体重的估计值为58.79 kg ,故D 不正确. 6.已知一个回归直线方程为y ^ =1.5x +45,x ∈{1,7,5,13,19},则y =________. 解析:因为x =1 5(1+7+5+13+19)=9, 且回归直线过样本中心点(x ,y ), 所以y =1.5×9+45=58.5. 答案:58.5 7.对具有线性相关关系的变量x 和y ,测得一组数据如下表,若已求得它们回归直线的斜率为6.5,则这条回归直线的方程为________. 解析:设回归直线方程为y ^=b ^x +a ^,则b ^=6.5,易知y =50,x =5,所以a ^=y -b ^ x =50-32.5=17.5,即回归直线方程为y ^ =6.5x +17.5. 答案:y ^ =6.5x +17.5 8.对某台机器购置后的运营年限x (x =1,2,3,…)与当年利润y 的统计分析知具备线性相关关系,线性回归方程为y ^ =10.47-1.3x ,估计该台机器使用________年最合算. 解析:只要预计利润不为负数,使用该机器就算合算,即y ^ ≥0,所以10.47-1.3x ≥0,解得x ≤8.05,所以该台机器使用8年最合算. 答案:8
高考一轮复习变量间的相关关系与统计案例
第3讲 变量间的相关关系与统计案例 【2015年高考会这样考】 以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】 高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式. 基础梳理 1.相关关系的分类 从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则 ?? ??? b ^=∑i =1n (x i -x )(y i -y )∑i =1n (x i -x )2 = ∑i =1n x i y i -n x y ∑i =1 n x 2i -n x 2 , a ^=y -b ^ x . 其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数
r= ∑ i=1 n (x i-x)(y i-y) ∑ i=1 n (x i-x)2∑ i=1 n (y i-y)2 ,用它来衡量两个变量间的线性相关关系. (1)当r>0时,表明两个变量正相关; (2)当r<0时,表明两个变量负相关; (3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差 平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好. 6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1y2总计 x1 a b a+b x2 c d c+d 总计a+c b+d a+b+c+d K2=n(ad-bc)2 (a+b)(a+c)(c+d)(b+d) (其中n=a+b+c+d为样本容量),可利用独立性检验
随机变量、统计案例
随机变量的分布列及统计案例复习学案参考答案 例1、解析 ∵P (A )=C 22+C 23 C 25=25,P (AB )=C 22C 25 =110, ∴P (B |A )=P (AB )P (A )=1 4 . 答案 B 例2、解析 该题为几何概型,圆的半径为1,正方形的边长为2,∴圆的面积为 π,正方形面积为2,扇形面积为π4.故P (A )=2π,P (B |A )=P (A ∩B )P (A )=1 4. 答案 (1)2π (2)1 4 例3、 专题三 离散型随机变量的分布列、均值与方差 例4、 解 设A 、B 、C 分别为甲、乙、丙三台机床各自独立加工同一种零件是一等品的事件,依题意得 ?????????P (A ·B -)=14,P (B ·C -)=112,P (A ·C )=29,即???? ??? ??P (A )·(1-P (B ))=14,P (B )·(1-P (C ))=112,P (A )·P (C )=29, 得27[P (C )]2-51P (C )+22=0, 解得P (C )=23或P (C )=119 (舍). ∴P (A )=13,P (B )=14,P (C )=2 3 . 即甲、乙、丙三台机床各自独立加工的零件是一等品的概率分别为13,14,2 3. (2)记D 为从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的事件. P (D )=1-P (D -)=1-(1-P (A ))·(1-P (B ))·(1-P (C ))=1-23× 34×13=56,即从甲、乙、丙加工的零件中各取一个检验,至少有一个一等品的概率为56.
2015年全国高考数学试题分类汇编§11.4变量间的相关关系与统计案例
11.4变量间的相关关系与统计案例 考点一变量间的相关关系 1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是() A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案C 8.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. (x i-)2(w i-)2(x i-)(y i-)(w i-)(y i-) 46.6563 6.8289.8 1.61469108.8 表中w i=,=w i. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: (i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大? 的斜率和截距的最小附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu 二乘估计分别为 =,=-. 解析(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2分) (2)令w=,先建立y关于w的线性回归方程. 由于===68, =-=563-68×6.8=100.6, 所以y关于w的线性回归方程为=100.6+68w, 因此y关于x的回归方程为=100.6+68.(6分) (3)(i)由(2)知,当x=49时,年销售量y的预报值 =100.6+68=576.6, 年利润z的预报值 =576.6×0.2-49=66.32.(9分) (ii)根据(2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8,即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.(12分) 9.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份20102011201220132014时间代号t12345
2019版高考数学总复习第十章算法初步统计统计案例58变量间的相关关系与统计案例课时作业文20180
课时作业 58 变量间的相关关系与统计案例 一、选择题 1.(2018·石家庄模拟(一))下列说法错误的是( ) A .回归直线过样本点的中心(x -,y - ) B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1 C .对分类变量X 与Y ,随机变量K 2 的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小 D .在回归直线方程x ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^ 平均增加0.2个单位 解析:本题考查命题真假的判断.根据相关定义分析知A ,B ,D 正确;C 中对分类变量 X 与Y 的随机变量K 2的观测值k 来说,k 越大,判断“X 与Y 有关系”的把握程度越大,故 C 错误,故选C. 答案:C 2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表: 收入x (万元) 8.2 8.6 10.0 11.3 11.9 支出y (万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y --b ^x - .据此估计,该社区一户年收入为15万元家庭的年支出为( ) A .11.4万元 B .11.8万元 C .12.0万元 D .12.2万元 解析:∵x -=10.0,y -=8.0,b ^=0.76,∴a ^=8-0.76×10=0.4,∴回归方程为y ^ =0.76x +0.4,把x =15代入上式得,y ^ =0.76×15+0.4=11.8(万元). 答案:B 3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 60 50 110 由K 2 = n ad -bc 2a +b c + d a +c b +d ,
高三数学每日一题试题及答案127.变量间的相关关系
128变量间的相关关系 【典例】(2018高考新课标II 理)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217, ,…,)建立模型①:?30.413.5y t =-+;根据2010年至2016年的数据(时间变量t 的值依次为127,, …,)建立模型②:?9917.5y t =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 【练习】 1.已知下表所示数据的回归直线方程为y ,则实数a 的值为 x 2 3 4 5 6 y 3 7 11 a 21 A .16 B .18 C .20 D .22 2.为了研究某班学生的脚长(单位厘米)和身高(单位厘米)的关系,从该班随机抽取名学生,根据 测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为 .已知 10 1 225i i x ==∑,10 1 1600i i y ==∑,?4b =.该班某学生的脚长为,据此估计其身高为 A . B . C . D .
【参考答案】(1)详见试题解析;(2)详见试题解析. (2)利用模型②得到的预测值更可靠. 理由如下: (ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.【解题必备】判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数r的公式求出r,然后根据r的大小进行判断.求线性回归方程时要严格按照公式求解,并一定要注意计算的准确性.学科&网 1.【答案】B 2.【答案】C 【解析】由已知,选C. 【名师点睛】(1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;
3 第3讲 变量间的相关关系、统计案例
第3讲 变量间的相关关系、统计案例 1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关. (3)回归方程为y ^=b ^x +a ^,其中b ^ =,a ^=y --b ^x -. (4)相关系数 当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关. r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性. 3.独立性检验 (1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为: y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d (2)K 2K 2= n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 判断正误(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
高考数学统计与统计案例.doc
高考数学统计与统计案例1.小吴一星期的总开支分布如图 1 所示,一星期的食品开支如图 2 所示,则小吴一星期的鸡蛋开支占总开支的百分比为() A.1%B.2%C.3%D.5% C[ 由图 1 所示,食品开支占总开支的 30%,由图 2 所示,鸡蛋开支占食 品开支的30 = 1 , 30+40+100+80+ 50 10 1 ∴鸡蛋开支占总开支的百分比为30%×10=3%.故选 C.] 2.(2019 德·州模拟 )某人到甲、乙两市各7 个小区调查空置房情况,调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为() A.4B. 3C.2D.1 B[ 由茎叶图可以看出甲、乙两市的空置房的套数的中位数分别是79,76,因此其差是 79- 76=3,故选 B.] 3.某工厂对一批新产品的长度(单位: mm)进行检测,如图是检测结果的频