高三数学 正态分布和线性回归(知识点和例题)
正态分布和线性回归高考要求
1.了解正态分布的意义及主要性质
2.了解线性回归的方法和简单应用
知识点归纳
1.正态分布密度函数:
2
2
()
2
()
2
x
f x e
μ
σ
πσ
-
-
=,(σ>0,-∞<x<∞)
其中π是圆周率;e是自然对数的底;x是随机变量的取值;μ为正态分布的均值;σ是正态分布的标准差.正态分布一般记为)
,
(2
σ
μ
N
2.正态分布)
,
(2
σ
μ
N)是由均值μ和标准差σ唯一决定的分布
例1、下面给出三个正态总体的函数表示式,请找出其均值μ和标准差σ.(1)2
2
2
1
)
(
x
e
x
f-
=
π
,(-∞<x<+∞)
(2)
2
(1)
8
()
22
x
f x e
π
-
-
=,(-∞<x<+∞)
解:(1)0,1 (2)1,2
3.正态曲线的性质:正态分布由参数μ、σ唯一确定,如果随机变量ξ~N(μ,σ2),根据定义有:μ=Eξ,σ=Dξ。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x =μ对称。
(3)曲线在x =μ时位于最高点。
(4)当x <μ时,曲线上升;当x >μ时,曲线下降。并且当曲线向左、
右两边无限延伸时,以x 轴为渐近线,向它无限靠近。
(5)当μ一定时,曲线的形状由σ确定。σ越大,曲线越“矮胖”,表示总体越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中。
五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教学
4.标准正态曲线:当μ=0、σ=l 时,正态总体称为标准正态总体,其
相应的函数表示式是2
221)(x e
x f -
=
π
,(-∞<x <+∞)
其相应的曲线称为标准正态曲线
标准正态总体N (0,1)在正态总体的研究中占有重要的地位任何正态分布的概率问题均可转化成标准正态分布的概率问题
5.标准正态总体的概率问题:
对于标准正态总体N (0,1),)(0x Φ是总体取值小于0x 的概率, 即 )()(00x x P x <=Φ,
其中00>x ,图中阴影部分的面积表示为概率0()P x x <只要有标准正态
分布表即可查表解决.从图中不难发现:当00 )(1)(00x x -Φ-=Φ;而当00=x 时,Φ(0)=0.5 例2 设),(~2 σμN X ,且总体密度曲线的函数表达式为: 4 1 2221)(+-- = x x e x f π ,x ∈R 。 (1)求μ,σ; (2)求)2|1(|< -x P 的值。 分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。利用一般正态总体),(2 σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。 解:(1)由于2 22)2(2)1(4 1 22 2121)(-- +-- ?= = x x x e e x f ππ , 根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。 (2))2121()2|1(|+<<-=< -x P x P (1(1(1)(1)2(1)120.84131F F =-=Φ-Φ=Φ-Φ-=Φ-=?- 6826.0=。 点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。 9.相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系. 10.回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面: (1)回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 (2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。 (3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 11.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度粗略地看,散点分布具有一定的规律 12. 回归直线 设所求的直线方程为,^ a bx y +=,其中a 、 b 是待定系数. 11 22211 ()()()n n i i i i i i n n i i i i x x y y x y nxy b x x x nx a y bx ====? ---? ?==?--?? =-?∑∑∑∑, ∑==n i i x n x 11,∑==n i i y n y 11 相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析 13.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y 与x 的一组观测值,把 ∑∑∑===----= n i n i i i n i i i y y x x y y x x r 1 1 221 )()() )((= ∑∑∑===---n i n i i i n i i i y n y x n x y x n y x 1 1 22221 ) )(( 叫做变量y 与x 之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度. 14.相关系数的性质:r ≤1,且r 越接近1,相关程度越大;且r 越接近0,相关程度越小.一般的,当r ≥ 0.75 时,就可以判断其具有很强的相关性,这时求线性回归方程才有意义。 例3假设关于某设备的使用年限x 和所支出的维修费用y (万元),有如 (1)线性回归方程; (2)估计使用年限为10年时,维修费用是多少? 分析:本题为了降低难度,告诉了y 与x 间呈线性相关关系,目的是训练公式的使用。 于是23.14 5905 453.112552 2 51 25 1=?-??-= --= ∑∑==x x y x y x b i i i i i , 08.0423.15=?-=-=bx y a 。 ∴线性回归方程为:08.023.1^ +=+=x a bx y 。 (2)当x=10时,38.1208.01023.1^ =+?=y (万元) 即估计使用10年时维修费用是12.38万元。 点评:本题若没有告诉我们y 与x 间是呈线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。