关于Poisson分布的检验

合集下载

卫生统计学Poisson分布及其应用

卫生统计学Poisson分布及其应用

.
30
例7 卫生标准规定, 生活饮用水大肠杆菌数不得超过3个/ml。 现对某饮用水进行抽检,抽取1ml水样培养得到5个大肠杆 菌。问该水样中的大肠杆菌是否超标?
H0:=3成立时, 每毫升水中大肠杆菌数的概率分布
.
31
(1) 建立检验假设,确定检验水准 H0: =0,即该水样中大肠杆菌数不超标 H1: >0 ,即该水样中大肠杆菌数超标
1 0.04979 0.14936 0.22404 0.22404 0.16803 0.18474
(3) 做出推断结论. 本例P>0.05,按 = 0.05水准不拒绝H0,
尚不能认为该水样中大肠杆菌超标。
.
32
(2) 正态近似法:
当0>20时,
样本计数
近似
x ~ N(0, 0)
,可用正态近似
法。
u X 0 0
.
33
样本计数与已知总体均数的比较 ——正态近似法
例8 质量控制标准规定某装置平均每小时发出质点数不超过 50个。今抽查一次,在1小时内测得该装置发出的质点数为 58个,问该装置是否符合要求?
H0(=0=50) 成立时,1小时内该装置发出的质点数的概率分布 =50
.
34
(1) 建立检验假设,确定检验水准 H0: =0,即该装置符合质量标准(平均每小时发出的 质点数不超过50个) H1: >0 ,即该装置不符合质量标准(平均每小时发出 的质点数超过50个)
= 0.05
(2) 计算检验统计量。
.
12
三、 Poisson分布随机变量的均数和方差
若 X服从均数为 的 Poisson分布, 则可证明:
X n
X

POISSON分布

POISSON分布
Poisson分布常用于研究单位容积内某事件的发生 数,如: 某交换台在某一段时间内所接到的呼唤次数 某公共汽车站在一固定时间内来到的乘客数 在物理学中,放射性分裂落到某区域的质点数 显微镜下落在某区域中的微生物的数目 在工业生产中,每米布的疵点数 纺织机上的断头数等等 都服从Poisson分布。
医学研究中, 单位容积中大肠杆菌数 粉尘在单位容积的数目 放射性物质在单位时间内放射质点数 一定人群中患病率较低的非传染性疾病患 病数(或死亡数)的分布。
H0:不会增长,即λ=3 溶液中细菌数服从Poisson分布
P=P(X≥5)=1-P(X=0)-…-P(X=4)
=0.1847
所以……
例 已知接种某疫苗时,一般严重反应率为1‰,现用 一批该种疫苗接种150人,有2人发生严重反应,问该 批疫苗的严重反应率是否高于一般。
H0: λ=λ0=0.001×150=0.15 H1: λ>0.15 α=0.05 p(x≥2)=1-p(x=0)-p(x=1)=0.0102<α 所以拒绝H0
(2)正态近似法 x>50
例 用计数器测得某放射性物质半小时内发出 的脉冲数为360个,试估计该放射性物质每 30分钟平均脉冲数的95%可信区间。
(3)直接计算概率法
1
22x,/2,1
2 2x2,1/2
2
2
特别地 X=0时
0,
1
2 2x2,1/2
2
2
2 x,
/2
是自由度为2x的左侧累计概率为α/2的χ2
多为1
4 事件数的可信区间
在Poisson分布中,总体均数λ的可信区间
(1)查表法 x≤100 附表 例 将一个面积为100cm2的培养皿置于某病室中,

泊松分布的检验——可以的

泊松分布的检验——可以的

泊松分布的检验2010-02-18 23:26因为很多总体的分布是泊松分布,因此极易引发我们的猜想,比如,某人开了一个商店,每分钟来店里交易的人数是不是泊松分布?某支股票或合约每分钟的交易次数是不是符合泊松分布?考虑从收集数据到最后检验分布的步骤和方法。

收集数据每分钟进入商场买东西的顾客人数。

至于交易的价值,这里暂不研究。

比如,一个店内某1分钟内有5个顾客进来买东西,其交易金额为100元。

另外一分钟内有7位顾客进来买东西,交易金额为200元,这里的检验只考虑人数,而不考虑交易金额。

所以观测数据记为 5、7,而不是100、200。

假设样本数据记录在M文件:tF.mtradeFrequency=[1 9 38 29 27 28 25 20 19 13 8 14 15 24 10 13 15 6 14 13 10 9 13 7 6 6 6 15 20 16 14 8 8 8 22 31 19 10 14 11 13 3 6 8 6 9 6 10 11 10 7 8 13……]图形图形比较直观,因此容易给予我们进行各种假设的有效提示。

先进行图形的一般训练,以累积一些感性的经验或进行图形比较的基础积累。

所以,需要使用MATLAB的disttool工具反复变化泊松分布的参数lambda以获得各种图形(概率分布图),这样在脑海里有些印象。

假设样本数据为:tradeFrequency=[1 9 38 29 27 28 25 20 ……]画出它们的概率分布图,这样和泊松分布的概率分布图比较一下看看。

或许我们可能觉得它更象正态分布的概率分布图(密度图),或者是其他的,总之,我们获得一些假设。

这样就找到了下一步的工作方向。

频数表table=tabulate(tradeFrequency);table =1.0000 7.0000 3.11112.0000 8.00003.55563.0000 19.0000 8.44444.0000 16.0000 7.1111plot(table(:,1),table(:,3)/100,'+')plot(table(:,1),table(:,3)/100)bar(table(:,1),table(:,3)/100)检验泊松分布计算平均数:lambda=mean(tradeFrequency) lambda = 9.1422X=tradeFrequency';H=kstest(X,[X poisscdf(X,lambda)])H=1 拒绝原假设,即不符合泊松分布。

Poisson分布的统计分析精品PPT课件

Poisson分布的统计分析精品PPT课件

1!
2!
3!
= 0.014996+0.062981+0.132261+0.185165=0.395403
故按 0.05水准,不拒绝 H0 ,尚不能认为该地孕产妇的死亡率
低于一般。
18
正态近似法
例7.5 利用例7.3的结果,若全国新生儿出生缺 陷发生率为89.62/万,研究该地新生儿出生缺陷 发生率是否高于全国的水平,试作统计推断。
6
Poisson分布的特性
Poisson分布的可加性
如果X1, X 2 , …, X k相互独立,且它们分别服从 Poisson分布,则T= X1+ X2+…+ Xk也服从Poisson 分布,其参数为原各参数之和1+ 2+…+ k
正态分布与Poisson分布的关系
只取决于均数,均数很小时分布很偏,当均数增加时, 逐渐趋于对称
12
大样本时总体均数的估计
例7.2 测得某放射性同位素半小时内发出的脉冲 数为490个,试估计该放射性同位素平均每30分 钟脉冲数的95%可信区间。
已知n=490,由于此样本计数大于50,故可考虑利用 近似正态分布的原理估计其总体均数。这里,待估总 体均数的单位是30分钟,样本均数也是观察了1次30 分钟得到的,所以应当以30分钟作为一个观察单位
由以上性质可得,当n很大,很小时,二项分布近似 Poisson分布。当n很大时,二项分布概率的计算量相 当大。因此可以利用二项分布的Poisson近似这一性质, 当n很大且很小时,可以用Poisson分布概率计算替代 二项分布的概率计算
9
Poisson分布总体均数 的估计
10
小样本时总体均数的估计

r语言泊松分布检验

r语言泊松分布检验

r语言泊松分布检验在 R 语言中,你可以使用不同的方法来进行泊松分布检验。

以下是一些常见的方法:1. Goodness-of-Fit Test:使用 poisson.test 函数进行拟合度检验,检验样本数据是否符合泊松分布。

# 生成泊松分布样本数据set.seed(123)data <- rpois(100, lambda = 5)# 进行拟合度检验fit_test <- poisson.test(table(data))print(fit_test)2. Chi-Square Test:使用卡方检验(Chi-square test)来检验观察频数和期望频数之间的差异。

# 生成泊松分布样本数据set.seed(123)data <- rpois(100, lambda = 5)# 计算期望频数expected <- dpois(unique(data), lambda = 5) * length(data)# 进行卡方检验chi_square <- chisq.test(table(data), p = expected / sum(expected))print(chi_square)3. Kolmogorov-Smirnov Test:使用Kolmogorov-Smirnov 检验来检验样本是否符合泊松分布的累积分布函数。

# 生成泊松分布样本数据set.seed(123)data <- rpois(100, lambda = 5)# 进行 Kolmogorov-Smirnov 检验ks_test <- ks.test(data, "ppois", lambda = 5)print(ks_test)请注意,上述示例中的 lambda 参数是泊松分布的均值参数。

你需要根据你的实际数据和情况进行调整。

在执行检验时,通常需要关注返回的p-value。

泊松分布的概念及表和查表方法

泊松分布的概念及表和查表方法

泊松分布的概念及表和查表方法Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

中文名泊松分布外文名poisson distribution 分类数学时间1838年台译卜瓦松分布提出西莫恩·德尼·泊松目录1命名原因2分布特点3关系4应用场景5应用示例6推导7形式与性质命名原因泊松分布实例泊松分布(Poisson distribution),台译卜瓦松分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。

泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Sim éon-Denis Poisson)命名的,他在1838年时发表。

这个分布在更早些时候由贝努里家族的一个人描述过。

分布特点泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。

泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为特征函数为关系泊松分布与二项分布泊松分布当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。

通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。

事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。

应用场景在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。

关于Poisson分布的检验讲解

关于Poisson分布的检验讲解

目录承诺保证书 (I)1 引言 (1)1.1 研究背景 (1)1.2 研究方法及目的 (1)2 Poisson分布检验的步骤和基本理论 (2)2.1 检验步骤 (2)2.2 检验的基本原理 (3)3 关于Poisson分布检验的三个案例及实际研究 (7)3.1 案例分析 (7)3.2 对单位时间到来顾客数的实际研究 (13)参考文献 (18)英文摘要 (19)关于Poisson分布的检验肖秋光摘要:Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计.其中2χ检验是众所周知的拟合优度检验,它能适用于任意的备择假设.另外,通过三个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.χ统计量关键词:Poisson分布假设检验独立变量21 引言1.1 研究背景改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等.其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究.在现实生活中的许多数据经过人们大量的研究是服从泊松分布的.若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.泊松分布是1837年由法国数学家泊松(Poisson S.D.1781--1840)首次提出的.它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用.如110报警台24小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.1.2 研究方法及目的由于向110报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的……它们都可以看成是一种于随机时刻到来的“质点流”.要对其进行研究,首先,必须收集到有效的数据.其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质.我们主要对部分数据进行抽取分析,根据部分数据对全体数据做出推断及判断.因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策.例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.2 Poisson 分布检验的步骤及基本理论 2.1 检验步骤 2.1.1 数据整理进行Poisson 分布的检验时,首先要对收集到的数据进行整理.假设收集到单位时间的量为n x x x x 321,,,然后把这些量按从小到大顺序排列起来,并查出其频数稍加整理制成表格如下: 表 1其中满足:i i n p x p p x x x ⨯++⨯+⨯=+++ 102110 2.1.2 用图像对样本数据进行模拟由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.泊松分布的图形一般为左偏,但随λ数值的增大,图形趋于对称.图12.1.3 检验得出结论2.2检验的基本理论2.2.1 假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断.假设检验的步骤:①根据问题建立原假设和备择假设原假设是设总体参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验.确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置.H为真时的抽样分布②选择适当的样本统计量,并确定以这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值.③选定显著性水平α,确定临界值α应在抽样之前就确定下来,根据单、双侧检验的情况,将α放置一侧或双侧.然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值.④进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论.2.2.2最大似然估计及拟合优度2χ检验2.2.3 P 值检验所谓P 值,是指在一个假设检验问题中,利用观测值能够做出拒绝原假设选择的最小显著性水平,如果p 值小于显著性水平α,则相应的检验统计量的值落入拒绝域中.其检验规则为:若p ≥α值,则拒绝原假设0H ;若p <α值,则接受原假设0H . 2.2.4 Poisson 分布检验设总体X 服从具有参数为0>λ的泊松分布,n X X X X ,,,,321 为其样本.考虑检验问题:0H λ:010:;λλλ≠=H ,现有∏∑∏∏∏==-=--==⎭⎬⎫⎩⎨⎧=∑===ni in i i n ni ix n ni i x n i i x x ex eex x p ni ii11111)!(1ln )(ex p )!(1!);(1λλλλλλλ其中()λλln )(,,,,121==∑=b x x x x T ni i nλλn ni in e c x x x x h -===∏)(,)!(1),,,(121因此⎪⎩⎪⎨⎧<<==><=212121,02,1,,&,1),,,(cT c j c T b c c T x x x j i n ϕ则[]⎪⎩⎪⎨⎧==⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∑∑==),,,(),(),,,(21001211000n ni i n n i i x x x E M x x x x E X E ϕλαϕαλλλ 当0H 为真时,统计量∑==ni i X T 1服从参数为0λn 的泊松分布,0)(λn T E =,则02010201)(!)(!!)(!)(02201110100λλλλλλλλαn c n c n c j j n c j j e n c b e n c b e j n e j n ---∞+=--=+++=∑∑02010201)(!)(!!)(!)(02220111101000λλλλλλλλαλn c n c n c j j n c j j e n c cb e nc c b e j n j e j n j n ---∞+=--=+++=∑∑在一般情况下上述方程不易求解,但当0λ不接近于零而n 又不很小时,统计量1λλn n XU ni i∑=-=的渐进分布为正态分布)1,0(N ,则⎭⎬⎫⎩⎨⎧>-=⎭⎬⎫⎩⎨⎧-<-∑∑==n i i n i i u n X P u n X P 101000λλλλ 对一切实数u 都渐近地成立(这是因为正态分布具有对称性).因此,2121,,,c c b b 由下式确定:02020101)(!)()(!!)(202210011100λλλλλλλλαn c n c j j n c n c j j e n c b e j n e n c b e j n --∞+=---=+=+=∑∑ 3关于Poisson 分布检验的三个案例及实际研究3.1 案例分析3.1.1 论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的关注.调查显示最近几年科级腐败正在加剧,小官受贿成隐患.据悉,某检察院工作人员对某经济较落后省的320个底层官员在一年时间内的受贿金额调查纪录如下表所示.根据这些数据(金额0表示未受贿,金额1表示受贿金额大于0小于等于1,其余类同)检验受贿金额是否服从泊送分布.表 2 1年内320个官员受贿金额(万元)统计表来源于参考文献[6]用折线图像模拟数据如下:图2从图形走势看,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布.在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设0H :一年的时间内受贿官员的受贿金额服从泊送分布; 1H : 一年的时间内受贿官员的受贿金额不服从泊送分布; 我们知道泊送分布的概率密度函数为 !)(x e x X f x λλ-∙==,式中:λ是未知参数.如果假设为真时,可以根据本数据估计λ.由上表的数据可以的到在320个底层官员中,平均每一官员受贿的金额(万元),即0.33201019471150ˆ=⨯+⨯++⨯+⨯= λ因此,可以用λˆ作为λ的估计值,即得到为真时的概率密度函数 !3)(3x e x X f x -∙==根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得.例如,在一年内受贿金额为0万元的官员人数的概率是498.0)0(==X f ,受贿金额为1万元的概率是1494.0)1(==X f 等.然后用查出的概率分别乘以样本容量)320(=n n ,就可以得到各类别期望的频数.例如,在320个官员中受贿金额为0万元的期望频数是936.153200498.0=⨯.下表列出了2χ统计量的计算过程.表 3 2χ统计量的计算过程我们注意到表中,受贿金额为8,9和10万元次及以上金额的期望频数都小于5,所以将这三类归于受贿金额为7万元的合并为一类,所以合并之后的类别数8=k .这时2χ统计量为0068.5)(8122=-=∑=i ii i e e n χ需要注意的是:根据Pearson 定理,上式的2χ统计量服从自由度为1--r k 的2χ分布,其中k 时类别的个数,r 是估计的总体参数的个数.在这里1,8==r k (只估计了一个参数λ),所以自由度为61181=--=--r k .于是,当05.0=α时,查表可得592.12)6(205.0=χ.对于样本的2χ值,因为)6(205.02χχ<落在接受域中.所以接受0H ,拒绝1H ,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.大家熟知当n 很大,p 很小时的二项分布趋于泊松分布.按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布.通过上面检验和大量案例表明,腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式.因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理.其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。

卫生统计学Poisson分布及其应用

卫生统计学Poisson分布及其应用

卫生统计学Poisson分布及其应用在卫生统计学中,Poisson 分布是一种重要的概率分布,它在许多领域都有着广泛的应用。

Poisson 分布主要用于描述在一定时间、空间或其他单位内,随机事件发生的次数。

Poisson 分布的定义和特点Poisson 分布是以法国数学家 Siméon Denis Poisson 命名的。

它的概率质量函数为:P(X = k) =(e^(λ) λ^k) / k! (其中 k 表示事件发生的次数,λ 是单位时间或空间内事件发生的平均次数,e 是自然常数)Poisson 分布具有以下几个重要特点:1、独立性:每个事件的发生是相互独立的,不受之前事件发生情况的影响。

2、稀有性:事件发生的概率通常较小。

3、平稳性:在一定的时间或空间范围内,事件发生的平均速率是恒定的。

Poisson 分布的应用场景Poisson 分布在卫生领域的应用非常广泛。

疾病发生的频率例如,在一定地区、一定时间内某种罕见疾病的发病例数就可以用Poisson 分布来描述。

假设某地区在一年内某种罕见病的平均发病数为5 例,那么可以用Poisson 分布来计算发病0 例、1 例、2 例等的概率,从而帮助卫生部门了解疾病的流行情况,制定相应的防控措施。

医疗服务需求在医院管理中,Poisson 分布可以用于预测一段时间内医院急诊室的就诊人数、手术室的使用次数等。

这有助于医院合理安排医疗资源,提高服务效率。

环境污染监测对于空气中污染物颗粒的计数、水中细菌的数量等,也可以假设其服从 Poisson 分布。

通过对样本的检测和分析,结合 Poisson 分布的特点,可以评估环境污染的程度和变化趋势。

职业暴露与健康风险评估在某些职业环境中,工人接触有害物质的次数或剂量也可能符合Poisson 分布。

这有助于评估职业暴露对健康的潜在风险,为制定职业防护标准提供依据。

Poisson 分布与其他分布的关系Poisson 分布与二项分布有着密切的联系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录承诺保证书 (I)1 引言 (1)1.1 研究背景 (1)1.2 研究方法及目的 (1)2 Poisson分布检验的步骤和基本理论 (2)2.1 检验步骤 (2)2.2 检验的基本原理 (3)3 关于Poisson分布检验的三个案例及实际研究 (7)3.1 案例分析 (7)3.2 对单位时间到来顾客数的实际研究 (13)参考文献 (18)英文摘要 (19)关于Poisson分布的检验肖秋光摘要:Poisson分布是概率论中的一种重要离散分布,在许多实际问题中都有着广泛应用.本文概括了检验样本数据是否服从泊松分布的一般方法,主要是对随机数据进行图像模拟估计和利用假设检验原理对给定的临界值进行估计.其中2χ检验是众所周知的拟合优度检验,它能适用于任意的备择假设.另外,通过三个例子进行说明,最后用该方法对实测数据进行了分析和检验,并得出了结论.χ统计量关键词:Poisson分布假设检验独立变量21 引言1.1 研究背景改革开放三十年来随着社会的发展、经济的增长,科学技术日新月异、人民拥有的物质日益丰富、感受到的文化也更加多元、社会的各种法规制度日臻成熟,无论是住房、保险、交通、旅游、高质量产品还是教育、饮食等.其结果是构成了大量的随机数据,而这些数据有没有什么规律可循呢?就需要我们对它进行研究.在现实生活中的许多数据经过人们大量的研究是服从泊松分布的.若通过观察记录得到了一组数据,它是否服从泊松分布,则需要我们对其进行检验.泊松分布是1837年由法国数学家泊松(Poisson S.D.1781--1840)首次提出的.它是概率论中的一种重要的离散型随机变量的概率分布,在理论上和实践中都有广泛的应用.如110报警台24小时接到的报警次数、一定时间内发生的意外事件次数或灾害次数、布匹上的疵点数目、放射性物质放射出的粒子数目等.1.2 研究方法及目的由于向110报警台的报警是一次次到来的;自然灾害是一次次发生的;放射性粒子是一个个射出的;进入商场的人是一个个到来的……它们都可以看成是一种于随机时刻到来的“质点流”.要对其进行研究,首先,必须收集到有效的数据.其次,由于得到的样本数据通常是实验或统计而来,因此它不能完全的反映事物的本质.我们主要对部分数据进行抽取分析,根据部分数据对全体数据做出推断及判断.因此,研究单位时间内产生的诸多随机变量有助于当事者们对各种新措施、新技术作出更为科学合理的决策.例如,商场每个时段到达的人数不一,通过调查可以确定哪个时段是人流的高峰期,可以在这个时段做一些宣传或促销产生的效益就会比其他时段高,并有效控制成本,使其用最小的投入换来最大的收益.2 Poisson 分布检验的步骤及基本理论 2.1 检验步骤 2.1.1 数据整理进行Poisson 分布的检验时,首先要对收集到的数据进行整理.假设收集到单位时间的量为n x x x x 321,,,然后把这些量按从小到大顺序排列起来,并查出其频数稍加整理制成表格如下: 表 1其中满足:i i n p x p p x x x ⨯++⨯+⨯=+++ 102110 2.1.2 用图像对样本数据进行模拟由于图形比较直观,而且样本数据在一定程度上能有效反映总体的分布规律,故可以用样本数据的图像模拟通过对比,对该分布进行初步判断.泊松分布的图形一般为左偏,但随λ数值的增大,图形趋于对称.图12.1.3 检验得出结论2.2检验的基本理论2.2.1 假设检验假设检验是对总体的分布函数形式或分布的某些参数作出某些可能的假设,然后根据所得的样本数据,对假设的正确性作出判断.假设检验的步骤:①根据问题建立原假设和备择假设原假设是设总体参数等于某一数值,而备则假设是根据研究的目的来确定:可采用双侧检验,也可采用单侧检验.确定单、双侧检验的同时,也就确定了接受域和拒绝域的位置.H为真时的抽样分布②选择适当的样本统计量,并确定以这一步是假设检验的关键,需要根据已知条件找到一个包含待检验总体参数和样本数据的已知分布,并计算出统计量的数值.③选定显著性水平α,确定临界值α应在抽样之前就确定下来,根据单、双侧检验的情况,将α放置一侧或双侧.然后根据第二步骤中所选择统计量服从的分布,查相应分布表,确定临界值.④进行判别,得出结论将第二步计算的数值与第三步得到的临界值进行比较,根据判别原则,作出结论.2.2.2最大似然估计及拟合优度2χ检验最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立2.2.3 P 值检验所谓P 值,是指在一个假设检验问题中,利用观测值能够做出拒绝原假设选择的最小显著性水平,如果p 值小于显著性水平α,则相应的检验统计量的值落入拒绝域中.其检验规则为:若p ≥α值,则拒绝原假设0H ;若p <α值,则接受原假设0H . 2.2.4 Poisson 分布检验设总体X 服从具有参数为0>λ的泊松分布,n X X X X ,,,,321 为其样本.考虑检验问题:0H λ:010:;λλλ≠=H ,现有∏∑∏∏∏==-=--==⎭⎬⎫⎩⎨⎧=∑===ni in i i n ni ix n ni i x n i i x x ex eex x p ni ii11111)!(1ln )(ex p )!(1!);(1λλλλλλλ其中()λλln )(,,,,121==∑=b x x x x T ni i nλλn ni in e c x x x x h -===∏)(,)!(1),,,(121因此⎪⎩⎪⎨⎧<<==><=212121,02,1,,&,1),,,(cT c j c T b c c T x x x j i n ϕ则[]⎪⎩⎪⎨⎧==⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡∑∑==),,,(),(),,,(21001211000n ni i n n i i x x x E M x x x x E X E ϕλαϕαλλλ 当0H 为真时,统计量∑==ni i X T 1服从参数为0λn 的泊松分布,0)(λn T E =,则02010201)(!)(!!)(!)(02201110100λλλλλλλλαn c n c n c j j n c j j e n c b e n c b e j n e j n ---∞+=--=+++=∑∑02010201)(!)(!!)(!)(02220111101000λλλλλλλλαλn c n c n c j j n c j j e n c cb e nc c b e j n j e j n j n ---∞+=--=+++=∑∑在一般情况下上述方程不易求解,但当0λ不接近于零而n 又不很小时,统计量1λλn n XU ni i∑=-=的渐进分布为正态分布)1,0(N ,则⎭⎬⎫⎩⎨⎧>-=⎭⎬⎫⎩⎨⎧-<-∑∑==n i i n i i u n X P u n X P 101000λλλλ 对一切实数u 都渐近地成立(这是因为正态分布具有对称性).因此,2121,,,c c b b 由下式确定:02020101)(!)()(!!)(202210011100λλλλλλλλαn c n c j j n c n c j j e n c b e j n e n c b e j n --∞+=---=+=+=∑∑ 3关于Poisson 分布检验的三个案例及实际研究3.1 案例分析3.1.1 论反腐败与泊松分布腐败现象作为当今社会的一种非常态,它的发生、出现引起了广大群众的关注.调查显示最近几年科级腐败正在加剧,小官受贿成隐患.据悉,某检察院工作人员对某经济较落后省的320个底层官员在一年时间内的受贿金额调查纪录如下表所示.根据这些数据(金额0表示未受贿,金额1表示受贿金额大于0小于等于1,其余类同)检验受贿金额是否服从泊送分布.表 2 1年内320个官员受贿金额(万元)统计表来源于参考文献[6]用折线图像模拟数据如下:图2从图形走势看,为左偏凸值分布,与泊松分布较为相似,可初步判定为泊松分布.在理论上,这里我们需要检验的是在一年的时间段内受贿官员的受贿金额是否服从泊送分布,所以可以假设0H :一年的时间内受贿官员的受贿金额服从泊送分布; 1H : 一年的时间内受贿官员的受贿金额不服从泊送分布; 我们知道泊送分布的概率密度函数为 !)(x e x X f x λλ-•==,式中:λ是未知参数.如果假设为真时,可以根据本数据估计λ.由上表的数据可以的到在320个底层官员中,平均每一官员受贿的金额(万元),即0.33201019471150ˆ=⨯+⨯++⨯+⨯= λ因此,可以用λˆ作为λ的估计值,即得到为真时的概率密度函数 !3)(3x e x X f x -•==根据该密度函数,就可以计算出在每一个官员的受贿金额为各个类别出现的概率,这些概率值可通过泊送分布表查得.例如,在一年内受贿金额为0万元的官员人数的概率是498.0)0(==X f ,受贿金额为1万元的概率是1494.0)1(==X f 等.然后用查出的概率分别乘以样本容量)320(=n n ,就可以得到各类别期望的频数.例如,在320个官员中受贿金额为0万元的期望频数是936.153200498.0=⨯.下表列出了2χ统计量的计算过程.表 3 2χ统计量的计算过程我们注意到表中,受贿金额为8,9和10万元次及以上金额的期望频数都小于5,所以将这三类归于受贿金额为7万元的合并为一类,所以合并之后的类别数8=k .这时2χ统计量为0068.5)(8122=-=∑=i ii i e e n χ需要注意的是:根据Pearson 定理,上式的2χ统计量服从自由度为1--r k 的2χ分布,其中k 时类别的个数,r 是估计的总体参数的个数.在这里1,8==r k (只估计了一个参数λ),所以自由度为61181=--=--r k .于是,当05.0=α时,查表可得592.12)6(205.0=χ.对于样本的2χ值,因为)6(205.02χχ<落在接受域中.所以接受0H ,拒绝1H ,即在一年的时间中该地区官员的受贿金额是服从泊松分布的.大家熟知当n 很大,p 很小时的二项分布趋于泊松分布.按照泊松分布的规律,一项非正常态现象的出现除了在总体中的概率很小外,其最明显的特征则是常常集中分布.通过上面检验和大量案例表明,腐败现象作为社会现象中的一种非正常态,其发生和发展呈泊松分布规律,特点是总体上的稀有性和局部的密集性加偶然性,具体表现有“前腐后继案”、“串案”、“窝案”等形式.因此治理腐败:一是要尽早发现,尽快惩前毖后;二是不能搞扩大化;三是要综合治理.其次表明,泊松分布密集出现的概率跟社会体制有关,尤其是在经济转型、社会发生变革的时期容易出现。

相关文档
最新文档