抽样调查概述

第一章抽样调查概述

第一节抽样调查的意义和特点

抽样调查是现代统计调查中最常用的基本方法之一。

一、抽样调查的概念

关于抽样调查的定义大体上可以区分成广义和狭义两种，广义的抽样调查包括非概率抽样与概率抽样，狭义概念仅指概率抽样。

狭义的抽样调查是按照一定的程序和方法，从所要研究现象的总体中根据随机原则抽取一部分单位组成样本，通过对样本的调查，获得样本资料，计算出有关的样本指标（统计量），依一整套专门的方法据以对相应的总体指标（参数）作出估计和推算，并有效控制抽样误差的一种统计方法。

随机原则。①随机并非“随意”；②随机原则不等于等概率原则；③随机原则一般要求总体中每个单元均有一个非零的概率被抽中；④ 抽样概率对总体参数的估计有影响。

随机原则是抽样调查所必须遵循的基本原则。按随机原则抽样可以保证被抽中的单元在总体中均匀分布，不致出现系统性、倾向性偏差；在随机原则下，当抽样数目达到足够多时，样本就会遵从大数定律而呈正态分布，样本单位的标志值才具有代表性，其平均值才会接近总体平均值；按随机原则抽样，才可能实现计算和控制抽样误差的目的。

二、抽样调查的阶段划分与职业规范

由上述抽样调查的概念出发，我们可以将抽样调查工作的全过程

划分成三个不同的阶段

第一阶段为抽样设计阶段。

第二阶段为调查阶段。

第三阶段为数据处理和估计推断阶段。

在抽样调查中，首先，要注意尊重并保护被调查者的隐私权，调查结果只能用于综合分析，而不应给被调查者造成不必要的麻烦和伤害。其次，要诚实地分析调查资料，不能为得出某个事先期望的结论而随意地改动资料。第三，要做一个具有职业水平的工作者，做出来的东西既要有能让普通人看懂的主要信息，也要有能让专家看出其内涵的内容。第四，当从有些调查结果得不出好的结论时，应诚实地加以说明，而不应含糊其词。最后，抽样调查必须在国家法律法规所允许的范围内进行，不做违反社会公众利益的调查。

三、抽样调查的特点

首先，按随机原则抽选调查单位是抽样调查的一大特色。

其次，可以用样本资料推断总体资料是抽样调查的又一基本特征。

其三，抽样调查的速度快、周期短、精度高。

其四，在抽样推断之前可以计算和控制抽样误差。

其五，抽样技术灵活多样。

其六，抽样调查的应用十分广泛。

最后，同其他调查方式相比，抽样调查的技术性更强。

四、抽样调查的作用

抽样调查所依据的概率原理属于数理统计学的一个重要分支，也是现代统计学的基础。抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响，而且还构成了其他应用性学科如计量经济学、

管理会计学等的方法论基础。

其一，抽样调查能够解决全面调查所无法解决的现象的调查问题。(1) 产品质量的破坏性检验。(2) 无限总体的调查。(3) 包括未来时序的总体。

其二，抽样调查适用于对理论上可以作全面调查，而实际上又难以组织全面调查的现象进行调查。

其三，抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。

其四，抽样调查的结果可被用来检验和修正全面调查结果。

其五，抽样调查可对工业生产过程的稳定性进行监测，从而实现质量控制。

其六，利用抽样调查方法还可以对总体的某些假设进行检验，以判断这些假设的真伪，为管理决策提供依据。

第二节抽样调查的历史发展及应用

一、抽样调查的历史发展关于抽样调查的历史发展，可分三个不同的时

间段进行考察。

1、1895年以前。抽样调查处在实践探索过程和萌芽阶段。原始的抽样法，在人类活动中早就使用过，如古代中国人、古希腊人就知道从整体中

取出一小部分予以审味和检验，以确定物体的性

质。

其后，政治算术学派的学者们在研究中广泛采用样本资料进行总体推算。格朗特(John Graunt) 以伦敦市的人口为基础，研究人口现象运动的

规律。

法国经济学家麦桑斯、摩休，英国经济学家伊顿，法国的数学家、统计学家拉普拉斯(丹麦统计学家韦斯特加德( H.L.Westergaard ) 认为：“现代代表统计学就是以选择出的部分资料(样本)为基础，而推导出全部资料的计算结果(抽样法) ，实际上是以拉普拉斯为嚆失的。”)

著名统计学家、比利时的凯特勒研究了写作与年龄的关系，所使用的研究方法实际上就是抽样方法。

俄国数学家奥斯特罗格拉茨基院士主张在产品质量检验中用抽样法。

英国农场主莱威斯(John Lawes) 与青年农业技师吉尔贝特(Heny Gilbert) ，俄国的拉扎列夫斯基。

在抽样调查的实践方面，美国的赖特(Ccrrdl Davidson Wright) 的贡献是值得一提的。

在抽样调查发展史上，挪威的凯尔(Anders Niscolai Kiaer) 是一个划时代的人物。他对抽样调查的贡献，无论是在实践还是在理论方面，就当时的条件而言，都是十分卓越的。因此，马来西亚统计学家尤葆生(You Poh Seng)在《抽样理论与实践发展的历史的考察》一文中评价到：“凯尔的工作，可以视为统计学史上的一个转折点。他

是离开人口普查而用抽样方法搜集社会资料的第一人，并为抽样理论奠定了基础。”

大量事实表明，在1895 年以前，抽样调查的实践应用已经在许多领域展开，这些都为抽样调查的进一步发展创造了条件，积累了宝贵经验。但这时的抽样调查仍处于探索过程之中，没有形成系统的理论，也没有得到普

遍的认可。

2、1895?1925年。抽样调查逐步得以确认的过程。

凯尔在坚持抽样调查实践的同时，还十分注意对抽样调查的方法和理论进行研究。总结实践经验，他认为，一次成功的抽样调查应具备两个条件，即正确的代表性和单位的合理选择。因为“调查结果的准确性，不取决于观察数量的多寡，而取决于取得正确代表性的方法。”

1895 年，国际统计学会（ISI ）在瑞士首都伯尔尼召开第五次大会。会上，凯尔提出关于代表性调查的报告——《对代表性调查的研究和经验》，

1897年，在俄国圣?彼得堡召开的第六届国际统计学会大会上，凯尔又作了长篇发言，全面阐述了代表性调查的思想，为代表性调查进行辩解。国际统计学会仍未能采纳凯尔的主张。但同意组成一个小组委员会专门讨论这一问题。

在1899年的国际统计学大会上，凯尔发表了《论代表性和类型方法》的报告，同时又在《统计文汇》发表《论代表性调查》的论文，并重申了他在国际统计学会的主张。

1901 年，国际统计学会第八届大会在匈牙利布达佩斯召开，在会上凯尔发表《再论代表性和类型方法》的论文，继续宣讲代表性调查的意义。同时，由于德国的博尔基威茨“论检查的方法”的发表，指出对代表性可以进行检验，从而为抽样误差的计算奠定了基础，也为凯尔的论据增加了说服力。

1903 年，在柏林召开的第九届国际统计学会上，凯尔的愿望终于实现

了。研究代表性方法的小组委员会“建议采用代表性方法。

1910 年，英国的鲍利在其所著《统计学基础教程》一书中，首次增加“抽样法”一章，介绍了抽样方法在商业、矿业和工业中的应用。

1923年，英国的R- A ?费暄首次提出“方差分析”，并认为用这种方法可以估计抽样误差。为保证误差估计值的有效性，还引入了“随机化”原则。从此，使抽样调查理论向前跨进了重要的一步。

1924 年，国际统计学会常设理事会指定由英国的鲍利等六人组成研究委员会，进一步研究代表性方法在统计中的应用问题。1925 年在罗马的第十六届大会上，该委员会提出报告，肯定了随机抽样的科学性，同时还发表了两篇研究论文：詹森的《代表性方法的实践》；鲍利的《抽样精确度的测定》，阐述了抽样法的原理。

从1895年到1925年，经过30年的反复讨论，代表性方法，即抽样方法，才得到人们的最终承认。在这一过程中，凯尔以其坚持不懈的努力，被称为抽样调查的先驱者是当之无愧的。而鲍利则从抽样理论上有力地支持

了代表性调查的主张，从而对抽样调查的初步发展

作出了贡献。

在抽样调查的理论得以逐步公认的同时，抽样的实践活动继续得以深入发展。

3、1925年以后。抽样调查进入全面发展阶段、逐步走向成熟。在实践方面继续大量采用抽样调查的同时，在理论方面，1925 年费暄发表《研究人员用统计方法》，标志着由戈塞特开始的“小样本理论”(又叫“学生分布” )最后得以完成。从而使统计学由“描述” 向“推断”发展。小样本的

思想是：应该从小处着手，只要精心设计小样本，用实验与推断的方法便可得到精确的结论。同时，由于费暄的努力，使1900 年英国的皮尔逊提出的“卡方检验法”也能适用于小样本。1938 年，费暄又同耶茨( F.Yates )合编“ F 分布显著性水平表”，为t 分布和F 分布的研究和应用提供了便利。

1927 年，蒂皮特按费暄的随机化原则制作发表了《随机数字表》，使随机抽样便于进行。

1927?1929年英国生物统计学家克拉汉与威沙特发表《利用抽样方法估计各类产量》和《抽样技术的研究》等论文，运用方差分析方法计算各种类型的抽样单位所具有的抽样误差。

接着，卡弗(Carver) 于1930 年把组合分析理论应用到抽样误差的估计上来，促进了抽样理论的发展。他认为，借助于这一新理论可将任何抽样方式或设计的误差估计值计算出来。

1934 年，内曼发表“论代表性方法的两个不同方面”的论文，从理论上分析批判了目的抽样法，并为分层抽样和整群抽样奠定了基

1935 年，费暄的《实验设计》一书出版，提出了著名的实验设计原理，以及他的方差分析技术与卡弗提出的组合分析技术的结合，使抽样理论的总的轮廓基本确定。

1940?1950年间，内曼又提出“区间估计理论”亦称“置信区间估计理论”，为抽样推断的发展做出了重要贡献。

在抽样调查的实践和理论两方面都有建树的人物之中，印度统计学家马哈拉诺比斯的贡献是值得重视的。他认识到：在统计调查中同时考虑到

抽样误差和非抽样误差是必要的；应用了许多现在已普遍使用的方法，如单纯随机抽样、系统抽样、分层抽样、集体抽样、两阶抽样、多阶抽样等；提出了关于区域或网格抽样方法的理论，并进一步介绍“费用函数”、“方差函数”的概念，用以根据不同情况进行抽样观察时作最合理、最经济的设计；还提出探测式的抽样方法；用“交叉子样本的抽样方法”计算抽样方差。

联合国统计局在设计抽样方法和推广抽样调查方面作出了巨大的努力和贡献。1947 年，联合国专门设立“统计委员会统计抽样分会”，由马哈拉诺比斯任主席，推动各国开展抽样调查。1960年出版《统计抽样方法简要手册》第一卷《抽样调查理论基础》，向世界各国政府推荐了行之有效的22种社会经济的抽样方法。1972年，在总结各国经验的基础上，修订了《抽样调查理论基础》一书，推荐的抽样方法由22种增加到32 种，并出版《统计抽样方法简要手册》第二卷《抽样设计的计算机程序》。进入20 世纪80 年代，联合国统计局又开始在世界各地成立统计研修所，培养大批统计人才，促进联合国抽样方法的实施，协助发展中国家采用多主题抽样方法等，都取得了显著的成就。

从历史发展过程看，抽样调查在国外被广泛应用于社会问题、经济问题、民意测验以及自然科学等各种领域，已成为搜集统计资料的最主要的方法之一。

二、我国的抽样调查史

1949 年以前，抽样调查在我国的应用次数很少，有关抽样理论与方法的研究也不多见，介绍抽样知识的著作则更少。

抗战期间，清华大学陈达教授主持的国情普查研究所曾在云南环湖户籍示范区进行人口普查，具体工作由戴世光负责，普查后又用抽样方法抽查部分人口以核对其准确性，这是中国首次在自己的学者主持下按现代抽样方式进行的调查，是一次有益的尝试。

（一）思想认识方面。

1960 年前后，许宝騄在北京大学主持了一个有关抽样调查的研讨班。根据其讲义整理出版的《抽样论》至今仍在我国统计界有很大影响。

后来，抽样调查因被视为“以偏概全”而一度遭否定，受到批判，直到“文革”结束。

1994年2月，全国统计工作会议决定：“从今年开始，政府统计系统将改变过去的全面调查为主的方法，而采用抽样调查和全面调查相结合的方法”。随后，又经国务院批准，确定了我国统计调查方法体系改革的目标模式，即：建立以必要的周期性普查为基础，以经常性的抽样调查为主体，同时辅之以重点调查、科学推算等多种方法综合运用的统计调查方法体系。

1996年5月15日公布的修订后的《中华人民共和国统计法》中又以法律的形式对此作了规定。至此，抽样调查在我国的应用才得以最终确立。

（二）实践运用方面。

1956年1月，国家统计局颁发了“全国职工家计调查方案” ，开始建立了全国统一的、经常性的职工家计调查工作。

1955年1月，国家统计局颁发了1954年农民家计调查方案和进行农民家计调查工作的决定，要求各地进行一次性的1954 年度农民家计调查工作。

按照周恩来总理“农产量调查也要搞抽查”的指示，1962 年末到1963 年初，全国农产量调查总队和各省、区分队纷纷成立，并于1963 年开

展了农作物产量抽样调查试点工作。

“文革”期间，抽样调查被否定，抽样调查工作被迫中断，直到1979年以后才得到恢复，抽样调查开始了新的发展时期。

1979 年，国家统计局制定并颁发试行了农村经济调查方案。

1980 年4 月，经国务院批准恢复职工家庭生活抽样调查。1985 年起进一步扩大为城市住户调查。

1981年9 月，经国务院批准组建了农村抽样调查队和城市抽样调查

队

1982年4 月起建立了城市物价抽样调查，用直接抽样调查的资料来编制物价指数。

1982年5月，经国务院批准，恢复农产量抽样调查。

1983年起，形成了每年一次的全国人口变动抽样调查制度。1987 年以后又进一步过渡为每年一次的全国1％人口抽样调查。

1994 年，经国务院批准又组建了企业调查队，对全国二、三次产业中各种经济类型、各种经济规模的企业进行抽样调查。

总体来看，目前抽样调查在我国的应用仍呈“四多四少” ，即：宏观领域多，微观领域少；政府统计中多，企业统计中少；经济现象研究中多，社会现象研究中少；管理过程中多，科研过程中少等等。因此，抽样调查在我国的普及应用还有大量工作要做。

第三节抽样调查的分类与设计

一、抽样调查的分类

抽样调查可以按不同的标准进行分类。按抽选样本的具体原则不同，可以分为概率抽样和非概率抽样。在概率抽样中，如果总体中每个单元被抽中的概率都相等，则为等概率抽样；如果每个单元被抽中的概率不完全相等，则为不等概率抽样。

概率抽样按其组织方式不同，可分成：简单随机抽样；分层抽样；整群抽样；等距抽样；多阶抽样；二重抽样等不同类型。

简单随机抽样

O O O

O O

O O O

O O

:O O

O O

系统抽样

O O O O O

O O O O O O

O O

O O O

O O

有时，概率抽样在实际中难以实现，如从海水中抽样，通常只限于一部分；从运煤货车中抽样，一般是从顶部进行等。此时，只能采用非概率抽样。非概率抽样也就是非随机抽样，在抽样过程中不完全按随机原则进行，带有一定的主观随意性，所以无法估计抽样误差，也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。

非概率抽样主要包括：①随意抽样：按抽样者的方便，随意地抽取样本。②定额抽样：依一定的标志将总体分成若干层，并按各层在总体中所占的比例分配样本总量在各层的数额，以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H.Gallup) 创立的，它是非概率抽样中比较科学的一种抽样方式。③判断抽样：抽样者依照自己的经验抽取具有平均水平的典型单位作为样本，因此也叫做典型抽样。④滚雪球抽样：先从总体中找出少数个体，通过这些个体了解其它个体，再由已了解到的个体去发现更多的个体，以此类推，了解到的个体越来越多，最后接近于总体。

二、抽样调查方案的设计抽样调查方案的设计就是在实际进行抽样调查之前，对整个抽样调查工作过程所作出的通盘考虑和合理安排。一般应遵循以下两条基本原则：

其一，保证抽样的随机性原则。首先，要排除人为的主观因素的干扰，使得总体中的每个单元都有一定的入选机会。其次，要确定合适的抽样框。最后，要选择合适的抽样实施方法及抽样的组织形式，并为其执行提供一切必要的条件。

其二，保证实现最大的抽样效果原则。即在一定的调查费用条件下使抽样误差最小（等价于使估计精度最高），或在给定的精度要求下使调查费

用最省。

此外，一个好的抽样调查方案还必须服从目的性和实践性的要

求。

抽样调查方案所应包括以下几个部分：

第一，有关抽样调查要求方面的内容设计。一是要明确调查目的；二是要明确调查对象和调查单位；三是要明确精度要求或者误差控制要求。

第二，有关抽样推断工作方面的内容设计。①确定抽样框。②确定抽样的组织方式及方法。③确定样本容量的大小。④确定数据处理方式。⑤确定推断方式。

第三，有关调查内容方面的设计。调查内容就是所要调查的项目或问题，它是抽样调查方案的核心所在。

第四，有关组织工作方面的内容设计。①调查人员、组织领导机构的确定以及调查费用的筹措等。②调查人员的培训。③确定搜集资料的具体方法和调查问卷的回收方法等。④制定控制回答质量，减少回答误差的方案。

三、抽样调查方案的检查

设计好的方案在正式实施之前都必须进行检查，用试点的调查数据对方案进行验证，然后才能正式实施调查。抽样调查方案的检查主要包括两个

方面：

是准确性检查。即以方案所要求的允许误差范围为标准，用已

掌握的资料(试点资料)来检查其在一定概率保证下，实际的极限误差是否超过方案所允许的误差范围。

二是代表性检查。即以方案中的样本指标与过去已掌握的总体同一指标进行对比，视其比率是否超过规定的要求来判断方案是否满足代表性要求。

四、抽样调查的基本步骤

抽样调查一般可概括为以下八个基本步骤：(1) 明确调查目的要求；

(2) 编制抽样框；(3) 设计调查问卷；(4) 设计抽样方案，随机抽取样本；(5) 培训调查员，组织开展调查；(6) 检查调查结果，进行数据处理；(7)分析调查结果，撰写调查报告；(8) 积累调查信息，总结调查经验，研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。

第四节抽样调查的基础理论

一、大数定律

大数定律又称平均数定律或大数法则，它所描述的是当样本充分大时，样本统计量的极限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这一可能性的概率可以尽量接近于1，即接近完全的精确性。

大数定律的具体表现：

(1)只有掌握足够多的单位数目或足够多的情况时，大量现象的规律性及大量过程的倾向性才能很好地显示出来。也就是说，只有在

掌握足够多单位数目或足够多的情况时，对这些大量现象和过程，才

能很好地进行研究。

(2)只有在平均数形式上，这些规律性与倾向性才能被表现出来。正因为如此，大数定律又称为平均数定律。

(3)研究大量现象和过程时，如果抽取更多的单位，那么从这些单位的标志值所计算出来的平均数越能够正确地表现出这种现象或过程的规律性。

(4)如果我们研究足够多的单位数目或足够多的情况，以平均数为中心，各个单位或情况向正反两方向的离差往往互相均衡化起来，

或者互相抵消。对大量现象或过程来说，这些离差当然不是由于本质的差异所引起，而是由于偶然的状态所发生的。

二、中心极限定理

中心极限定理的基本内涵是：一组独立同分布的变量的和或平均值当n充分大时近似地具有正态分布。

通过这个定理，可以知道不论总体服从什么分布，当n很大时，样本的平均数Y近似于具有参数□和匚的正态分布(即极限正态分布)。这个定理是大样本统计推断的理论基础。中心极限定理，并非证明正态分布的存在，而是用来说明近似地遵从正态分布的概率变量的现象，说明样本平均值的分布接近于正态分布。中心极限定理表明：样本平均值分布的平均值等于总体平均值，即E(Y)=卩；样本分布的

标准差为%n。

三、误差分布理论

在一个既定的总体中，抽选一定含量的样本，可能抽选到的样本有多个，因此可以取得多个可能的样本指标（主要指平均数和成数）。如果将所有可能的样本指标组成频率分布，可发现样本指标y愈接近总体指标Y的可能样本数愈多，即频率愈大；偏离Y愈远的可能样本个数愈少，即频率

愈小，形成两端小中间大的y可能值的分布，同时也就是抽样误差的分布。

按正态分布的基本条件，可能样本指标的分布从理论上说是遵循正态分布的。样本指标的分布，通常又叫抽样分布，数理统计已证明，可能样本指标是否严格遵循正态分布，由两个主要条件所决定；一是抽样总体的分布形态，二是抽样数目的大小。如果样本是抽自正态总体，无论抽样数目是大是小，可能样本指标都是遵循正态分布的；如果样本抽自非正态总体，只要抽样数目较大，可能样本指标也是接近或遵循正态分布的。

四、概率理论的广泛应用

概率也称或然率，就是指某一事件可能发生的机会，也就是某个事件可能发生的次数与所有可能发生事件总次数之比。等概率就是机

会均等，不等概率就是机会不均等。概率通常有古典的和统计的两个意义：古典意义：就是事物有有限个均等的可能结果。如掷一粒骰子，有六个有限的均等可能的结果，如预定可能结果为任意一个点数，则实现任一点数的机会均为1/6。古典概率由于受“结果有限”和“均等可能”的限制，在实践中有很大的局限性。

统计意义：就是用统计的频率作概率的近似度量，如在某产品总体中，合格品m占被抽检品n的频率为m/n,于是就可用频率m/n作为任意抽检一件产品结果为合格品的概率的近似值，是为统计意义的概率。

由此可见：数学主要从纯理论的观点进行研究, 统计学是从应用的观点进行研究, 概率论作为数学的一个分支而引进统计学中, 是统计学发展史上的重要事件。