应用统计学笔记

应用统计学

第一章统计方法

一、统计依其功能分成?理论统计学?（pure statistics）和?应用统计学?（applied statistics）：

（一）理论统计学：指的是创造出一个可以用于统计的定理或公式、或对于现有统计的定理或公式作更合理的解释。是偏向理论的推论过程和结果。

（二）应用统计学：指的是如何正确使用理论统计学者所创造出来的统计定理或公式，达到评估某一事件的目的，我们只要了解在何种状况下该用那一个数学方程式或定理，以及该如何解出所需要的数学方程式就可以了。是偏向解决实际问题的推论过程和结果，协助各行各业判断或预测某一特定事件、在未来产生某种结果的机会有多大，是预测未来的有效工具。

二、统计方法的应用是为了发现或解决某一特定群体的问题，这一产生或需要解决问题的特定群体称为母体（population）、群体或母群体。母体所包含个体数量通常都很庞大、或数量具有不确定性，在正常的状况下，是不可能让母体内的每一个个体在统计过程中适时出现，因此只能选择某些个体当作评估或研究的对象，选择个体的过程称为抽样（sampling），所抽到的个体称为样本（sample）或样品。

三、搜集资料的方法有很多种，视情况而定，大致上可分为三类：

（一）直接从样本而又不干扰或影响样本的情况下得到数据的方法，称为调查法（survey）。

（二）直接从样本而且必须加入干扰或影响样本因素的情况下得到数据的方法，称为实验法（experiment）。

（三）间接得到所要评估或研究的群体或特性数据的方法，称为文件（docments）应用法。

四、用简短的文字、统计表、统计图或方程式等方式，只能显示样本数据整体分布的特性，但还够具体。所以最好能用少数几个数据具体表示样本数据的特性，这些能表示样本数据特性的具体数据，就称为统计量（static）或表征数。例如搜集到的作文成绩统计出甲、乙和丙的总人数还算出百分比，或80分以上、70?79、60?69、60分以下的总人数后，还算出平均分数或高低分数之间的差距等，这样才能具体显示样本的整体作文程度。常用的统计量有百分比、平均数、中位数、众数、四分位数、全距、变异数、标准偏差和变异系数等。这样用简短的文字、统计表、统计图、方程式或统计量等来描述或分析样本数据特性的方法，称为描述统计学（descriptive statistics），也就是统计分析的主要内容。由样本得到的群体现象或特性，利用机率分布，预测或判断母体群体现象或特性的方法和过程，称为推论统计学（inferential statistics）。表示样本群体现象或特性的数值称为统计量，表示母体群体现象或特性的数值称为参数值（paramenters）或母数。

五、一般来说不同的样本，会得到不同的统计量，所以统计量数值的出现是凭运气或机会，运气或机会出现的可能性大小称为机率（probability），如果把各统计量数值出现的机率按某种规则性加以排列，排列结果称为机率分布（probability distribution）。如果知道某种统计量的机率分布情形，将一次抽样得到的统计量数值，放在机率分布的适当位置上，就能推论出母体具体的群体现象或特性，所以机率分布是样本具体的群体现象或特性、推论出母体具体的群体现象或特性的桥梁。例如，一般人常听到的常态分布是一种常见的机率分布，如果高中生的法律常识测验成绩是常态分布，则由样本得到的平均成绩在常态分布的位置，可以推论出今年高中生的法律常识是否优于往年，其结果可以作为教育改革的参考。

六、推论母数主要有二种方法：估计（estimation）和假设检定（hypothesis testing）：

（一）估计：是利用统计量，估算出母体相对应的参数值。

（二）假设检定：是先假设母体的参数值，然后用得自样本的相对应统计量来检定假设的参数值是否正确。

（三）估计和假设统计最大的不同点就是：估计是用统计量当作推论基础，而假设检定是用所假设母体的参数值当作推论基础。

（四）例如，候选人不知道得票率，民调后得到支持度35%（统计量），经推论后，得到误差是3%，预测其支持度是35% ± 3%（估计母数），这种推论方法称为估计；候选人先预测得票率是40%以上（假设母数），民调后得到支持度是42%（统计量），经推论后，判断候选人预测得票率可能是正确的，这种推论方法称为假设检定。

第二章母体与样本

一、当对某群体中的某些事件发生兴趣时，群体已大致形成，这一特定群体在统计上称为母体（population）、群体或母群体。母体可能是具有某种共同特性倾向的一群人或物，换句话说，母体是由许多个体或基本单元（elements）所组成的。母体依其个体的组成型态，可分为二种：（一）有限母体（finite population）：母体内的个体数量是固定而且容易计数的，例如村里长选举以村里内的全体合格选民当母体，选民总人数是固定的而且容易计量的。

（二）无限母体（infinite popultion）：母体内的个体数量不是固定的或数量很庞大且不容易计数的，就称为无限母体，例如某快餐连锁店的消费者可能因促销活动而增减，消费者总人数不是固定的而且不容易计数。再如总统选举以全国的全体合格选民当母体，选民总人数虽固定但是不容易计数，所以归类为无限母体。

二、对母体内的所有个体搜集数据，以显示母体特性的方法称为普查（census）。例如1995年台湾地区的工商普查、1990年台湾地区人口普查等。普查的结果将母体的特性用数量表示出来，则称为参数值（parameters）或母数，用以具体表示母体的特性。例如，每次选举可以视为一欠普查，各候选人的得票数或得票百分比是母数，用以具体表示该选区全体选民（母体）的支持倾向，或对某种政见的支持程度，作为将来施政的参考或依据。

三、统计方法的优点是使用最少的人力、财力、物力、时间和金钱，或者只对最少量的个体产生破坏性，就能预估母数。为了达到这目标，所以只能在母体内选择一些个体作为搜集数据的对象，这些被选到的个体称为样本（sample）。选择样本的过程称为抽样（sampling）。所以统计方法是利用对样本搜集数据取代普查，而又能得到相似母数的最有效方法。抽样依据样本取得的机会是否公平而有二种类型：（一）随机抽样法（random sampling）：是母体中每一个个体，在抽之前，并不知道那一个个体会被抽出，但是每一个个体每一次被抽到的机会是相等的，换句话说，个体被抽到的机会是随机的。

1.简单随机抽样法（simple random sampling）：将母体中的每一个个体按顺序编上一个识别号码后，被抽到的号码就是样本，通常是一次直接抽完所需要的样本数。如果母体内个体的数量不大，而且个体特性类似时，使用简单随机抽样法较为恰当。

2.系统抽样法（systematic sampling）：将母体中的每一个体按顺序编上一个识别号码后，优先算出抽样距离（sampling interval），再随机抽出一个号码当起点或首项，然后依照抽样距离的间隔，按照顺序，一次抽完所需要的样本数的方法，又称等距抽样法。所抽出的样本号码，是以抽样距离为公差的等差级数。抽出第一个号码时，最好使用抽样距离以下的号码，这样会比较容易处理，例如，抽样距离是24，则从1到24号中随机抽出一个号码，如果抽出的号码是17号，则第一个样本是17号，第二个样本是41号（17+24），依此类推，至所需的样本数抽完为止。如果母体内个体的数量不易确定，则编号困难，母体

内个体特性差异很大时，则容易产生抽样误差，抽样误差的大小受个体特性的分布情形及抽样距离的影响，在这种情况下，较不适合使用系统抽样法。

3.分层抽样法（stratified sampling）：如果母体中各个体很明显的分成几组不同的性特，为了样本的代表性，通常将母体中特性相同或相近的个体集中成一个小母体（subpopulation），这个过层称为分层（stratified）。在这种状况下，母体被分成二个以上的小母体，每一个小母体称为一层（strata）。层内个体的特性相同或相近，而层与层间个体的特性则明显不同。例如，将母体中的男性集中成一层，女性集中成一层，也就是将母体按性别分成二个小母体。如果母体中各个体的特性相同或相近，则不可能分层。分层后以层为单位，再利用简单随机抽样法或系统抽样法，自各层中按各层所含个体数量的比例的比例抽样法（proportional sampling），抽出各层的样本数，则必须经过加权（weighting）处理后，才能得到真正代表样本特性的数值，所以最好采用比例抽样法。

4.整体抽样法（cluster sampling）：如果母体中各个体自然或经过人为因素组成几个特性相同或类似的次级团体（sub-population），每一个次级团体称为一群（cluster）或一束。在这种情况下，母体是由为数众多的群或束所组成，群内包含许多特性不同的个体，但群与群间的组织型态则相同或类似。例如以社会为母体，则家庭可以视为母体里的群或束。分群后以群为单位编号，再利用简单随机抽样法或系统抽样法，抽出所需的群数当做样本，如果以群的整体特性为研究对象，则一群视为一个样本，否则所抽取群内个体总数目应等于或大于所需样本数。例如，研究蚂蚁的生态，则每一蚂蚁窝就是一个样本。总而言之，利用母体内部的组织型态，将母体分成许多类似的群，再抽出其中一些群当样本的方法，称为整群抽样法，又称为集束抽样法、集群抽样法、丛束抽样法、丛集抽样法或部落抽样法。特别注意的是通常不再从所抽出的群中再抽出样本。

（二）非随机抽样法（nonrandom sampling）：是母体中每一个个体，依实际状况故意或任意抽出，每一个个体被抽到的机会不一定相等，也不一定有被抽到的机会，换句话说，个体被抽到的机会不是随机的。

1.便利抽样法（convenience sampling）：以最容易得到或遇到的个体当样本的方法，又称偶遇抽样法（accidental sampling）。所得到或遇到的样本不一定具有代表性，而且有些个体可能永远不会得到或遇到，其公平性值得怀疑。例：由所捕获的鱼类，研究该河流或湖泊的生态。

2.判断抽样法（judgment sampling）：抽样人员主观从母体选取认为适合研究所需样本的方法，称为判断或判定抽样法，又称立意抽样法（purpose sampling）或依意抽样法。由于是主观认定，所以其公平性和客观性值得怀疑。例如，教师通常认为学业成绩好的学生，其品行一定好，办事能力一定强，所以经常指定担任干部或代表参加各种比赛。

第三章资料搜集与整体

一、使用统计方法的目的，是为了了解母体的某些特性，据以预测或判断某些事件将来发生的可能性或机率，作为决策的参考或依据。资料指的是将这些特性以简单的文字或数据（data）表示出来，每一种特性称为一种变项（variable），所以数据是由一种以上的变项所组成的。如果是文字变项的数据，通常称为质性资料（qualitative data），指的是从不同的角度，用不同的简短文字来描述某一种特性，所以质性研究通常包含许多不同文字描述的内容，例如满意度和支持度等。如果是数字变项的数据，通常称为量性数据（quantitative data），指的是使用相同的单位，用不同的量度数据来描述某一种特性，所以量性数据通常包含许多不同单位的数据，例如身高和所得等。总而言之，数据报含质性数据和量性数据，通常为了处理上的方便，会将质性数据量化成量性数据，所以数据通常是数量化的大量数据。