断点回归(RD)学习手册

断点回归(RD)学习手册
断点回归(RD)学习手册

断点回归(RD)学习手册

断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。

此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。

Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。

一.断点回归操作动作建议

在进行断点回归(R D)设计时,一般有如下步骤:

▍1、参考变量分布连续性检验/检验内生分组

这里检验内生分组,即主要检验配置变量,其实就是R D中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。

Mc Crary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。

▍2、检查为精确断点回归还是模糊断点回归分析

检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0

▍3、图形分析

画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。

▍4、检验结果对不同带宽、不同多项式次数的稳健性

设置不同带宽,通过选择最优带宽,再检验并选择相对应的模型。stata 断点回归命令有相关的操作选项。另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。

▍5、检验其他影响结果变量的因素(协变量),在断点处是否存在跳跃

检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。

▍5、显著性检验

模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)

(1)协变量连续性检验,也称为伪结果检验( pseud o o ut co me)。以协变量 作为伪结果,利用与前面相同的方法,检验相应的R DD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的R DD估计量可能存在问题。

(2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。(此处与检验内生分组一致)

(3)伪断点检验( pseud o c ut off p o int)。在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计R DD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的R DD估计量不为零,则说明我们的R DD设计可能有问题,可能混杂了其他未观测因素

的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不

完全是干预的影响

(4)带宽选择的敏感性检验。选择不同的带宽对R DD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向

有变化说明R DD设计可能有问题。

上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检

验的。

二.断点回归设计前提条件检验:检验内生分组

在进行断点回归(RD)设计时,样本数据需要满足一定的前提条件,比如,断点两侧除断点(Cutoff)处理效应外,其他因素需保持平衡(滑)以及不存在Selective Sorting。

而断点回归的前提假设:Wi的条件密度在X=c0处连续。另外进行断点分析前,需要首先考察变量分组变量是否有内生分组的存在,意思就是样本个体事先知道分组原则等信息,然后通过自身选择来选择是否进入处理组,这样的内生分组将导致断点回归失效。

本文提供一种基于断点两侧样本分布密度来进行检验的方法:McCrary(2008)。它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误,主要分为两步检验:第一步,将分组变量在断点处两侧尽量等距离细分,并计算每组的标准化频率;第二步,使用三角核估计进行局部线性回归,并计算密度函数估计值,然后检验密度函数在断点c处是否连续。

McCrary(2008)可以通过非官方命令DCdensity来实现,其中DC表示Discontinuity,可以来检验分组变量的密度函数在断点处是否连续。依此判断,是否存在内生分组问题。

该命令的下载地址为:https://https://www.360docs.net/doc/c514105166.html,/~jmccrary/DCdensity/

然后将该命令的DCdensity.ado下载安装或者复制到C:\ado\plus,Mac 系统的需要自己sysdir查询外部命令安装路径,自行复制下载。命令语

法格式为:

DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)

其中,assign_var 为分组变量,必选项breakpoint(#)用来指定断点位置,generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名,graphname用来命名指定密度函数图。

操作应用如下:

本文使用断点回归命令rd所系统自带的数据进行演示,该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。传统上,民主党倾向于大政府,故一个选区如果有民主党众议员,则该议员可能为该选区争取更多的联邦支出。然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此,使用民主党候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(民主党候选人得票率减去0.5)、处理变量win(民主党候选人当选),以及一系列协变量。

数据描述性分析结果如下:

检验分组变量的密度函数是否在断点处不连续。

可以看出断点两侧密度函数估计值的置信区间有很大部分重叠,所以断

点两侧的密度函数不存在显著差异,检验结果为不存在内生分组,可以

继续进行断点回归分析。

三.断点回归模型选择:精确断点or模糊断点

按照在断点处个体得到处理效应概率的变化特征可以分为两种类型(即断点回归可以分为两种类型):一种类型是精确断点回归设计(sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点(也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计(fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b,0

判断是精确断点回归还是模糊断点回归?

g ranwin=(d>=0)

tab ranwin win

此处,分组变量d的断点是0,生成新虚拟变量ranwin,若ranwin与处理变量win完全相等,则属于精确断点回归,否则属于模糊断点回归。此处,是精确断点回归。

由于断点回归在操作上有不同选择,因此在时间上,一般同时汇报如下各种情形,然后以保证结果的稳健性(见陈强编著的《高级计量经济学及Stata应用》(第二版)

①分别汇报三角核与矩形核的局部线性回归结果(后者等价于线性参数回归)

②分别汇报使用不同带宽的结果(比如最优带宽及其二分之一0.5或者两倍带宽2)

③分别汇报(不)包括协变量的情形

④进行模型设定检验,包括检验分组变量、协变量的条件密度在断点处是否连续。

四.精确断点回归操作应用

断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等,本文主要介绍rd。

首先我们输入如下命令进行安装:ssc install rd, replace

该命令的基本句式如下:rd y d x, z0 (real) strineq mbw (numlist) graph bdep oxline kernel (rectangle)

其中mbw(numlist) 用来指定最优带宽的倍数,默认值为mbw(50 100 200)

z0(real) 用来指定断点的位置,默认值为z0(0),即断点为原点,如果此处省去D,则为精确断点回归,并根据分组变量X来计算处理变量

graph 根据每一带宽,画出局部线性回归图

bdep 根据画图来考察断点回归估计量对带宽的依赖性

oxline表示在此图的默认带宽上画出一条直线,以便识别

kernel(rectangle)表示使用均匀核(矩阵核),默认使用三角核

covar(varlist) 表示用来指定加入局部线性回归的协变量

x(varlist) 表示检验这些协变量在断点处是否存在跳跃(估计跳跃值和显著性)

▍1、回归分析

首先直接进行线性回归

上述回归分析结果,虽然win表示当选了,会增加lne的支出,但是不显著

▍2、选择最优窗宽:设置不同带宽,并通过图形选择-

从默认的3种窗宽mbw(100,50,200)中,选一个最优的rd lne d, gr bdep oxline

mbw(50),即最优窗宽的0.5倍

mbw(100),即最优窗宽的1倍

mbw(200),即最优窗宽的2倍

最优带宽

也可以直接选择默认的带宽以及三角核进行断点回归,命令为rd lne d, gr mbw(100)

上面结果说明拥有民主党派候选人当选的选区,并不能显著的增加联邦政府开支

也可以加入变量进行断点回归,命令为

rd lne d, mbw(100) cov(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)

进行断点回归,还需要对其进行检验,检验协变量在断点处的条件密度是否存在跳跃

五.模糊断点回归操作应用

模糊断点回归

现在生成一个新的处理变量randwin,使得randwin不完全由分组变量d 所决定。

set seed 20181203

g byte randwin=cond(uniform()<.1,1-win, win)

tabulate randwin win

结果显示randwin与win基本相同,但不完全相同,说明randwin不完全由分组变量d所决定。

下面使用最优带宽与默认的三角核进行模糊断点回归。

含协变量的断点回归

rd lne randwin d, gr mbw(100) covar(i votpop black blucllr farmer fedwrkr forborn manuf unemplyd union urban veterans)

来源于计量经济学服务中心,作者数量经济学

断点回归方法的应用

一引言 2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。 二断点回归理论及发展历史 断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。Hahn et al.(2001) 提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且 。在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界 值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;第二类,临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。Hahn et al.(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。 断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是

计量经济学与实验经济学的若干新近发展及展望

计量经济学与实验经济学的若干新近发展及展望 一、引言 经济研究的方法在于总结典型的经验特征与收集数据,并在此基础上建立相应的经济理论或经济模型。经济研究的科学性在很大程度上取决于经济理论或经济模型的可验证性,即能否通过数据实证检验相关的经济理论与经济模型来解释事实,并预测未来的经济变动趋势以及提供科学的政策建议。计量经济学和实验经济学则犹如硬币的双面,从不同的角度为经济学的实证分析提供重要的方法论基础。计量经济学以实际经济数据的建模与分析为主要研究对象。当实际数据不可得,或实际数据过于复杂而导致因果关系不易梳理时,实验经济学则有可能从另一个角度出发,通过可控的实验数据代替实际数据,成为实证经济分析的又一个有利工具。 计量经济学是由经济学、统计学、数学、计算机科学等学科交叉产生而又独立于其中任何一个学科。计量经济学产生于对经济理论的实证分析,经济系统的建模和国民经济投入产出法的计算等经济学问题,经过近一个多世纪的发展,已经成为了一个成熟而且被广泛运用的学科。计量经济学可以分为理论计量经济学和应用计量经济学。其中理论计量经济学主要关注计量经济模型的建立,包括针对不同数据类型、随机实验和不可控随机误差的分布形式、经济学模型和实际问题而进行的假设,从而对该模型进行参数、非参数等的估计、统计推断和预测,并给出其具体的理论性质,例如无偏性,渐进分布、统计有效性、预测误差等等。应用计量经济学则侧重于实际问题,其内容基本涵盖凡是有数据支持的经济学理论的各个分支,并用经济数据来对经济理论进行检验,或是对某些经济变量的因果关系进行量化研究,或是利用金融数据进行风险估计等实证研究。例如对环境经济学、教育经济学、金融经济学、国际贸易理论、经济增长理论等都可以通过数据进行实证分析,在计量经济学理论的指导下进行计算。计量经济学的理论研究和实证分析相辅相成,对现实生活中某种类型经济数据的实证分析往往成为发现理论研究新方向的动力,同时理论研究的成果也通过计量模型被广泛应用到各种实际问题中去。 计量经济学是现代经济学理论体系的一个核心组成部分,可以说如果没有计量经济学,经济学理论就像纯数学理论一样只有象牙塔式的研究价值而不能被数据所证实或者应用证伪。在过去的诺贝尔经济学奖获奖人当中,第一届

断点回归设计的步骤

近在做一个需要利用断点回归设计的研究。为了保证实践的规范性,并且避免未来审稿中可能面对的质疑,花了几天时间梳理了一下断点回归设计的标准操作,整理出来,供来人参考。本文参考了三篇文献,先摆在这里,建议大家去读原文: 第一篇:Lee, and Lemieux, 2010," Regression Discontinuity Designs in Economics ",Journal of Economic Literature, Vol. 48: 281–355. 第二篇:Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization on crime." American Economic Review107.1 (2017): 138-68. 第三篇:Thoemmes, Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-Discontinuity Design in R." Journal of Educational and Behavioral Statistics 42.3 (2017): 341-360. 1.断点回归常规操作流程 第1步检查配置变量(assignment variable,又叫running variable、forcing variable)是否被操纵。这里的配置变量,其实就是RD中决定是否进入实验的分数(Score),是否被操纵的意思就是,是否存在某种跳跃性的变化。在实际操作中有两种方式来检验,一是画出配置变量的分布图。最直接的方法,是使用一定数量的箱体(bin),画出配置变量的历史直方图(histogrm)。为了观察出分布的总体形状,箱体的宽度要尽量小。频数(frequencies)在箱体间的跳跃式变化,能就断点处的跳跃是否正常给我们一些启发。从这个角度来说,最好利用核密度估计做出一个光滑的函数曲线。二是利用McCrary(2008)的核密度函数检验。(命令是DCdensity,介绍见陈强编著的《高级计量经济学及Stata应用》(第二版)第569页), Frandsen (2013)提出了一种新的检验方法,但目前被使用 的并不多。 第2步画因变量均值对配置变量的散点图,并选择带宽(bandwidth selection)。首先,挑选出一定数目的箱体,求因变量在每个箱体内的均值,画出均值对箱体中间点的散点图。一定要画每个箱体平均值的图。如果直接画原始数据的散点图,那么噪音太大,看不出潜在函数的形状。不要画非参数估计的连续统,因为这个方法自然地倾向于给出存在断点的印象,尽管总体中本来不存在这样的断点。然后,选择第三步骤中需要的带宽。Lee和Lemieux(2010)介绍了两种确定最优带宽的方法:拇指规则法(rule of thumb)和交叉验证法(CV)。还有另外两种比较受关注的方法:IK法和CCT法。IK法以Imbens和Kalyanaraman两个人命名,对应着论文Imbens和Kalyanaraman(2012)。这篇论文发表在Review of Economic Studies,Lee和Lemieux(2010)文中提到过此文2009年的NBER工作论文版。CCT法以Calonico、Cattaneo和Titiunik三个人命名,对应着论文Calonico、Cattaneo和Titiunik(2014a)。用非参数法做断点回归估计时的stata命令rd,就是用IK发确定最优带宽。stata命令rdrobust、rdbwselect,提供CV、IK、CCT三种不同的最优带宽计算方法选项。但是实际上rdrobust中已经更新了IK带宽选择函数,更新的算法与IK算法的区别有待考证,后续会补充。实际操作中一般是两种算法都会采纳,并汇报参数估计对带宽选择是不敏感的。

断点回归及其在经济学中的应用

断点回归及其在经济学中的应用 一引言 2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域中崭露头角。时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。 二断点回归理论及发展历史 断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。Hahn et al.(2001)提出了断点回归的首要假设, 如果变量表示处置效应,表示决定处置的关键变量,那么和 必须存在,并且。在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处置时的情况,尤其是在变量连续的情况下,临界值附近样本的差别可以很好的反映处置和经济变量之间的因果联系。断点回归可以分为两类,第一类,临界值是确定的(Sharp),即在临界值一侧的所有的观测点都接受了处置,反之,在临界值另一侧的所有观测点都没有接受处置。此时,接受处置的概率从临界值一侧的0跳转到另一侧的1;第二类,临界点是模糊的(Fussy),即在临界值附近,接受处置的概率是单调变化的。Hahn et al.(2001)在一定的假设下,证明了无论是哪一类型的断点回归,都可以利用临界值附近样本的系统性变化来研究处置和其它经济变量之间的因果关系。 断点回归首先是由美国西北大学的心理学家Campbell于1958年首先发展设计出来的,从那时开始直到二十世纪80年代,Campbell和西北大学心理学系和统计学系的同事一直从事断点回归的设计和研究工作。Thistlethwaite和Campbell(1960)正式发表了第一篇关于断点回归的论文,他们提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。随后,Campbell和Stanley(1963)为断点回归提供了更加清晰化的概念,但是由于他们并没有给出断点回归统计上的证明。在他们看来,断点回归主要是为了解决选择性偏误(Selection Bias)问题,断点回归利用了一个取决于某连续变量的间断函数,这个间断函数完全决定了个体是否受到处置,这就使得样本选择的细节完全展示出来,使得我们知道样本选择的问题所在。此外,Campbell和Stanley 还认为断点回归仅仅是在间断的临界值处类似于随机实验,其推论的有效性也仅仅局限于间

差分断点回归设计(DIRD)及其在人口断点中的应用

差分断点回归设计(DIRD)及其在人口断点中的应用 2015-12-27BOSS应用微观计量经济学 差分断点回归设计(DIRD)及其在人口断点中的应用在各国的政策实践(特别是财政政策和选举政策等)中,经常有针对不同城市人口范围制定差异化政策的设定。近年来,利用这种人口层级使用断点回归设计来解决实证研究中内生性问题的文章大量涌现。然而,由于人口本身的特殊性,使用人口作为驱动变量进行的断点回归设计与一般的断点不同,存在着一些天然的陷阱,并且往往不为研究者所注 意。Eggers等人的最新工作论文Regression DiscontinuityDesigns Based on Population Thresholds: Pitfalls and Solutions针对这一问题做了详细的阐述。 作者通过搜集发现,使用人口断点的实证文献有28篇之多,并且这一数目还在不断增加。作者指出,使用人口断点的文章必须注意两个陷阱: 1、政府制定政策时如果采用人口断点,那么通常会有多项不同的政策采用相同的政策断点,因此研究者估计的断点两侧Y变量的跳跃很有可能并非某一项具体政策的效果,而是多项不同政策加总的净效果。这一问题在研究者使用模糊断点回归(Fuzzy RDD)时将会变得尤为严重,作者将其称为confounded treatment problem。针对这一问题,作者建议使用刚刚发展起来的“差分断点回归设计”(Difference-in-discontinuitiesdesign,DIRD)进行更为细致的检验。差分断点回归设计的基本思想十分简单,当某一政策断点处两项政策

的混合效果AB和其中某项政策的效果B已知时,直接做差即可得到A的一致估计。当然,如果我们要得到其中某些政策的处置效应,前提必须是这两项政策在某一具体的断点处实施的时间上有差异,与此同时我们假定这一处置效应不随时间变化。如果两项政策碰巧又是同时实施的(此处应有叹息声),那么我们可以退而求其次,寻求新的假定来实施差分断点回归。例如,当基于人口断点的政策利用的是多断点时(几乎所有的文献中使用的人口断点都是多断点,这是由政策制定的实际决定的),如果我们假定不同人口断点处的处置效应是相同的,碰巧A政策与B政策只在某一特定的断点处重合而不在另一个断点处重合,那么我们仍然可以通过做差的方式来消除重合断点产生的混淆效应。如果上述设定仍然难以找到,我们可以进一步寻求空间上的差异,看看其他地区有没有与我们关注的地区存在variation从而使得我们能够区分两项政策。如果时间、不同断点处和空间上都没有差异,那么我宣 布:A、B这一对好基友天长地久,确实难以分开,少年,洗洗碎吧…… 2、当某项政策给地方政府带来的激励足够强时,地方政府可能通过某种手段操纵当地的人口数量,从而使得自己落入更加符合自身利益的政策区域内。RDD模型的设定本身要求,样本无法精确地操纵(precisely manipulate)是否接受处置。目前一个近似标准化的做法是检验驱动变量(forcing variable)在断点两侧分布情况,如McCrary检验(McCrary,2008)。然而,作者通过法国、意大利和德国的几个政策实例发现,当驱动变量不是连续变量的时候,McCrary检验的结果是有偏的。此外,大量的文献受制于某些特殊的情况(例如断点很多,某个具体的断点两侧的样本量不足,或者想要估计一个所谓 的“加总效果”),通常会尝试将多个断点“堆叠”起来的模型设定。一旦采用数据堆叠,那么一定会导致断点两侧的人口分布出现不连续的情况,从而使得McCrary检验失效。 当然,最后作者给了我们极大的宽慰,尽管使用人口断点可能存在这样那样的问题,但这些问题并不会影响我们利用RDD的方法来解决实证研究中的内生性问题,因为你现在也找不到别的更好的办法。Don’t throw the baby out withthe bathwater,换一种表达方式是you canyou up,no canno BB. 阅读 271918

断点回归和指数效应

断点回归和指数效应 2015-10-08 金融学前沿论文速递 这是“金融学前沿论文速递”第177篇推送 选文:谢晓飞审稿:李娜编辑:张凡 仅用于学术交流,原文版权归原作者和原发刊所有,转载请注明出处 由Yen-Cheng Chang、Harrison Hong和InessaLiskovich共同撰写的Review of Financial Studies 2015年第1期文章“Regression Discontinuity and the Price Effects of Stock Market Indexing”采用Russell 1000和Russell 2000这两个指数之间交接处的独特样本研究了指数效应。指数效应,指某只股票被纳入/剔除指数成份股后,其股价会上升/下降的现象。Russell 1000和2000指数的成份股是按照市值排序最大的前1000家公司和随后的2000家公司。排在第1000名前后的公司,只要市值稍稍变动就可能从一个指数移动到另一个指数中去。由于指数以市值加权,因此追踪Russell 2000指数中最大股票的资金比追踪Russell 1000指数中最小股票的资金多。文章利用这个不连续性,用断点回归方法发现了明显的指数效应:当股票从Russell 1000被纳入Russell 2000指数会导致价格上涨;而从Russell 2000中剔除到Russell 1000会导致价格下跌。文章还研究了指数效应的时间趋势以及揭示了为指数交易者提供流动性的投资者类型。 虽然指数效应的研究众多,但已有研究还存在若干问题。第一,有关指数效应是否真存在的问题。传统研究方法认为纳入指数的股票存在指数纳入效应,因其与非纳入的控制组(一般为市场组合)的区别仅在于购买需求(纳入指数的股票会受到追踪指数的被动型投资者大量购买),因而推论应是股票的需求曲线向下倾斜。这一推论与传统的有效市场假说相悖(假设股票的替代资产很多因而其需求曲线平直)。后续研究提供了股票需求曲线向下倾斜的证据,但仍有一些问题待解:首先,纳入和剔除效应的具体大小尚未揭示(指数效应的论证中还混杂着其他潜在原因,已有研究揭示被纳入指数的股票有收益提升,但并未揭示多少提升是由于纳入指数而非基本面好或吸引关注等所造成);其次,纳入和剔除效应有什么不同没有研究(受研究样本和方法所限,少有研究关注剔除效应)。第二,有关指数效应时间趋势的问题。现有研究用一次性事件很难分离购买所导致的指数成份股股价上升和摩擦减少对冲纳入效应更方便所导致的股价下降两种力量。第三,有关谁为跟踪指数者提供流动性的问题。这个问题还没有研究,但这个研究对于搞清指数投资需求上升的原因很重要。 为了解决这些难题,文章通过对Russell 2000指数中市值排名在界断点附近的股票进行一系列断点回归的研究设计清晰地考察了指数效应。每年5月末股票会按市值进行排序,第1-1000名归入Russsell 1000指数,第1001-3000名归入Russell 2000指数。指数每隔一年调整一次。本文考察第1000名左右处于Russell 2000指数断点处的样本(第3000名断点处情况类似)。由于指数是市值加权的,因而每年5月末市值排名刚好在1000名之下(第1001-1010名)的股票会受到大量买入,与之相对,排名刚好在1000名之上(第990-1000名)则几乎没有什么买入。实际上,Russell 2000指数中排名刚好在1000名之下的股票权重比Russell1000指数中排名刚好在1000名之上的股票权重大10倍。换句话说,每年5月末,股票市值是排在1000名之上还是之下是随机的,但受指数配置的影响,断点处的需求却有显著差异。比起以往用S&P500指数来研究指数效应,这个研究设计天然避免了内生性。

RD方法(regression-discontinuity-design)

RD方法(regression discontinuity design) ●什么是regression discontinuity design?下面将用一篇文章来介绍: 如何理解「由于使用燃煤取暖,中国 5 亿北方居民预期寿命将缩短 5.5 年」? 7月8日发表在《美国国家科学院院刊》(PNAS)的一篇论文,向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实:以淮河为界,烧煤供暖的中国北方地区空气污染水平高于中国南方,北方5亿居民因严重的空气污染,平均每人失去5年寿命。 这篇文章由清华大学的李宏彬、北京大学的陈玉宇和另外两位作者共同完成。前两位完成了这篇论文的主要部分。这个回答首先介绍他们的研究方法,再谈一谈研究者和媒体对这篇文章的引申。 ●科学家如何得出「使用燃煤取暖中国5亿北方居民预期寿命将缩短5.5年」这个结论的? 首先要说的是这篇文章使用的RD方法(regression discontinuity design),即断点回归方法。断点回归方法是最近的政策评估中非常重要的一个方法,他可以在没有随机性的情况下识别出政策的效果。 在早期的研究中,要识别一个处理(Treatment)的效果,我们必须拥有随机性,比如两组随机分开的小白鼠,一组加上某种处理,一组没有处理,最后观察两者的区别。为什么我们那么需要随机性呢?因为研究的基础需要几组十分类似的群体,他们的任何特征都服从一个相同的分布,无论是性别、年龄、教育、健康程度……这样,我们才能确定几组对象之间出现的差别是来自于实验处理的差异,而非某些个人特征。从一个大样本中严格随机抽取的样本,正好满足这样的同分布假设。 但对于政策研究来说,我们不可能找到这样随机分开的两组人,而且也无法用实验的方法来获得结果——你能将随机分开的100人放在干净空气中,将另外100人放在肮脏空气中并观察一段时间吗? 一些研究者面对这种缺乏随机性的情况,采用了增加控制变量的方式。比如,把性别年龄教育健康程度全部放进回归式中,然后声称,两组人之间由于性别年龄教育健康的不同而造成的差别都已经去掉了,剩下的就是这个政策的效果了。 可是,这很容易遭到批评,而且是没完没了的批评。为什么不控制工资高低?婚姻状况?从事行业?只要没有随机分开,任何特征变量的差异造成的结果,都可能混淆在政策结果中,你不控制这个变量,政策的效果就仍然没有识别干净。遭到批评的研究者只能继续加变量,没完没了的加变量。 更关键的是,前面说的还是可以量化的东西,努力程度?性格特征?甚至,智商?这些不可观测的变量可能影响更大。举一个例子,科学家想知道上了“一本”大学对学生未来的工资有什么影响。上了一本和没上一本的大学生,显然不是随机分开的两个群体。当然也没法用控制变量的方法来消除“一本”之外的影响,因为肯定有一些不可观测的变量是你控制不了的。控制变量法至此完败。

RD断点回归法

You jump, I will not jump!断点回归的连续性假设 断点回归RD是当代社会科学因果推断的最基本无害的大招之一。比如我们要研究上一本大学是否能提高一个人的工资,如果直接对比上了一本大学和没上一本大学群体的工资,可能会因为上一本大学的天生能力更强而得出有偏误的结论,而能力等不可观测变量无法控制。RD给我们提供了一个思想——观察一本线附近上下几分学生的工资。比一本线低2分、1分的人工资差距不大,高2分、1分的差距也不大,但比一本线低1分的和正好达线的工资上有个跳跃,那这个跳跃就是一本大学对工资的作用。一本线产生了一个天然的跳跃(两侧的人分别上一本和二本),如果在一本线两侧我们也看到了关注变量(工资)的跳跃,那么就识别了因果效应。 直觉上来看,RD的成立还需要一个关键假设:一本线产生了一个天然的跳跃,但一本线附近学生各特征不能有跳跃!否则就混淆了一本大学对工资的作用。这就是连续性假设。 1、断点回归背景介绍 Thistlethwaite and Campbell(1960)使用了RD方法后的40年,RD并没有在经济学中大规模使用,一大原因就是RD太像自然科学的随机实验了,太不像经济学传统方法了(比如上周我们BLUE_OLS读Black(1999)关于择校会使房价上升的论文(”Do better schools matter? Parental valuation of elementary education”),该文利用学区边界推断因果,应该说思想跟RD 很像,但没有按照RD框架来写,可能的原因是作者写作年代RD还并不流行)。直到Hahn, Todd, and van der Klaauw(2001)把RD纳入到了我们熟悉的“反事实因果推断”框架下,如下图(原文图2)。 我们把断点看成一种treatment,断点右侧的是处理组,断点左侧的是控制组。可以观测到处理后的处理组,和未处理的控制组。在离断点很近的区间里(图中是X=2),控制组Y(0)观测不到的那段就可以作为处理组Y(1)观测到的那段的反事实,从而推断出因果效应。从这里能很清楚地看出“连续性假设”的重要性,如果违反连续性,就不能作为另一组的反事实。 但这里还存在两个难题:1.我们都知道连续性假设很重要,但该假设在经济学语言里很不传统,有点怪怪的。2.如果从“selection on observables”角度来看,我们通常的2个传统假设——ignorance(unconfoundedness)和overlap,在RD设计里,第一个假设天然满足,因为控制X后,断点两侧样本在是否处理上没有变差了(一侧D=1,一侧D=0);但overlap 肯定不满足,没有交叠部分。从这个角度来看,我们需要增加连续性假设,用来补偿overlap 不能满足。RD是不是valid,就取决于这个连续性假设。 2怎样用经济学语言表述连续性假设?

互助问答第190问 断点回归最优带宽问题

X 分组变量/参考变量; D 干预变量;Y 结果变量 局部随机化假设:假设在断点附近近似于完全随机化实验,即 具体的例子,比如高考成绩中 500 或 501 的考生上大学(进入处理组),而成绩为 498 或 499的考生落榜(进入控制组)。制度原因在 之间的考生进行了随机分组。 问题 1: 此处的可以认为就是带宽吗? 问题 2:如何获得最优带宽? 1. 主观设定 2. rdbwselect vote margin,all (图片一)图中 BW est.(h)和 BW bias(b)有些分不清,哪个是最优带宽?知道 mse 和 cer 是两种评价算法

3. rd depvar runvar (图片二)红色方框中分别是最优带宽、0.5 倍最优带宽和 2 倍最优带宽? 4. rdrobust depvar rnvar,c(#) p(#) kernel(kernelfn)bwselect(bwmethod) [该命令后面部分废弃了吗,显示options IK, CCT and CV have been depricated](图片三)红色方框中也是最优带宽吗?默认CCT,如何使用CV、IK 算法呢

问题1: 对,此处的可以认为是左带宽或右带宽。实际操作时,左右带宽可能不同。 问题2: 1.可以通过主观设定不同带宽来检验估计结果是否稳健。可以利用rd命令中的 bdep展示估计结果如何随带宽的变化而变化。 2.与h有关的是带宽估计,与b有关的是偏误(bias)估计。 3.对,分别为最优带宽、0.5倍最优带宽和2倍最优带宽。请注意此处最优带宽 的估计方法是rdbwselect中的IK算法。 4.我运行时没有问题,请参见下图(选择的是IK算法,CV算法也可以选择)。 可能需要更新命令程序包。

新冠疫情金融和人工智能企业的就业效应——基于断点回归分析

Service Science and Management 服务科学和管理, 2020, 9(4), 171-178 Published Online July 2020 in Hans. https://www.360docs.net/doc/c514105166.html,/journal/ssem https://https://www.360docs.net/doc/c514105166.html,/10.12677/ssem.2020.94023 Employment Effect of Financial and Artificial Intelligence Enterprises in the COVID-19 Epidemic —Based on Regression Discontinuity Design Wenxu Zhang, Juxiang He* School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing Received: Jun. 16th, 2020; accepted: Jul. 1st, 2020; published: Jul. 8th, 2020 Abstract This paper focuses on the outstanding performance of artificial intelligence technology in the new crown epidemic, and explores the employment impact mechanism of financial industry and artifi-cial intelligence industry under the impact of the new crown epidemic. It collected the number of recruitment which issued by 88 AI enterprises and financial enterprises from December 1, 2019 to March 20, 2020 as employment data. The regression discontinuity model was designed and estab-lished with January 21, 2020 as the discontinuity of the epidemic to explore the employment ef-fects of the new epidemic on the financial industry and AI industry. The results show that there is a significant employment decline discontinuity in the financial industry and no significant discon- tinuity in the employment of the artificial intelligence industry during the COVID-19 epidemic. Therefore, compared with the traditional financial industry, the artificial intelligence industry has a better stabilizing effect on employment in the COVID-19 epidemic. Keywords COVID-19 Epidemic, Artificial Intelligence, Financial, Employment, Regression Discontinuity 新冠疫情金融和人工智能企业的就业效应 ——基于断点回归分析 张文绪,何菊香* 北京邮电大学,经济管理学院,北京 *通讯作者。

让跳跃更有意义:断点回归设计(RDD)

& 让“跳跃”更有意义:断点回归设计(RDD)在一个高度依赖规则的世界里,有些规则的出现十分随意,这种随意性为我们提供了性质良好的实验(Angrist& Pischke,2009)。断点回归设计(RegressionDiscontinuity Design)是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。 断点回归方法首先是由美国西北大学心理学家Campbell于1958年提出的;并与1960年,与 Thistlethwaite正式发表了第一篇关于断点回归的论文,提出断点回归是在非实验的情况下处理处置效应(Treatment Effects)的一种有效的方法,主要应用于心理学和教育学领域。1963年,Campbell and Stanley为断点回归提供了更加清晰化的概念,但由于当时还缺乏严密的统计证明,加之IV 方法在处理内生性的思路和范式上具有更广阔的适用范围,因此在随后的几十年间,RD 方法一直没有得到经济学者的重视。直到上世纪90 年代末,随着该方法的理论基础得到进一步发展,大量经济学文献才开始使用RD 方法对变量之间的因果关系进行识别。 断点回归可以分为两类,一类是模糊断点回归(Fuzzy RD),另一类是清晰断点回归(Sharp RD)。清晰断点回归可以看作是一种基于可观察变量进行的选择 (selection-on-observablesstory),而模糊断点回归则常被视为一种工具变量的方法(instrumental-variables-type)。 清晰断点回归(Sharp RD)

断点回归(RD)学习手册

断点回归(RD)学习手册 断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。 Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。 Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。 此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。 Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。 断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。

使用地理边界进行断点回归设计

使用地理边界进行断点回归设计 断点回归设计(Regression Discontinuity Design)是近年来十分流行的一种因果识别方法,被广泛地应用于社会科学研究的诸多领域。使用地理边界作为断点回归设计中断点的文章近年来也屡屡有佳作涌现,本期推送的是PennState University政治系副教授Luke J. Keele和密歇根大学政治系助理教授Rocio Titiunik发表在Political Analysis上的综述性文章Geographic boundaries as regression discontinuities。 题外话,推文作者注意到,其实早在Hahn等(2001)发表在Econometrica 上的经典文章之前,他们三位1999年就已经在一篇很古老的NBER工作论文中给出了断点回归设计的基本估计方法(NBER working paper No. 7131),可惜当时并未引起重视。 回到我们推送的文章,作者认为,地理断点回归(Geographic Regression Discontinuity,GRD)虽然其基本思想和估计方法与Hahn等(2001)给出的方法类似,但也有其自身独有的一些特点。作者将其归纳为以下三个主要的方面:第一,地理断点作为一种多维度处理效应,对结果变量的影响也是多维度的,很容易同时引起其他变量的跳跃,从而使研究者比其他类型的断点回归设计更容易遭遇联立性偏误的问题。第二,在GRD中,选用不同的距离度量方法将会影响断点回归中的处置变量(forcing variable或者assignment variable),进而对结果产生十分重大的影响。第三,任何使用GRD的研究都将无法回避空间相关性的问题,而现有的研究通常没有加以考虑。 地理边界对样本的处理效应实际上是高维的,其是否受到处置由经度、维度(有时可能还包括海拔)共同决定。地球上两点之间的距离是两点经度、维度和该点与地心距离的一个函数,通常我们不考虑地球是个不规则球体这一事实,并且认为相对于地球平均半径(6371千米),任何两点间的海拔差异都小得可以忽略不计。上述函数可以近似地简化为只包含两点的经纬度,但仍然是由两个参数决定的。 为了将GRD与经典RDD文献中的估计方法联系起来,文献中一个十分常见的方法是使用与政策边界最短距离作为处置变量。这一方法实际上是将高维处置效应化为低维处置效应,其背后隐含的一个加强后的假定是,沿着与政策边界最短距离相同的线移动时处理效应的大小不变,作者认为这一假定很大程度上是天真的。Chen et al. (2013)发表于PNAS使用“秦岭-淮河”断点的著名文章采用了同样的处理方式,但这样处理可能会遭遇到较为严重的偏差,当政策边界越长时这一问题越严重。 当时MIT经济系(现在任教于哈佛经济系)助理教授萌妹Melissa Dell在她2010年发表于Econometrica的文章Mita中使用了另外一种方法来解决这一问

中国扶贫项目评估:断点回归法

摘要 1994年至2000年间,为实现县级层面农民收入增长,中国推出第二轮大规模扶贫项目,本文对其中《国家八七扶贫攻坚计划(1994-2000年)》(下简称”八七计划“)对县级农民收入增长的影响进行了评估。能否参与此计划主要取决于县的收入是否低于规定的贫困线。鉴于此,本文采用断点回归法来估计该计划的因果影响。运用面板数据,我们发现在1994年到2000年间实行“八七计划”的县中,农村收入增加了大约38%。我们的实证结果同时表明了初始禀赋在经济发展中起到的重要作用。 1、简介 各国的研究表明,持续的经济增长通常可以有效地减少贫困(Ravallion and Chen, 1997; Dollar and Kraay, 2002)。经济的长期增长对扶贫脱困并不总是灵丹妙药,可能是居住在某些地区的贫困人口无法充分获得高增长的收益。为解决贫困人群的担忧,许多国家都采取针对贫困地区的发展计划来消除贫困。尽管这种发展战略有学科理论基础,这些计划是否按预期生效仍然是未知的。 本文对1994年中国政府实施的一项大规模扶贫计划进行了评估。该项目被称为“八七计划”,旨在通过有针对性的公共投资,例如以补贴贷款,专项预算拨款和“以工代赈”等方式促进地方经济发展。该方案在支出和规模上令人印象深刻。为实现8000万贫困人口中的绝大多数在2000年前脱贫,该计划覆盖了592个县,占全国县级行政单位的28%。项目在七年运作中耗资12,400亿元人民币(相当于149亿美元),约占中央政府每年支出的5%至7%。 项目设置的非随机性使得想要评估项目的有效性变得复杂。当基于某些个体的平均特征进行公共干预时,这个问题特别突出。在我们的研究中,当地理差异使得未列入项目的县受

断点回归及其在经济学

断点回归及其在经济学中的应用

断点回归及其在经济学中的应用 一引言 2010年4月24日,该年度的约翰·贝茨·克拉克奖章(John Bates Clark Medal)——针对40岁以下年轻经济学者的最高荣誉,授予了麻省理工学院经济系的Esther Duflo教授以表彰其在随机实验普及和其在发展经济学中应用方面的卓越贡献。在因果关系分析的实证方法中,最优的选择应当为随机实验,但是随机实验的时间成本和经济成本都比较高,而在随机实验不可得的情况下,需要考虑使用其它方法。断点回归(Regression Discontinuity)便是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。Lee (2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。然而,断点回归也仅仅是在20世纪90年代末才被应用于处理经济学的问题。2001年,Hahn等人对断点回归模型的识别和估计的理论问题进行了严格细致的分析,此后,断点回归才在众多的经济学研究领域

中崭露头角。时至今日,断点回归已经在劳动和教育经济学、政治经济学、环境经济学和发展经济学等领域取得了广泛的应用。然而,断点回归却鲜为中国经济学者所应用,正是基于断点回归在实证研究中的重要性和国内文献的缺乏,本文拟以此为背景,从断点回归的理论、发展历史、实证步骤和经济学中的应用几个方面阐述断点回归这一个新“拟随机试验”方法的兴起。 二断点回归理论及发展历史 断点回归是一种拟随机实验,此种随机实验定义了这样一个特征,即接受处置(Treatment)的概率是一个或者几个变量的间断函数。Hahn et al.(2001)提出了断点回归的首要假设,如果变量表示处置效应,表示决定处置的关键变量,那么和必须存在,并且。在使用断点回归的情况下,存在一个变量,如果该变量大于一个临界值时,个体接受处置,而在该变量小于临界值时,个体不接受处置。一般而言,个体在接受处置的情况下,无法观测到其没有接受处置的情况,而在断点回归中,小于临界值的个体可以作为一个很好的可控组(Control Group)来反映个体没有接受处

相关文档
最新文档