全国销售热线:

13395113888

水晶宫中国官网

您所在的位置:新万博水晶宫e > 水晶宫中国官网 >

一文读懂断点回归(RD)学习手册(包含设计前提条件内生分组等显著性检验、精确断点

发布时间:2019-12-21 17:17    点击次数:66次   

  原标题:一文读懂断点回归(RD)学习手册(包含设计前提条件内生分组等显著性检验、精确断点&模糊断点等全套标准操作)

  断点回归(RD)学习手册(包含设计前提条件内生分组等显著性检验、精确断点&模糊断点等全套标准操作)

  Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

  Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。

  此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。

  断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。

  这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。

  McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。

  检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0ab1,则为模糊断点回归。

  画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。

  设置不同带宽,通过选择最优带宽,再检验并选择相对应的模型。stata断点回归命令有相关的操作选项。另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。

  检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。

  模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)

  (1)协变量连续性检验,也称为伪结果检验( pseudo outcome)。以协变量 作为伪结果,利用与前面相同的方法,检验相应的RDD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的RDD估计量可能存在问题。

  (2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。(此处与检验内生分组一致)

  (3)伪断点检验( pseudo cutoff point)。在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计RDD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的RDD估计量不为零,则说明我们的RDD设计可能有问题,可能混杂了其他未观测因素的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不完全是干预的影响

  (4)带宽选择的敏感性检验。选择不同的带宽对RDD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向有变化说明RDD设计可能有问题。

  在进行断点回归(RD)设计时,样本数据需要满足一定的前提条件,比如,断点两侧除断点(Cutoff)处理效应外,其他因素需保持平衡(滑)以及不存在Selective Sorting。

  而断点回归的前提假设:Wi的条件密度在X=c0处连续。另外进行断点分析前,需要首先考察变量分组变量是否有内生分组的存在,意思就是样本个体事先知道分组原则等信息,然后通过自身选择来选择是否进入处理组,这样的内生分组将导致断点回归失效。

  本文提供一种基于断点两侧样本分布密度来进行检验的方法:McCrary(2008)。它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误,主要分为两步检验:第一步,将分组变量在断点处两侧尽量等距离细分,并计算每组的标准化频率;第二步,使用三角核估计进行局部线性回归,并计算密度函数估计值,然后检验密度函数在断点c处是否连续。

  McCrary(2008)可以通过非官方命令DCdensity来实现,其中DC表示Discontinuity,可以来检验分组变量的密度函数在断点处是否连续。依此判断,是否存在内生分组问题。

  然后将该命令的DCdensity.ado下载安装或者复制到C:adoplus,Mac系统的需要自己sysdir查询外部命令安装路径,自行复制下载。命令语法格式为:

  本文使用断点回归命令rd所系统自带的数据进行演示,该案例考察美国国会选区如果有一名众议员对该选区联邦指出的影响。传统上,倾向于大政府,故一个选区如果有众议员,则该议员可能为该选区争取更多的联邦支出。然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此,使用候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(候选人得票率减去0.5)、处理变量win(候选人当选),以及一系列协变量。

  可以看出断点两侧密度函数估计值的置信区间有很大部分重叠,所以断点两侧的密度函数不存在显著差异,检验结果为不存在内生分组,可以继续进行断点回归分析。

  按照在断点处个体得到处理效应概率的变化特征可以分为两种类型(即断点回归可以分为两种类型):一种类型是精确断点回归设计 (sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点 (也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计 (fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b,0ab1。

  此处,分组变量d的断点是0,生成新虚拟变量ranwin,若ranwin与处理变量win完全相等,则属于精确断点回归,否则属于模糊断点回归。此处,是精确断点回归。

  由于断点回归在操作上有不同选择,因此在时间上,一般同时汇报如下各种情形,然后以保证结果的稳健性(见陈强编著的《高级计量经济学及Stata应用》(第二版)

  断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等,本文主要介绍rd。

  z0(real) 用来指定断点的位置,默认值为z0(0),即断点为原点,如果此处省去D,则为精确断点回归,并根据分组变量X来计算处理变量

  结果显示randwin与win基本相同,但不完全相同,说明randwin不完全由分组变量d所决定。

  在学术圈如果是做应用计量(特别是横截面数据、面板数据),Stata是不二之选,因为不管是管理数据还是跑回归,实在太太太方便了。现在主流期刊的应用微观计量文章里面能用到的模型stata几乎都有,而且其中的绝大多数都是用stata做的。而且最大的优点是,简单!

  Stata 与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把 EViews, SPSS 的傻瓜式菜单和 SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。Stata 不仅在统计方面功能齐全,其在计量分析领域更是有着深刻影响,以至于有人一言以蔽之:“关于学习 Stata 的意义,大家只需知道:目前,Stata 是计量经济学,特别是微观计量经济学的主流软件。”

  为了帮助大家全面系统的掌握stata,我们在一贯坚持高水平授课办会的基础上,特别打造“小班教学、理论与软件并重、精品课程解析”的课程培训亮点,现推出2020年寒假学术提升计划!

  截至目前,计量经济学服务中心已经在西安、北京、上海、广州等地成功举办了12场stata高级班,并在深圳南方科技大学举办了一场stata编程研讨班。全国300余所高校的青年教师、硕士研究生、博士研究生、高年级本科生参加过组织的计量经济学系列研讨会。

  由于种种原因,很多学员一直想学却没有学,2020,给自己一个勇敢的理由,一起来放大你的小目标。

  本次课程一共十七讲,初级+高级课程,由零基础学起,理论与软件操作并重,手把手教你学计量。课程涵盖数据管理+横截面+时间序列+面板数据+门限回归+倾向匹配得分+空间计量等专题,是一个完整的课程体系,具体内容如下:

  Class 15.横截面空间计量模型与面板空间模型(包括空间自相关检验、空间效应检验、SAR、SEM模型以及空间面板随机与固定效应检验等)

  Class 16 . 空间计量经济学及Stata应用 (包括基于stata16的空间数据汇总、空间设定、权重矩阵创建、estat moran、横截面以及空间计量模型等)

  计量经济学服务中心团队成员精耕细作,紧跟stata前沿,各种操作以及学习内容均不断升级!重软件操作、重实战是课程一直以来的优势与好评。控制人数的小班教学以确保每一位学员真正学到操作技能。

  重要的事情说三遍,我们课程全部带电脑,并免费提供完整do文档以及数据、讲义、资料书等,手把手教学和操作学习!

  学员福利:一次报名,2年内不限次数线下免费学(包括但不限于中心举办的其他研讨班和学术会议、论坛等),学完之后并有课程群等一对一答疑解惑。另外还将赠送课程视频。

  ps:国内计量经济学理论方法学习很多均建立在Eviews软件上(stata书籍对理论方法等介绍的少),本次课程在横截面、时间序列、面板、门限等众多章节均穿插着简要介绍Eviews软件应用,帮助大家站在学习者的角度和路线全面构建起计量经济学框架和模型思路。

  1、掌握计量经济学及Stata操作,能够运用Stata完成复杂的数据处理工作,并熟练运用Stata完成写作;

  2、了解常用模型的思路、原理和建模方法,从源头数据库等数据下载、搜集、整理、管理,到stata数据操作,培养数据分析能力;

  3、通过中心精心准备的do文档讲义来完成学习,并实现do文档中现成命令的可复制性(只需要修改部分do文档命令的变量,就可以一键实现数据分析和数据管理的结果,具有复制性)(中心紧跟前沿,do文档实时更新,能够处理各种复杂数据分析)

  经济及社科类青年教师、博士生、硕士生、高年级本科生。(1 Stata爱好学习者及零基础学习者。2 经济管理以及人文社科领域人员、各类市场调查公司、咨询公司、互联网公司和科研机构需要进行数据处理的人士。)

  4、本次会议可提供增值税普通发票,如需开具(请联系微信:Xindream1992),并根据自己单位财务部门要求填写抬头和类目信息(一旦开具不能重开),发票类目为:会议服务费、信息服务费、培训费、会议费、咨询费等,报名时可以直接任选其一,其他类目无法开具。


热门推荐