怎么用通俗的语言解释断点回归?它与DID的区别是什么

关注者
189
被浏览
826,815

5 个回答

RD的目的是选取其他特征相似的组,考察临界值区间上下不同

例如,考察进入清华与否对于收入的影响。 考试成绩为687的人无法上清华大学,而考试分数为689的人课可以进去。仅仅2分之差,这两类人的基本能力其实没什么差别。 两组人,围绕着688分的分界线,对于研究工资差异都具有较高的内部效度,因为两者之间的唯一区别是是否进入清华。其他一切都是不变的。

把这个理念延伸一下 控制其他变量,数据分为1)688以下, 2)688以上两组。 回归拟合线应该斜率相近, 但是截距有明显差别,截距项可以理解为入学带来收入差异。

DID的目的是比较两组存在差异的群体,但是该差异的影响必须是随着时间变化是恒定的

比如处理前A2010 ,处理后A2020; 处理前 B2010,处理后 B2020.

所以(A2010 - B2010 )=m 就是所谓的first difference. 这里m就是A和B组预先存在的差别。 然后( A2020 - B2020)=n , 这里就是second difference, 其中n包含了处理的效应Treatment 和预先差别m,最后, n-m= treatment效果。 这就是difference in difference.

RD需要数据更少,主要是考虑临界值附近的影响。 DID需要panel data面板数据,并且更容易广泛使用。

RD

在 RD 方法中,所有单位都拥有一个 “得分”,并且得分值高于某个断点的个体接受处理。这一设计的最大特点在于接受处理的概率在门槛值处急剧变化。具体来看,RD 的特征如下:

  • RD 具有三个明显的特征:得分、断点和处理;
  • RD 的主要特征是处理分组在断点处为得分的分段函数,这一条件是可以直接验证的,除此之外,还有很多证伪检验和相关经验来提高可信度;
  • 除了上述特征,一般的解释、估计和推断也需要一些额外的假设。首先,我们需要定义参数及其识别条件;其次,必须施加假设以保证参数可估计,主要的框架有两类,分别是连续性假设和局部随机化假设。

精确断点回归设计

在 RD 中,每个个体拥有一个得分 (或称为驱动变量 running variable, 或指标 index),并且处理取决于得分是否高于断点。

引入一些符号,假设有 n 个个体,使用 i=1,2,3, \cdots, n 标注,每个个体的得分表示为 X_{i}, c 是一个已知的断点。当 X_{i} \geq c 时, 个体接受处理,否则不接受处理。处理状态可以表示为 T_{i}=\mathbb{I}\left(X_{i} \geq c\right), 该形式为示性函数。因此, 知道 个体得分,就知道个体处理状态,即处理的概率是得分的函数。

但是满足处理条件并不意味着实际受到了处理。当处理条件与实际受到处理的情形一致时,我们称之为精确断点回归 (Sharp RD) 设计,否则称之为模糊断点回归 (Fuzzy RD)。图 1 描述了精确断点回归设计的处理规则,即在断点附近, 受到 处理的概率从零跳跃至 1 。

DID

DID 使用了面板数据,估计面板数据的最常用的模型是双向固定效应模型,对于面板模型的设定。在双向固定效应模型的基础上, 传统 DID 模型加入了处理组虛拟变量 (treat \left._{i}\right) 与处 理期虛拟变量 (post _{t} ) 的交乘项,模型设定如下:

y_{i, t}=\alpha+\mu_{i}+\lambda_{t}+\theta \text { treat }_{i} \times \text { post }_{t}+\beta \mathbf{x}_{\mathbf{i}, \mathrm{t}}+\epsilon_{i, t}(1) \\

其中, y_{i, t} 为因变量; i(i=1, \cdots, N) 表示个体; t(t=1, \cdots, T) 表示时间; \mu_{i} 表示个体固定效应; \lambda_{t} 表示时间固定效 应; \mathbf{x}_{\mathbf{i}, \mathrm{t}} 表示随时间和个体变化的控制变量; \beta 是控制变量的系数; \epsilon_{i, t} 为模型误差项。

treat _{i} 为处理组虛拟变量,若个体 i 属于受到政策冲击 (这里以估计政策实施效果为例进行说明) 的"处理组",则取值为 1; 若个体 i 属于未受到政策冲击的"控制组",取值为 0 。 post _{t} 为处理期虛拟变量,处理组的个体也只有到了处理期才会 受到政策冲击 (之前未受到冲击),若个体 i 进入处理期取值为 1 ; 否则, 取值为 0。

值得注意的是,模型中不需要加入处理组虛拟变量 \operatorname{treat}_{i}, 是因为模型中加入了个体固定效应 \mu_{i}, \mu_{i} 包含更多信息,是 控制了个体层面不随时间变化的特征, 而 treat _{i} 仅控制了组别层面不随时间变化的特征,若二者同时加入会产生多重共线 性问题。同样的,模型中也不需要加入处理期虛拟变量 post _{t}, 因为模型中加入了时间固定效应 \lambda_{t}, \lambda_{t} 包含更多的信息, 是控制了每一期的时间效应, 而 p o s t_{t} 仅控制了处理期前后的时间效应, 若二者同时加入会产生多重共线性问题.

参见连享会推文:

相关推文

Note:产生如下推文列表的 Stata 命令为:
. lianxh RD DID
. songbl RD DID
安装最新版 lianxh/ songbl 命令:
. ssc install lianxh, replace
. ssc install songbl, replace