did

许久以来,很多朋友都希望我出一期有关双重差分倾向得分匹配方法(PSM-DID)的内容,但我一直迟迟没有动笔。事实上,我个人并不喜欢这一方法,也并不推荐大家使用这一方法,因为PSM-DID压根就不是什么“灵丹妙药”,在应用中问题颇多。也许你在一些top期刊上经常看到PSM-DID的身影,但这并不意味着它就没有问题。

双重差分倾向得分匹配方法(PSM-DID)是倾向得分匹配(PSM)与双重差分法(DID)的有机结合(DID是主,PSM是次),但是这一结合事实上就是一段“孽缘”。我们的理想很美好,PSM模型负责寻找与处理组尽可能相似的控制组(根据倾向得分),DID模型负责评估政策带来的影响。

图片来源:谢申祥、范鹏飞和宛圆渊(2021)论文《传统PSM-DID 模型的改进与应用》

然而现实很残酷,PSM模型适用于截面数据,而DID适用于面板数据。二者适用的数据类型不同,如何在面板数据中应用PSM模型就成了PSM-DID模型无法回避的问题,为了解决这一问题,学者们一般有两种解决方案,一种是将面板数据当做横截面数据进行处理(混合匹配),另一种是在面板数据的每期截面上进行逐期匹配。事实上,这两种方案都并不完善,下面我将分别阐述它们在应用中所存在的问题。

混合匹配

混合匹配是将面板数据当做横截面数据进行处理,为处理组的每条观测值匹配一条控制组的观测值。接下来,我就使用石大千等(2018)发表在《中国工业经济》上的论文《智慧城市建设能否降低环境污染》使用的数据,给大家展示一下混合匹配的Stata操作以及混合匹配带来的问题。

原文信息
石大千,丁海,卫平,刘建江.智慧城市建设能否降低环境污染[J].中国工业经济,2018(06):117-135.

首先,我们需要产生随机数,对样本进行排序。为了保证结果可复现,我就设定种子值为20210415

set seed 20210415
gen tmp=runiform()
sort tmp

接下来,我们可以使用psmatch2命令(外部命令需要安装ssc install psmatch2, replace)进行倾向得分匹配,我选择的匹配方法是一对一近邻匹配。其中,du是处理组虚拟变量;$xlist是协变量(控制变量);选择项out()用来指定结果变量y,这里填入DID模型的被解释变量即可;选择项logit表示使用logit模型来估计倾向得分,默认方法是probit;选择项common表示仅对共同取值范围内个体进行匹配;选择项ate表示同时汇报ATE、ATU和ATT。

. psmatch2 du $xlist , out(lnrso) logit neighbor(1) common ate //近邻匹配

打开数据编辑窗口,我们会发现软件自动生成了几个新变量。其中_pscore是每个观测值对应的倾向得分;_treated表示某个对象是否处理组;_support表示观测对象是否在共同取值范围内;_weight是观测对象用于匹配的频率,如果_weight为空值,那就说明虽然你看上了对方(会有一个匹配对象),但是你并没有被对方看上(对方匹配上的不是你);_id是自动生成的每一个观测对象唯一的ID;_n1表示的是他被匹配到的对照对象的_id(如果是1:3匹配,还会生成_n2, _n3);_pdif表示一组匹配了的观察对象他们概率值的差。

最后,我们只需去掉匹配不成功的样本(即_weight为空值的样本),然后再用DID方法去进行估计就可以了。PSM-DID估计结果显示,交互项dudt的系数为-0.1781016,表明智慧城市建设显著降低了约17.81%的人均废气排放量。

. drop if _weight==.
(1,467 observations deleted)


. reghdfe lnrso dudt $xlist ,absorb(c year) vce(cluster c) //DID估计
(dropped 21 singleton observations)
(MWFE estimator converged in 7 iterations)

HDFE Linear regression                            Number of obs   =      1,207
Absorbing 2 HDFE groups                           F(   7,    218) =       2.12
Statistics robust to heteroskedasticity           Prob > F        =     0.0423
                                                  R-squared       =     0.8880
                                                  Adj R-squared   =     0.8608
                                                  Within R-sq.    =     0.0350
Number of clusters (c)       =        219         Root MSE        =     0.4147

                                    (Std. Err. adjusted for 219 clusters in c)
------------------------------------------------------------------------------
             |               Robust
       lnrso |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        dudt |  -.1781016   .0834432    -2.13   0.034    -.3425604   -.0136429
      lnrgdp |   2.101315   1.207922     1.74   0.083    -.2793847    4.482014
      lntgdp |  -.0910883   .0572348    -1.59   0.113    -.2038928    .0217162
      lninno |   .1235118   .0676161     1.83   0.069     -.009753    .2567767
       lnurb |   .1283764    .064476     1.99   0.048     .0013002    .2554525
      lnopen |   .0317352   .0459506     0.69   0.491    -.0588291    .1222995
        lnss |  -.1781226   .3485232    -0.51   0.610     -.865029    .5087837
       _cons |  -13.93434   6.665826    -2.09   0.038    -27.07205   -.7966249
------------------------------------------------------------------------------

Absorbed degrees of freedom:
-----------------------------------------------------+
 Absorbed FE | Categories  - Redundant  = Num. Coefs |
-------------+---------------------------------------|
           c |       219         219           0    *|
        year |        11           0          11     |
-----------------------------------------------------+
* = FE nested within cluster; treated as redundant for DoF computation

不过,这一估计结果并不可信,因为混合匹配存在“时间错配”的问题,即某一期的处理组观测对象,可能与不同期的控制组观测对象相匹配。例如,你会惊奇的发现,2006年的遵义市居然匹配上的是2014年的佳木斯市,时隔八年,还有什么可比性呢?这种“时间错配”现象在混合匹配中是一种常态,它带来的后果就是我们无法有效控制时间固定效应,从而使得DID估计产生偏差。

. list c year city prov _treated _id _n1 if _id==379|_id==1915

      +------------------------------------------------------------+
      |   c   year       city       prov    _treated    _id    _n1 |
      |------------------------------------------------------------|
   1. |  61   2014   佳木斯市   黑龙江省   Untreated    379   1915 |
1220. | 242   2006     遵义市     贵州省     Treated   1915    379 |
      +------------------------------------------------------------+

很多中文论文在使用PSM-DID方法时,对于匹配的细节都“缄口不言”,加之又没有要求公布数据和代码,所以我们并不知道哪些中文文献使用了这种“糟糕的”匹配方案,但我估计应该不在少数。我们不能说混合方案就是错的,毕竟也算是一种匹配的“野路子”,但我还是建议大家不要使用混合匹配!

逐期匹配

逐期匹配是在面板数据的每期截面上都进行一次匹配。逐期匹配能够较好地解决“时间错配”问题,但这种匹配方案也存在缺陷——对照组的不稳定性(逐期匹配不能为DID模型筛选到稳定的对照组,处理组个体i在每期的匹配对象可能均不相同,混合匹配当然也存在这一问题)。对于同一个处理组个体,其对照对象如果在政策时点前后发生较大改变,将会导致个体固定效应的估计出现偏差,进而影响到DID模型的稳定性。除此之外,逐期匹配存在着其他问题,大家有兴趣可以去阅读《传统PSM-DID模型的改进与应用》这篇论文。

参考资料(推荐阅读)
谢申祥,范鹏飞,宛圆渊.传统PSM-DID模型的改进与应用[J].统计研究,2021,38(02):146-160.

相比混合匹配,逐期匹配算是一种差强人意的解决方案,也是top期刊论文使用较多的匹配方案。逐期匹配的Stata操作其实也很简单,首先分年份进行匹配,然后保存每一年的匹配结果,最后合并各个年份的匹配结果就好(借用循环很方便)!

forvalues i = 2005/2015{
 use smart_city2018.dta,clear
 keep if year==`i'
 set seed 20210415
 gen tmp=runiform()
 sort tmp
 psmatch2 du $xlist , out(lnrso) logit neighbor(1) common ate
 drop if _weight==.
 save psmdid_`i',replace
}

use psmdid_2005,clear
forvalues i = 2006/2015{
 append using psmdid_`i'
}

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注