政策评估中的DID设计：起源、演进与最新进展论文

政策评估中的DID设计：起源、演进与最新进展

李文钊

（中国人民大学公共管理学院，北京 100872）

【摘要】双重差分设计作为计量经济学的一种重要方法，被广泛应用于各项经济政策、卫生政策和环境政策等效果评估之中，并取得了较好成果。国内学术界对其内在逻辑、核心假设和最新进展还缺乏系统性回顾与评价，这有可能使得该方法被忽略或误用。本研究试图从因果推理的潜在结果模型出发，回顾该设计的起源和传统，对经典DID设计的核心思想进行表格、图形和模型表述。与此同时，对现有DID设计的不同扩展形式进行了阐述，进一步指出当前DID设计的最新进展是围绕着放宽假设的技术路径和讨论新问题的政策路径展开，前者更多是模型取向研究，后者更多是设计取向研究。对DID设计在中国应用情况进行了总体描述，重点讨论了主要的政策应用领域，并指出公共政策学者应该重视基于因果推理的政策评估。

【关键词】政策评估；DID设计；双重差分；三重差分；技术路径；政策路径

因果推理的可信革命正在发生，经济学研究的“经验转向”越来越明显，基于设计的计量经济学正在成为基于模型的计量经济学的有力竞争者（Angrist&Pischke，2010；Angrist&Pischke，2017；Angrist et.al.，2017）。设计取向的计量经济学使得经济学开始重新审视实验与准实验设计，并用潜在结果模型作为因果推理的统一框架，以连接观察研究和实验研究（Rubin，1974；2005；Rosenbaum，2018；李文钊，2018）。设计和经验的双重转向为政策评估的研究提供了新的可能性，这也使得项目和政策评估的计量经济学成为一个新的研究领域（Imbens&Wooldridge，2009）。这意味着，政策评估、因果推理与计量经济学三者之间联系更为紧密。尽管随机实验是因果推理和政策评估的“黄金法则”，但是现实中的政策干预并非遵循随机实验逻辑，这促进经济学者研究寻找替代方案。双重差分设计（Difference-in-Differences，简称DID）被称之为准实验研究中三种最重要的设计之一^①（Angrist&Pischke，2010：12）。

试验第71 d到80 d，采用全收粪法分别收集每头牛每天排泄的全部粪便，混匀后称重，按2%的比例取样[16]，试验结束后，以牛为单位混匀10 d全部粪样，制备风干粪样，测定粪样中干物质、有机物质、粗蛋白质、中性洗涤纤维和酸性洗涤纤维的含量。

双重差分设计作为计量经济学的一种重要方法，被广泛应用于各项经济政策、卫生政策等效果评估之中，并取得了较好效果（Bertrand，Duflo&Mullainathan，2004；Lechner，2011；Dimick&Ryan，2014）。为了使得政策评估更具有科学性，更好地为政策实践提供有用知识，改进公共政策质量，政策评估研究需要实现因果推理转向，加入因果推理可信革命的研究行列，将随机实验和DID等准实验设计引入政策效果评估中，建构基于因果推理的政策评估体系，实现知识和影响的双重跨越。本文结合DID中的政策评估经典案例，重点从政策评估视角来讨论DID设计，研究政策评估、因果推理和DID设计之间关系，回顾DID设计的起源，系统阐述经典DID设计的理论、模型和核心假设，讨论经典DID设计的不同变体，并对DID设计对政策干预时间差异性的最新研究进行分析，指出它对中国政策评估研究和实践的重要启示和借鉴意义。

一、政策评估、因果推理与DID设计的起源

最早将政策评估与因果推理联系起来，并寻找解决政策评估效度问题的学者应该是唐纳德·坎贝尔，他和他的研究团队系统地提出了基于因果推理的政策评估实验和准实验研究设计思路（Campbell&Stanley，1963；Campbell，1969；1979；Shadish，Cook&Campbell，2002）。在坎贝尔看来，政策评估是实验社会的重要组成部分之一，甚至是实验社会的关键环节，他指出：“美国和其他现代国家应该为社会改革的实验途径作好准备，这一途径意味着我们要试验新的项目来解决问题，我们学习这一项目是否有效，我们在多样性的不完美的标准之下基于项目的明显有效性来保留、模仿、修改和抛弃他们。”（Campbell，1969：409）。由此可见，实验社会需要试验新的方法、评估效果和根据效果采取新的决策，在这三个阶段中，寻找探究项目和政策效果的方法显得尤其重要。

坎贝尔将他的大部分学术生涯投入到对政策评估的方法设计之中，他称之为实验社会的方法（Campbell，1991）。坎贝尔的贡献对项目评估学科产生了重要影响，他们的理论和方法成为项目评估的重要研究路径之一（Shadish，Cook&Leviton，1991）。而他关于实验设计与准实验设计，30多年后才对经济学产生影响，经济学者重新思考其设计思路对于经济学方法革命的意蕴（Angrist&Pischke，2010）。间断时间序列设计（Interrupted time series design，ITS）和断点回归设计(RDD)是坎贝尔对准实验设计的重要贡献，这些设计后来被经济学家“重新发现”，其中间断时间序列设计是以DID设计的形式展现，而断点回归设计则延用了坎贝尔最初对该设计的命名。DID设计除了借鉴间断时间序列设计的思路之外，对照组前后设计是其主要思想来源，其核心是强调既有对照组，又有前后测量，而这些正是坎贝尔对于有对照组前后测量设计和间断时间序列设计讨论的主要内容，他们构成了DID设计的早期起源（Shadish，Cook&Campbell，2002）。坎贝尔等实验和准实验设计学者特别强调使用符号来展示设计，其中X代表一个组暴露于实验变量或事件之中，O代表观察或测量过程（Campbell，1957）。于是，有对照组的前后测量设计和间断时间序列设计的符号表述如表达：

经济学者对于政策评估的重视主要是因为他们对因果推理的关注，政策作为一种“干预”，成为讨论因果推理的叙事载体，这也使得政策评估天然成为因果推理的“实验场”，并发展成为一个新的计量经济学研究领域（Imbens&Wooldridge，2009）。这意味着，政策作为一种“干预”，与药物作为一种“干预”一样，都是“干预”的不同表现形式。每一种“干预”都需要讨论其“效果”，“干预效果”（Treatment effect）成为政策、医药、教育等各个领域的共同关注点。简而言之，因果推理成为这些不同“干预”的统一框架，正是因为这一原因，使得因果推理成为统计学、经济学、公共政策学、生物医学等不同学科共同关注的话题，因果推理也使得跨学科研究成为可能（Imbens&Rubin，2015）。经济学者通常会将DID设计最早归于英国麻醉学家、流行病学家约翰·斯诺（Snow，1885）有关霍乱到底是由于空气原因，还是自来水原因引起。他很巧妙地应用两个邻近的水厂进行对比，一个水厂改变取水来源，使用更清洁的水，另一个水厂维持不变，由于这两个水厂位置邻近，这使得疾病差异是由于水的清洁程度引起。斯诺的研究，对于公共卫生学者产生了较大影响，也是首次使用DID设计的尝试。迈克尔·莱希勒（Lechner，2011）对经济学者使用DID设计的历史进行了回答，并重点指出了DID设计在政策评估中的应用，如最低工资对就业的影响、失业人员培训项目对劳动力市场影响、移民对地方劳动力市场的影响等。

表1 有对照组前后测量设计和间断时间序列设计

对于政策评估与因果推理之间内在关系，赫克曼有明确和系统阐述（Heckman，2005）。在他看来，政策评估的核心问题包括三个：问题1：评估历史上的干预（Historical Intervention）对结果的影响，以及这一影响在福利方面的表现；问题2：预测一个环境之下执行的干预在其他环境之下的影响（建构反事实），以及这一影响在福利方面的表现；问题3：预测历史上从来没有实施的干预对于其他环境的影响（建构与干预有关的反事实），以及这一影响在福利方面的表现（Heckman，2005：7-9）。显然，这三个评估问题都是因果推理的不同表现方式，第一个问题是对已经发生事件的因果关系进行推理，第二个问题是因果推理中的外部效度问题，而第三个问题则是因果预测。

通过公式1，可以看出它与潜在结果模型对因果定义存在偏差，它要求对同一对象同时接受干预或不接受干预的值进行比较，很显然Q=1时，我们只能够观察到的Y¹₃，不能够观察到它没有接受干预时的值。目前的估计是使用干预组前测和对照组前后测量的值来估计干预组在没有接受干预时的测量值。要真正计算干预对于干预组在t=3时刻的干预效果，就需要引入潜在结果。如果引入潜在结果，我们可以形成公式2：

二、经典DID设计的理论、模型与核心假设

经典DID设计是对前后设计（Before-After Design）的扩展，它强调增加一组对照组的前后差异，比较干预组的前后差异和对照组的前后差异之间差异，形成了准实验设计中有对照组的前后测量设计（Lee，2016；Shadish，Cook&Campbell，2002）。增加对照组的目的，主要是为了消除干预组在接受干预前后其他影响的影响。简而言之，混淆变量同时在干预组和对照组发挥作用，这使得其净效应能够通过干预组前后差异和对照组前后差异之间差异以消除。由于这是对两种差异的比较，DID设计又被称之为“双重差分”（double difference）。因此，经典DID设计，必须包含干预前和干预后两个时间点，以及干预组和对照组两个组别，这样形成四个可观察变量。周黎安和陈烨（2005）结合农村税费改革分区试点的做法，利用DID设计，使用安徽、江苏、山东、福建、河北、河南和湖南7个省全部县和县级市（共591个）1999年至2002年的相关社会经济数据对税费改革的政策效果进行了评估，他们发现税费改革使农民纯收入平均而言提高约1.3至1.5个百分点，对样本期间农民纯收入增长的贡献高达45%左右，而且该影响至少持续一年以上。在他们的研究中，税费改革构成了干预，安徽省的一些县最开始试点，随后推广到其他省市，有一些省的县始终没有试点税费改革，这些县可以作为对照组。

（一）基于潜在结果模型的DID设计

对于经典DID设计，我们可以用潜在结果模型来展现其内在逻辑，并对其双重差分进行识别（Imbens&Rubin，2015；李文钊，2018；Lee，2016）。DID设计中包含四个组别，可以分别用Q_i来指称被干预，它是一个虚拟变量，由0和1构成，0代表不被干预，1代表被干预。S_i用来指称时间的虚拟变量，当t=2时，S_i=0，当t=3时，S_i=1。W_i代表分组变量，（Q，W₂，Y₂）表示当S_i=0时被观察的值，而（Q，W₃，Y₃）表示当S_i=1时被观察的值。于是，根据DID的定义，干预效果的双重差分可以表达为如下公式1：

在进行政策评估时，要在政策与干预之间建立因果联系和实现因果推理，随机实验是黄金法则。正是因为这一原因，越来越多的政策干预引入随机实验模式，如比较有名的兰德实验（RAND experiment）（Aron-Dine，Einav&Finkelstein，2013）。不过，很多时候，随机实验并不能够实现，这使得越来越多的学者开始探索准实验设计，在干预已经实现的情况之下，通过研究设计来更好地评估干预效果。其中，DID设计作为一种准实验设计，它只需要寻找与实验组具有“平行趋势”的对照组，由于简单易行和成本较低目前被广泛使用（Bertrand，Duflo&Mullainathan，2004）。这意味着，经济学者对有对照组前后测量设计和间断时间序列设计进行了理论化和模型化，使之成为经济学中探讨因果推理的一种重要设计。

在公式9中，Sit表示当t=1,……T时，Sit=1，这是对干预后的时间表示，它对公式6中的代表干预时间虚拟变量S进行了细分，将干预后的所有时间序列进行平均分配，进而使得这些干预后的时间效应能够得到控制，从而更好地估计干预效果。公式9意味着，干预后的时序序列数据，分别由两部分因素构成，一部分是时间因素，一部分是干预效果，通过控制时间因素而使得干预效果更加真实。

坎奇安和莱文森（Cancian and Levinson，2006）利用三重差分设计讨论了所得税抵扣对劳动力供给的影响，主要是评估威斯康星州针对有三个孩子的单身母亲家庭所得税抵扣优惠对失业率的效果。为此，他们区分了三种政策效果的差异性来源：（1）威斯康星州拥有两个孩子的单身母亲和三个孩子的单身母亲在劳动力供给的差异；（2）威斯康星州拥有三个孩子的单身母亲和其他州没有所得税抵扣优惠的三个孩子单身母亲的劳动力供给差异；（3）威斯康星州拥有三个孩子的单身母亲在政府干预前后之间差异，他们的研究显示，所得税抵扣对于劳动力供给没有影响。范子英和彭飞（2017）利用三重差分设计对中国“营改增”政策的减税效应和分工效应进行了研究，他们通过增加产业互联的角度，比较“营改增”的减税效应，发现在产业关联度不高以及上游企业不是增值税纳税企业时，“营改增”并没有很好的减税效应。

对两个输出变量预测的5种模型的性能指标对比如表2和表3所示。从这2个表中可以看出，基于PCA降维模型的R2比无PCA降维模型有明显的提高，MSE有明显的下降。从表2可以看出，对于CODeff的预测模型，PCA-ANN模型的R2(0.984)最大，MSE(1.892)最小。从表3可以看出，对于SSeff的预测模型，PCA-ANN模型的R2(0.762)最大，MSE最小；PLS模型的R2(0.228)最小，MSE最大。对于出水两种指标的预测，线性PLS方法的预测精度最低。

通过潜在结果模型的重新表述，我们可以将DID设计的核心逻辑总结为公式4和公式5。公式4是用潜在结果模型来定义DID，而公式5则是公式2得以成立的条件，它要求时间不会对干预组和对照组产生影响，这也是所谓的“时间固定效应”：

（二）DID设计的表述方式

一般而言，DID设计可以有三种表述方式，即表格、图形和模型。表格和图形的优点是比较直接，并且易于理解，而模型的优点则是可以进行参数估计。用表格来展现DID设计，通常会使用2*2的表格，行来表示干预组和对照组，列表示干预前后，通过对干预组前后差异与对照组前后差异的比较，来计算最终效果。Richardson和Troost（Richardson&Troost，2009）利用美国1929年至1939年期间的大危机时期不同区域的货币政策，通过DID设计估计了中央银行干预对于银行业的影响，他们的研究表明干预可以起到保护银行的作用，这使得第6区的银行倒闭数量与第8区相比，减少19家（见表2）。

为了防止施工过程中破坏井口，首先在调压井口沿开挖边线修筑宽0.5 m、高0.5 m的混凝土锁口，再采用0.3 m3小型挖掘机配合人工从地面自上而下分层进行土方开挖，开挖土料通过导井倒入下部隧洞开挖掌子面，再通过扒渣机配合农用车通过开挖完成的隧洞运输至洞外弃渣场。井壁周边至导井口应有适当坡度，便于扒渣。调压井施工示意图见图2。

表2 货币政策对于银行业的影响

图形是DID设计的第二种表述方式，与表格相比，它可以更直观地展现干预效果，并且对DID设计的核心假设也有较好的呈现（见图1）。从图1可以看出，DID设计可以在横轴中用时间来描述，t₁和t₂分别为干预前后的时间点，在纵轴中展示结果，两条线分别为对照组和干预组，其中对照组为实线，表示一直没有受到干预，干预组中有一部分虚线，表示接受干预使得趋势发生变化。根据潜在结果模型，干预效果应该是同一时间点接受干预和不接受干预的差值，这是图1中用大括弧表示的效果差异。很显然，在现实中，我们只能够观察一种结果，要么接受干预，要么接受控制，这就需要对干预效果进行估计。在干预组和对照组遵循“平行趋势”的假设之下，很容易通过等值互换，而得出干预效果为干预组前后差异与对照组前后差异之间的差异，也即干预组和对照组的双重差异。

图1 DID设计的干预效果

来源：作者自制

表格属于非参数估计的范畴，这对只涉及4组数据时可以实现，而一旦增加更多的前后观测数据，就需要使用参数进行估计。模型是DID设计的第三种呈现方式，这一模型至少包含四组变量，即代表干预状态的虚拟变量Q，代表时间状态的虚拟变量S，代表双重差异的交互变量QS，代表组别其他需要控制变量W（见公式6）。也有学者直接用TREAT表示干预，用POST表示时间，d表示组别变量，t表示时间变量，对于其他需要控制的变量忽略，形成一个简单的干预效果（见公式7）。

对于DID设计的模型而言，DID设计的表格呈现只是模型的一个特例，即模型只有4组数据的结果。我们可以重新使用公式6对DID设计的表格内容进行呈现，这里Q和S分别取值1和0，Q=1表示干预，Q=0表示控制，S=1表示干预组，S=0表示对照组，形成模型和表格的结合形态（见表3）。

表3 使用模型和表格来呈现DID设计

“草地的四周有高墙围着，第一块花木区过去是草地滚木球场，过了滚木球场时一条长长的阶径，再过去是铁栅栏，越过栅栏可以看到毗邻的荒地上的树梢。”[3]在1813年一月底写给卡桑德拉的一封信中，奥斯汀说：“如果你发现北安普敦郡是否是四处灌木树篱的乡村，我就会高兴了”(29 January 1813)。此时她已经着手写作曼斯菲尔德庄园有一段时间了，小说的场景就是在北安普敦郡。伍尔夫（Virginia Woolf）认为，由于奥斯汀对“真实性”的严苛，“当她发现树篱在北安普敦郡并不生长，她就删掉，也不冒险捏造不可能存在的东西”。[4]达克沃斯（Duckworth）也同意这一说法。[5]

（三）DID设计的核心假设

对于DID设计的核心假设，尽管不同学者有不同总结，“平行趋势”假设或“共同趋势”假设是最基本的假设之一，也是DID的核心假设。迈克尔·莱希勒（Lechner，2011）对将其概括为稳定单位干预价值假设（Stable Unit Treatment Value assumption，SUTVA）、外部性假设（exogeneity，EXOG）、干预对干预前群体不发挥作用假设（no effect on the pre-treatment population，NEPT）、共同趋势假设（common trend，CT）、偏差稳定假设（bias stability，BS）、共同支持假设（common support assumption，COSU）。SUTVA这一假设是鲁宾提出，他认为潜在结果模型的核心假设是SUTVA，并指出这一假设的含义是：“SUTVA是一个简单的先验假设，它强调无论分配干预t到单位u的机制是什么，以及无论其他单位接受什么样的干预，单位u受到干预t的影响而形成的价值Y总是相同的。”（Rubin，1986：961）。EXOG假设强调干预不会对混淆变量产生影响，混淆变量与干预变量之间不具有内生关系，这也是回归的基本要求，如霍桑实验就是干预对混淆变量产生了影响。NEPT假设强调干预不会对干预前的结果产生影响，这与EXOG假设很相似，它只是强调因为预期接受干预而对干预前结果产生影响。CT假设前面已经讨论，它们强调干预组和对照组拥有相对的趋势，干预组不接受干预时会遵循对照组的运行趋势，而对照组接受干预时则会遵循干预组的逻辑。BS假设强调干预组和对照组在接受干预之前的偏差会在没有接受干预时继续得以保留，这意味着时间不会对两组产生影响，很显然CT假设和BS假设是相同的假设。由此可见，BS假设和CT假设都需要发现“反事实”，即干预组在没有接受干预时的结果，并且假定这个结果与干预前的结果之差能够与现有可观察的对照组前后差异值相等。COSU假设强调在所有的四组数据中，都包含着共同的控制变量。

郑新业等学者（郑新业，王晗，赵益卓，2011）以河南省数据为例，利用DID设计对省管县是否促进了经济增长这一问题进行了研究。他们研究发现在分离了其他因素对经济增长的影响之后，“省直管县”政策提高了被直管县的经济增长率1.3个百分点，并且认为经济增长是由经济分权而非财政分权影响，而经济分权的结果主要是因为周边企业向试点县迁移产生的结果。在这项研究中，他们使用了经典的DID模型，并形成了参数估计。

三、DID设计的扩展：时间效应、组别效应和三重差分

经典的DID设计只包括前后两个时间段，对于DID设计的扩展是增加更多的前后时间段。这样，DID设计就与比较间断时间序列相似，都既包含着对照组，又包含着更多的干预前和干预后数据（Clair，Cook&Hallberg，2014）。例如，讨论“醉驾入刑”对于减少交通事故的影响，可以收集采纳这一法律的州和没有采纳这一法律的州在政策出台前后的交通事故率，从而更好地估算该项政策的效果。对于增加更多前后时间的序列数据，可以使用公式6和公式7来计算，这意味着它所将所有数据都转换为四种类型，干预组在接受干预前后的数据，以及对照组没有接受干预前后的数据。

（一）考虑时间效应的DID设计扩展

除了对时间效应和组别效应进行控制之外，很多学者开始尝试对三个变量之间差异进行分析，形成了DID设计的另一种变体即三重差分（Difference in differences in differences,DDD）。这一设计认为通过增加额外的差异来源，可以更好地估计政策和项目的效果。一般而言，三重差分通常会增加一个新的对照组来形成与干预组的差异来源，这样来增加对比的效果。克莱尔和库克（Clair&Cook，2015）提出了一个分析三重差分的简单模型，这一模型通过增加新的差异来源，而使得干预效果更加精细，其中β7就是政策或项目干预的三重差分效果（见公式14）。

为了解决DID设计中包含更多的时间序列数据可能导致的混淆现象，学者们通常将经典DID设计的平行趋势等假设应用于时间序列数据分析中，认为干预组和对照组在此后的时间序列中仍然会满足模型的“识别”条件，于是混淆现象的问题就不是根本性问题。与此同时，他们将时间因素从混淆变量中分离出来，对经典DID设计进行扩展，对时间效应进行控制。于是，形成了控制时间效应的新的DID模型估计，见公式8和9。

2)由于夹芯层较软，忽略夹芯层中平行于xoy平面的应力分量，即假设夹芯层的σx=σy=τxy=0 MPa；

在对企业的内控目标加以明确的同时，还需要明确企业中内控目标的具体内容。企业的管理层为了完善内控激励机制，就需要结合一定的责权，并且还应该考核各个部门的业绩，最终将考核的结果和员工的奖金以及工资挂钩，对于激励机制中的相关规定，应该严格遵守，并且还应该不断激发员工工作的积极性，引导员工将工作潜力充分的发挥出来。

DID设计有时候除了控制时间因素之外，还会考虑时间变化情况之下的干预效应。于是，计算干预在不同时间的效果，这构成了对DID设计的另一种扩展。对于这种扩展，一般而言是在公式8和公式9后面增加更多的干预后时间与干预之间交互项，它意味着当干预发生在后一年时，该年取值1，而所有非该年的取值0，如此类推对所有干预发生后的年份赋值（见公式10和11）。

这两种技术在使用的时候都像巧妙的剪刀一样，在目标编码位点上剪开植物DNA的双螺旋。剪切后的DNA会自我愈合。此时，断裂处的基因或被删除或被扰乱，从而有效“关闭”目标基因的表达。

伊萨和利布曼（Eissa&Liebman，1996）在讨论所得税抵扣（earned income tax credit，EITC）对拥有孩子的单身女性参与劳动力市场和工作时间的影响中，除了使用DID设计讨论1986年美国税收改革前后的影响之外，还进一步分析了这种改革对后续时间的影响。他们使用1984年至1986年数据和1988年至1990年数据，研究结果表明EITC改革使得拥有孩子的女性就业论增加2.8%个百分比，对于劳动时间没有影响，这也说明税收改革取得了预期效果。而通过进一步引入1988年、1989年和1999年的虚拟变量，这有利于考察政策干预的时间效应，EITC对于劳动力市场的影响分别是0.008、0.0029和0.0028。

（二）考虑时间效应和组别效应的DID设计扩展

对经典DID设计的第三种扩展是增加更多的对照组和控制组，即使用面板数据来进行DID设计。同时，面板数据中也可以包含更多前后时间序列数据，这样更复杂的面板数据就可以同时控制时间效应和组别效应。从模型的角度看，使用基于面板数据的DID设计，就需要在基本的方程中分别增加组别效应和时间效应的回归。公式11和公式12分别讨论了只有两个时间段和多个时间段的方程，前者不需要控制时间效应，只需要控制组别效应，后者同时需要控制时间效应和组别效应。

对于公式12而言，当只有两期和多组数据时，这意味着不需要控制时间效应，只需要控制组别效应。而公式13则除了包含多组数据之外，还包括多个时间的数据，同时控制了时间效应和组别效应。无论是公式12还是13，他们的干预效果均为β_d+β^'_dg。科钦和格兰特（Kotchen&Grant，2011）利用面板数据讨论了夏时令（Daylight Saving Time，DST）对节约能源的影响。他们在没有控制分组效应时，得出实行夏时令可以节约能源约2%，而通过使用2004—2006年的面板数据，控制州内各县差异时，发现节约能源的比率下降到1%。此外，他们还发现由于制热和制冷效应，实现夏时令并没有起到节约能源的作用。

With the effective mass approximation, the time-independent one-dimensional Schrödinger equation of an electron in MQWs in the z direction can be written as

安格里斯特和皮斯克（Angrist&Pischke,2015）在讨论基于面板数据的DID设计时，就引用了卡彭特和多布金（Carpenter&Dobkin，2011）有关最低饮酒法定年龄（Minimum Legal Drinking Age，MLDA）效果评估的案例，该案例使用了14年和51个州714个观察点，形成了“州—年”的面板数据结构。为了简化干预效果，他们使用了法律允许18岁至20岁饮酒年龄作为交互项，如果一个州的饮酒年龄是19岁，则意味着大概2/3的人被允许饮酒。他们使用了公式13来控制州和时间效应，并计算饮酒年龄限制对于死亡率的影响，结果显示降低饮酒年龄会导致每10万人死亡上升11个左右。

（三）考虑三重差异的DID设计扩展

一旦对经典DID设计进行扩展，包含更多的时间序列数据，这可能会对DID设计中的核心假设构成了挑战。一般而言，潜在结果模型主要是针对两个时间点的数据进行分析，而包含更多时间数据这使得潜在结构模型的核心假设面临很多困难，这尤其体现在如何控制除了干预变量之外的混淆变量，因为时间序列使得更多因素不具有可控性。在不同时期，可能发生不同的历史事件，有可能是这些历史事件是结果的原因。例如，一个针对失业人员培训的项目，经过两年之后，可能正好遇到经济危机使得整个社会的失业率上升，或者遇到技术升级与变革，这些因素都可能使得接受培训或者不接受培训差异性不大，接受培训的人员很有可能和不接受培训的人员一样找不到工作，外部因素使得干预失效。

老虎山河流域坡地占总体面积的84.3%，河谷平原只占15.7%。其特点是土壤松散、植被覆盖差，雨季河水涨落急剧，水土流失严重。

于是，DID设计满足潜在结果模型的条件就是后面四组数据之和为零，这意味着DID设计的识别条件是公式3。这一公式也就是通常所说的“平行趋势”假设，它强调假设干预组没有接受干预时，它的趋势是与现有对照组的趋势是一致的，或者说干预不会对不同时间的干预组和对照组的趋势产生影响。

随着经济的发展，新的媒体形式层出不穷，加上人们对电视台的要求越来越高，给电视台带来巨大的冲击和挑战。电视台要想在激烈的市场竞争中获得生存和发展，就必须提高电视台的节目和服务质量，而电视台编辑记者的专业素质直接影响着电视台节目质量。

四、DID设计的前沿进展：技术路径与政策路径

当前，越来越多的学者开始投入对DID设计的理论研究，这一研究围绕着技术路径和政策路径两方面展开。技术路径是探讨放宽DID经典假设的解决策略，如当平行趋势假设不能够满足时，如何对干预效果进行估计（Athey&Imbens，2018；Strezhnev，2018）。政策路径是探究新的DID设计，以解决政策评估中新问题，最典型的是如何处理政策干预时间差异的因果效应问题（Callaway&Sant'Anna，2018）。当然，两个路径之间存在紧密联系，技术路径最终是为了解决现实中效果评估问题，而政策路径则最终需要通过技术路径来实现。这里区分技术路径和政策路径，主要是强调DID设计研究进展要解决的问题是否是新的问题，技术路径一般是老问题，而政策路径则是全新的问题。

DID设计的技术路径更多是对基于面板数据的DID设计中“双向固定”效应（Two way fixed effects）假设不能够满足时，如何寻找替代性的模型识别策略，这事实上是探讨当经典DID设计的假设不能够满足时如何更好地估计干预效果。阿尔佩托·阿巴迪（Abadie，2005）提出了在平行趋势假设不成立的情况时，可以建构一个两步策略（Two-step Strategy）来估计干预组和对照组之间的效果差异。谢兹马丹等学者（Chaisemartin&D’Haultf?uille，2017）针对干预组中干预对象不断增加的现实，他们对提出了模糊性DID设计（Fuzzy DID）。斯特列什涅夫（Strezhnev，2018）则进一步对阿马迪的方法进行了扩展，通过选择半参数逆反函数倾向值权衡的方法来解决平行趋势假设问题。亚伯拉罕和孙（Abraham&Sun，2018）讨论了当干预效果是异质性时，如何寻找新的识别策略。

DID设计的政策路径则是回答政策评估中面临的新问题，即当政策干预发生的时间存在差异性时，如何估计政策干预效果（Callaway&Sant'Anna，2018；Goodman-Bacon，2018）。古德曼·培根（Goodman-Bacon，2018）讨论了当政策干预发生在不同时间时，基于面板数据的DID设计是如何估计干预效果的。为此，他提出了一个“双重差分分解定理”（the Difference-in-Differences Decompositions Theorem），认为基于双向固定效应的DID估计是对所有可能的2*2估计的加权平均。例如，当一个政策干预发生在两个时期，这样会形成三组数据，一组是在前期实施干预（G_k），另一组是在后期实施干预（G_l），还有一组一直没有实施干预（G_u）。这样，根据经典的DID设计，可以形成四组（2*2）干预组和对照组对比值：（1）第一期接受干预的干预组与一直没有接受干预的对照组进行DID估计；（2）后期接受干预的干预组与一直没有接受干预的对照组进行DID估计；（3）在后期干预组没有接受干预前，它可以与前期接受干预的干预组进行DID估计；（4）后期干预组接受干预之后，可以与前期干预组接受干预之后的状态进行DID估计。通过这些内容的分解，古德曼·培根指出了面板数据DID估计产生偏差的原因，并且提出了替代性的模型和识别策略，复制了单方面离婚与女性自杀率关系的研究，讨论了分离定理在实证研究中的应用。卡拉韦和桑特安娜（Callaway&Sant'Anna，2018）则提供了另一套处理多时间序列数据和多时段干预的识别策略，他们认为可能通过简单的两步估计策略来处理这一问题，以最低工资对青少年雇佣影响为例，讨论了他们方法的实际应用，并提供了软件操作步骤。

五、DID设计在中国政策情景中的应用空间

在介绍和应用DID设计中，国内经济学者走在前列，从2005年周黎安和陈烨首次用DID设计评估农村税费改革的政策效果开始，DID研究论文开始呈现“井喷”趋势，仅2018年以“双重差分”和“倍差法”为摘要的期刊论文便达到318篇和69篇，并且已经有多篇DID的文献综述论文（见图2）（周黎安，陈烨，2005；陈林，伍海军，2015；胡日东，林明裕，2018）。不过，这一研究设计还没有受到国内外公共管理和公共政策学者关注，只有少数学者使用DID设计对公共管理和政策评估问题进行研究，主流期刊类似研究论文发表不多。

图2 国内社会科学中应用DID设计的论文数量

来源：中国知网（CNKI）检索，分别将“双重差分”和“倍差”作为“摘要”进行检索

从已经发表的论文看，政策效果评估是DID设计应用的一个主要场景。考虑篇幅限制，这里仅列举一些发表在重要期刊的政策评估论文。目前，DID设计已经被应用于如下政策领域的评估：废止收容遣送制度的经济影响（王智波，韩希，2018）、河长制的政策效应（沈坤荣，金刚，2018）、《劳动合同法》的实施对农民工福利水平的影响（杜鹏程,徐舒，吴明琴，2018）、省管县政策的效果评估（丁肇启，萧鸣政，2017；郑新业，王晗，赵益卓，2011）、个人所得税减免对劳动力供给影响（叶菁菁，吴燕，陈方豪，王宇晴，2017）、居民阶梯电价政策的技术创新诱导效应（罗传建，刘章生，2017）、“营改增”政策的效果评估（范子英，彭飞，2017）、财政压力的产业影响评估（陈晓光，2016）、环境补贴政策的污染治理效果（石光，周黎安，郑世林，张友国，2016）、农村税费改革的政策效果评估（周黎安，陈烨，2005）等。可见，DID设计已经广泛应用于中国的经济政策、环境政策、民生社会等不同政策领域的效果评估，这些评估对于科学衡量政策效果，进一步改进政策质量具有较好的价值和意义。

与此同时，实践对于政策评估的需求越来越强烈，政策评估成为决定政策命运、提升政策质量、优化政策选择的重要工具。国务院多次引入第三方评估，开展对“营改增”政策、自由贸易区政策等进行效果评估，这对新政策的全面推广提供了经验支撑。可以预期，随着公共政策对社会干预的广度和范围增大，对于科学的政策评估，尤其是基于因果推理的政策评估的需求会增多，甚至政策评估会成为整个政策循环的组成部分之一。事实上，世界银行等组织也开始推广定量的政策评估方法，帮助各国改进治理和政策水平（Khandker，Koolwal，Samad，2009）。很显然，DID设计是政策评估方法中重要工具，它遵循自然实验的逻辑，其应用存在广泛的空间。

与实践对政策评估的需求和DID设计被经济学者广泛用于研究中相比，公共管理与公共政策学者在使用DID设计用于研究刚刚起步，对其理念、设计、模型和方法还不熟悉，更谈不上广泛应用。这既是挑战，也是机遇。一旦公共政策研究者掌握了这种方法，就可以有意识地将DID设计与政策效果评估联系在一起，更为科学地评估政策效应，使得公共政策的“科学性”得以提升，以更好地实现拉斯韦尔倡导政策科学以改善人类福祉的使命。事实上，科学政策评估是政策分析的应有之义，也是推进中国公共政策科学化的重要组成环节。这也正是本文的初衷和意义所在。

注释：

①另外两种分别为工具变量设计（Instrumental Variables Design，简称IV）和断点回归设计（Regression Discontinuity Design，简称RDD）.

参考文献：

［1］Athey，S.，&Imbens，G.W.（2018）.Design-based analysis in difference-in-differences settings with staggered adoption （No.w24963）.National Bureau of Economic Research.

［2］Angrist，J.D.，& Pischke，J.S.（2010）.Thecredibility revolution in empirical economics：How better research design is taking the con out of econometrics.Journal of economic perspectives，24（2），3-30.

［3］Angrist，J.D.，&Pischke，J.S.（2017）.Undergraduate econometrics instruction：through our classes，darkly.Journal of Economic Perspectives，31（2），125-44.

［4］Angrist，J.，Azoulay，P.，Ellison，G.，Hill，R.，&Lu，S.F.（2017）.Economic research evolves：Fieldsand styles.American Economic Review，107（5），293-97.

［5］Abadie，A.（2005）.Semiparametric difference-indifferences estimators.The Review of Economic Studies，72（1），1-19.

［6］Abraham，S.，& Sun，L.（2018）.Estimating dynamic treatment effects in event studies with heterogeneous treatment effects.

［7］Campbell，D.T.（1957）.Factorsrelevanttothe validity of experiments in social settings.Psychological bulletin，54（4），297-312.

［8］Campbell，D.T.（1991）.Methods for the experimenting society.Evaluation Practice，12（3），223-260.

［9］Campbell，D.T&Stanley,J.C.（1963）.Experimentaland quasi-experimentaldesignsforresearch on teaching.In N.L.Gage （Ed.），Handbook of research on teaching.Chicago：Rand McNally，1963.

［10］Campbell，D.T.（1969）.Reforms as experiments.American Psychologist，24，409-429.

［11］Campbell，D.T.（1979）.Assessing the impact of planned social change.Evaluation and program planning，2（1），67-90.

［12］StClair，T.，& Cook，T.D.（2015）.Differencein-differences methods in public finance.National Tax Journal，68（2），319-338.

［13］Cancian，M.，&Levinson，A.（2006）.Labor Supply Effects of the Earned Income Tax Credit：Evidence from Wisconsin's Supplemental Benefit for Families with Three Children.National Tax Journal，781-800.

［14］Callaway，B.，& Sant'Anna，P.H.（2018）.Difference-in-differences with multiple time periods and an application on the minimum wage and employment.arXiv preprint arXiv：1803.09015.

［15］De Chaisemartin，C.，&D’Haultf?uille，X.（2017）.Fuzzy differences-in-differences.The Review of Economic Studies，85（2），999-1028.

［16］Eissa，N.，&Liebman，J.B.（1996）.Labor supply response to the earned income tax credit.The quarterly journal of economics，111（2），605-637.

［17］Goodman-Bacon，A.（2018）.Difference-in-differences with variation in treatment timing（No.w25018）.National Bureau of Economic Research.

［18］Rubin，D.B.（1974）.Estimating causal effects of treatments in randomized and nonrandomized studies.Journal of educational Psychology，66（5），688.

［19］Rubin，D.B.（1986）.Statistics and causal inference：comment：which ifs have causal answers.Journal of the American Statistical Association，81（396）：945-945.

［20］Rubin，D.B.（2005）.Causal inference using potential outcomes：Design，modeling，decisions.Journal of the American Statistical Association，100（469），322-331.

［21］Rosenbaum，P.R.（2018）.Observation&Experiment：An Introduction to Causal Inference.Cambridge：Harvard University Press.

［22］Shadish，W.R.，Cook，T.D.，&Leviton，L.C.（1991）.Foundations of program evaluation：Theories of practice.Sage.

［23］Shadish，W.R.，Cook，T.D.，&Campbell，D.T.（2002）.Experimental and quasi-experimental designs for generalized causal inference.Boston：Houghton Mifflin.

［24］Snow，J.（1855）.On the mode of communication of cholera.John Churchill.

［25］Strezhnev,A.（2018）.Semiparametric Weighting Estimators for Multi-Period Difference-in-Differences Designs.

［26］Carpenter，C.，& Dobkin，C.（2011）.Theminimum legal drinking age and public health.Journal of Economic Perspectives，25（2），133-56.

［27］Imbens，G.W.，& Wooldridge，J.M.（2009）.Recent developments in the econometrics of program evaluation.Journal of economic literature，47（1），5-86.

［28］Dimick，J.B.，&Ryan，A.M.（2014）.Methods for evaluating changes in health care policy：the differencein-differences approach.Jama，312（22），2401-2402.

［29］Bertrand，M.，Duflo，E.，&Mullainathan，S.（2004）.How much should we trust differences-in-differences estimates?.The Quarterly journal of economics，119（1），249-275.

［30］Imbens，G.W.，&Rubin，D.B.（2015）.Causal inference in statistics，social，and biomedical sciences.Cambridge University Press.

［31］Lechner，M.（2011）.Theestimation ofcausal effects by difference-in-difference methods.Foundations and Trends?in Econometrics，4（3），165-224.

［32］Aron-Dine，A.，Einav，L.，&Finkelstein，A.（2013）.The RAND health insurance experiment，three decades later.Journal of Economic Perspectives，27（1），197-222.

［33］Lee，M.J.（2016）.Matching，regression discontinuity，difference in differences，and beyond.Oxford University Press.

［34］Richardson，G.，& Troost，W.（2009）.Monetary intervention mitigated banking panics during the great depression：quasi-experimental evidence from a federal reserve district border，1929—1933.Journal of Political Economy，117（6），1031-1073.

［35］St.Clair，T.，Cook，T.D.，& Hallberg，K.（2014）.Examining the internal validity and statistical precision of the comparative interrupted time series design by comparison with a randomized experiment.American Journal of Evaluation，35（3），311-327.

［36］Kotchen，M.J.，& Grant，L.E.（2011）.Does daylight saving time save energy?Evidence from a natural experiment in Indiana.Review of Economics and Statistics，93（4），1172-1185.

［37］Khandker，S.，B.Koolwal，G.，&Samad，H.（2009）.Handbook on impactevaluation：quantitative methods and practices.The World Bank.

［38］陈林，伍海军.国内双重差分法的研究现状与潜在问题［J］.数量经济技术经济研究，2015，（7）：133-148.

［39］胡日东，林明裕.双重差分方法的研究动态及其在公共政策评估中的应用［J］.财经智库，2018，（3）：84-111.

［40］周黎安，陈烨.中国农村税费改革的政策效果：基于双重差分模型的估计［J］.经济研究，2005，（8）：44-53.

［41］李文钊.因果推理中的潜在结果模型：起源、逻辑与意蕴［J］.公共行政评论，2018，（1）：124-149.

［42］范子英，彭飞.“营改增”的减税效应和分工效应：基于产业互联的视角［J］.经济研究，2017，（2）：82-95.

［43］郑新业，王晗，赵益卓.“省直管县”能促进经济增长吗?——双重差分方法［J］.管理世界，2011，（8）：34-44.

【中图分类号】 D035

【文献标识码】 A

【文章编号】 1009-4997（2019）02-0036-09

收稿日期： 2019－03-15

作者简介：李文钊，中国人民大学公共管理学院教授，首都发展与战略研究院副院长，研究方向：政策过程、政府改革。

基金项目：国家自然科学基金项目“政治周期、制度摩擦与中国政策的间断性：基于1992—2016年的中国预算变迁数据的实证研究”（71874198）。

（编辑：刘晖霞）

标签：政策评估论文; DID设计论文; 双重差分论文; 三重差分论文; 技术路径论文; 政策路径论文; 中国人民大学公共管理学院论文;