宏观经济学和方法论_经济学论文

宏观经济学与方法论，本文主要内容关键词为：方法论论文,宏观经济学论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、作为数据压缩（Reduction）方法的科学

自然科学研究的发展可以看做是一个过程，在这个过程中不断发现压缩有关自然界的（现存的或潜在的）数据的方法，而新的压缩方法可以减少信息损失。举例而言，第谷·布拉赫积累了大量关于行星运行的可靠数据。而开普勒发现了行星在以太阳为焦点的椭圆形轨道上运行。这一发现给出了一个明确的数据压缩方法①。牛顿发现的万有引力定律给出了一个可以进一步压缩行星运行数据的方法②，并且万有引力公式还可以用来整理以及预测很多其他数据，这些数据可以是实验数据或者实践数据，可以是与行星运行这一主题毫无关系的数据。

经济学具有和自然科学相近的目标，只是没有像自然科学那么成功。不管经济学家用什么理论来整理数据，在实际的数据中总有不少无法被理论所囊括。理论通常是在特定情况下得来的，当我们试图将它应用到更久远的时代、更偏远的地方或不同的环境中时，我们往往会发现其整理数据的能力下降了。

将科学视作数据精简方法，这一观点可能看起来过于简单，不过，作为一个合理的比喻，应该不会有太大问题。需要讨论的问题是，要整理的“数据”是什么，以及什么是“压缩”。

过去，经济学家们通常认为科学工作就是形成可检验的假说，并用数据对其进行检验。正确的假说可以通过检验，而不能通过检验的，即不正确的假说将会被淘汰。将科学视作数据压缩的这一观点可以使我们看到将科学看作假设检验这一观点的局限性。后者建立在存在正确或错误的观念的基础上，而事实上，按照本文的观点，理论压缩数据的能力是一个连续值。如果观测足够细致，人们就会发现，行星轨道只是一个近似的椭圆。但是，如果据此认为椭圆轨道假说是错误的，从而拒绝这一假说，这似乎并不会对人们有多大帮助。而且，人们可以把“理论”做得非常复杂，以至于没法用它做有意义的数据压缩，而应用假设检验方法对此进行简单的检验，可能会接受它，视之为“正确”的假说。很常见的情况是，不同的理论通过数据检验能力的差异，要小于它们在简单程度方面的差异。尽管在开普勒之前，人们也可以相当精确地预测行星运行，但我们认为开普勒的理论更加有效。

一个好的理论不仅要能很好地整理数据（和压缩是一回事），还要用一种有说服力并且可以理解的方法将数据的整理呈现给该理论的受众。但是，这并不意味着，成功的科学理论可以让很多人理解。事实上，最成功的科学理论只能被极少数人完全理解。这些理论之所以能够成功，是因为对严格训练所得来的专业技能以及这种技能的持续性的认可能得到制度和惯例的支持。

因此，尽管有效的理论必须要有说服力，但其说服力并不完全取决于对理论本身进行考察的结果。我们还需要考察被认可的专家是哪些人，他们接受训练以理解和支持的论题是什么类型。对一门学科而言，始终需要完成的一项任务是，评估从事该学科的人员所接受的训练应该用来理解和支持哪些议题。

教士团体以及各种协会，它们都是由拥有公认的专业技能、接受过系统训练的人组成的层级制组织。这样的组织是知识群体得以延续的一种不完美的社会机制。现代科学界，以及经济学界，亦属此类。要理解方法论上的争论，记住这种讨论是上述机构的部分工作很有裨益。

二、将经济学与自然科学进行类比的局限性

比起经济学，大部分自然科学中基于概率的推断都来得更少。我们说经济学比其它社会科学更接近自然科学，这是因为经济学较多地使用高深的数学，存在更多相关数据。那为什么经济学不能像很多自然科学那样，少用一些统计方法？进一步考察不同科学之间的差异，我们会发现在经济学中应用基于概率的推断是不可避免的，基于同样的理由，其他的一些科学，无论是自然科学还是社会科学，也都不可避免地要使用统计推断。

经济学家很少能够用实验的方法来获得一些重要的数据。宏观经济学领域尤其如此。经济专家总是被要求对重要的政策问题给出意见，而不管这些问题是否在学界已经达成了共识。结果是，经济学家要利用很多的理论和模型，以使他们能够和数据相吻合并能够对政策的效果进行预测。不同政策带来的后果存在根本上的不确定性，尽管缺乏统一的被认可的理论，我们还是不得不对这种不确定性给出评价或做出准确的描述。然而，由于经济学家们对政策具有倾向性，或者偏好于貌似确信无疑的经济政策建议，这就可能使得一些经济学家无法客观中立地评估学科知识的状态，而变成某些理论的鼓吹者。

上述经济学的一些特点，部分为一些自然科学所共有。天文学家也不能做实验，但他们占有比经济学家更多的数据。宇宙学缺乏相关数据和统一的被认可的理论，但研究者不会有提供政策建议的压力。流行病学研究有时需要给出政策建议，并且在做实验方面也存在局限性，不过，某些类型的实验还是可行的，尤其是动物实验。大气科学研究者很难开展实验研究，但是在做天气预报方面他们有更多的数据，并且被要求预测政策效果的压力很小。不过，在对大气污染和全球变暖建模方面，大气科学和经济学很接近，都是有尚无定论的不同模型，基于不同模型的政策建议也不同。不过，在这个领域，大气科学在方法论方面也没什么可以供经济学借鉴，而我想，反过来，经济学也没什么可供大气科学借鉴。

通过公理化的论证我们可以得到，任何人在不确定性条件下所做出的决策，都可以看成是似乎他（或她）认为不确定事件有一个概率分布，而当有新事件发生时，会根据贝叶斯法则进行调整③。由于做决策的结果取决于哪种科学理论是正确的，做决策的人们应对事件的或然性特征感兴趣。然而，大部分自然科学很少面对或然性事件。科学家理解标准误差这一概念，但它极少在人们讨论结果时起到重要作用。对于实验科学来说，由于实验条件可控并且可重复，测量的标准误差几乎可以忽略。当具备这样的实验条件时，忽视标准误差是有道理的④。

有些非实验科学能获得大量数据，比如天文学和大气科学的某些分支，尽管数据量充足，但还是难以攻克一些重大的理论问题。林岑的文章提到大气潮理论的发展，这是一个很有趣的例子（Lindzen,1990）。这一理论研究大气压力的日变化，在很长一段时间内，理论和数据交叠增进。只有少量数据时，提出来一些假说，得到更多的数据后发现与先前理论不一致，然后提出新的理论。数据大量积累，理论也还存在许多错误，这有点类似于经济学家用简约模型（reduced-form）以从有噪音的数据中提取基本的模式。即便在林岑写作那篇文章的时候，最好的理论也难以解释数据所展现出的不少重要特征。林岑的文章很好地描述了数据与理论之间的鸿沟，并在结尾提出了有助于进行解释的一些建议。不过文章没有对不同模型进行统计学比较，也没有说明如何应用模型做决策。假设必须要用模型来预测一些干预（比如污染治理政策）对大气潮所产生的效果，而且这些不同的干预效果非常重要，这时，现有各种理论也许无法有效解释这种干预产生的效果差异，而不得不将其看作是：随机误差。

在临床医学和流行病学领域，统计推断的说服力与其在经济学领域中的作用相差无几。一种治疗方案基于一种医学理论，当用临床试验对不同的治疗方案相互比较时，如果这种试验花费较少，并且不存在伦理问题，对结果的比较相当可靠。而事实上，临床试验成本高昂，并且，当以很大概率得知一种方法优于另一种时，再对一些病人使用明显较差的治疗方案时，就会面临巨大压力。但是，这时候只是能得到一个较大概率的结果，不是很肯定，而如果不继续进行比较，又无法获得非常可靠的结果。所以，流行病学研究常常不得不使用非实验数据，而这在确立因果关系时就会出现问题，这和经济学中常见的问题是一样的。关于吸烟与癌症之间的关系的证据只能是统计意义上的，充满争论，这和关于宏观经济政策的争论很相似。有所不同的是，不带有主观性进行生物实验是可行的，而进行经济学政策的尝试却不太可能。

最近，在一些其它社会科学领域中，涌现出一种抵制统计方法的倾向。比如，很多社会学家认为，过于强调量化证据和统计推断使实地研究（field research）变得死板，因而倡导人类学中常用的方法，即近距离观察和叙述性描述方法（Bryman,1988）。一部分经济学家也持有类似的观点。比利对工资和就业数据进行了修正，就是通过对不同企业进行访谈这种方式，这和新式社会学中的理念很接近（Bewley,1994）⑤。

完全不同的两门社会科学同时对统计方法提出质疑，这也许并不是巧合。不过，这些质疑的出发点并不完全相同，来自人类学式的质疑和来自纯粹的实际经济周期理论理论家的质疑甚至可以认为是相互对立的。事实上，这些批评的流行很可能是源于对统计方法的过度使用。最初的一些统计研究出现后，甚至于一些机械的模仿，一些重要的推断技术并不以实际应用为目的。的确，对严格的统计方法检验的要求可能会遏制新思想的出现。因此，在某些情况下，绕开统计方法具有建设性的意义。在经济学的实地研究（比如关于物价和工资刚性）中的某些阶段，基本没有理论涉及，或者只有含糊的、没有足够说服力的理论，它们往往需要可行的、不太形式化的探索，这时候，人类学方法是很有价值的。当发展到模型的求解本身成为研究的重要任务时，就应该将主要精力放到模型求解和校准上来。而很多可以考虑的理论开发出来后，其主要任务就变成了对不同理论进行评估，这时候，就需要收集系统的经验证据来对理论进行检验。

在不同学科中形式统计推断的角色有所不同，其背后隐含两条原则：第一，当数据非常充足，可以对不同理论很清晰地进行排序时，形式统计推断就不重要了。第二，当数据没有办法对不同理论的优劣进行判断时，也没有必要进行形式统计推断。但是，当数据不能非常清楚地对不同理论进行判别，而我们的决策又需要基于对理论的选择时，专家可以研究不同理论正确的概率，据此进行论证和讨论。

这一部分的讨论是贝叶斯主义的，也就是说，在讨论中，我们把不同理论中的随机因素在理论上看作是无差异的。基于这一视角，我们可以支持这样一种看法：不确定性条件下的决策不得不基于概率。也正是基于这一视角，宏观经济研究中惯常的推断问题才有其道理。因为，在宏观经济研究中，历史时间序列数据集必须要用来对不同理论解释的优劣进行判断（Sims,1982）⑥。

三、经济学的修辞学

近来在文章中使用“修辞学”这个词的经济学家大多受到麦克洛斯基（McCloskey,1983）⑦ 文章的影响。这是一篇反方法论的方法论文章。该文部分反映也部分触发了一些经济学家，包括纯粹的实际经济周期理论家以及一些与这一学派经济学家观点迥异的宏观经济学家，对于那种苛求技术上的严格性的要求的不耐烦态度。麦克洛斯基希望经济学家认识到他们的哪怕是最学术、最科学的作品，其中都饱含着劝说色彩。文章指出并分析了经济学研究中的一些修辞工具，也讨论了经济学家使用更广泛工具的方式。前文中我所阐述的观点和麦克洛斯基的观点在很多方面是一致的。我们都认同理论不能简单划归为“对”和“错”，也不能完全由单一的数据“检验”来判定真伪。我们都认同，如果两种理论在同等程度上和数据相一致，人们就可以对这两种理论持有自己的偏好。此外，我们都认为，所谓正统的、主导性的方法论标准只不过是为不愿意做出改变而找的一种借口而已。

不过，麦克洛斯基满怀热情指出经济学争论过程中的修辞学手段，并且鼓励经济学家使用修辞学技巧，这可能会使得经济学家倒向江湖骗术。比如说，当两种理论，一种简单，一种复杂，但两者和数据的吻合度相当时，在我看来，简单的理论是一个更好的数据精简方法，我会同意麦克洛斯基的观点，在这种情形下，套用假设检验模式来对理论作出评价是错误的。但是，简单的理论可能因为其他的原因获得支持：它可能更容易获得缺乏专业训练的人的认可，这类人可能会倾向于认为，能让他们理解的理论是正确的，或者，需要高深的技术才能理解为什么简单的理论与数据的拟合度更差，抑或简单的理论更动听、更符合很多人的政治倾向。如果有足够的技巧，可以说服人们，让人们相信简单的理论比复杂的理论更好，这就是修辞有效的。但这是糟糕的经济学。麦克洛斯基发现经济学论文中普遍存在修辞学手段，并对这些手段的有效性进行了分析。我认为他的这一研究发现是有价值的，但是，意识到经济学中的说服特征，我的第一反应是恐惧，而不是鼓舞。

经济学不同于物理学。一般而言，科学研究，并不能认为只是提出理论并用数据对其进行检验然后决定是接受还是拒绝该理论这样一个过程。这种看法并不会使我们无法对现代科学和古典或者中世纪自然哲学进行区分：现代科学界已经达成一致，认为在某些特定的表面上有说服力的观点不在科学的讨论范围之内。现代科学只讨论理论与基于实验和观察的数据之间是否匹配。这意味着，行文流畅、容易理解、对大众有诱惑力的理论陈述，对科学家而言并不一定有说服力。而一些艰深晦涩的理论陈述，它们从审美的、政治的或宗教的角度来看也许是令人不快的，但对科学家而言可能更有说服力。尽管经济学不同于物理学，但这并不意味着，评价一种经济学理论是否适宜的标准和物理学中的标准有着根本不同。判断一种经济学思想是否合理的终极标准应该是，它多大程度上能帮助我们对数据进行整理。这意味着，我们不应接受那些诱惑力强但整理数据能力较低的理论。

我们应坚持上述标准，但我们并不必然如此。因为，经济学，和其他社会科学一样，其理论很难像自然科学中的理论那样，可以获得完全成功，学界可以就是否接受某一理论达成共识。经济学界难以就什么理论是最好的达成一致，也难以就观点所依据的模型是否合适达成一致。甚至我们刚刚论及的标准，即理论应该接受数据检验，这一标准本身都始终无法达成共识。而且，支持这一标准的经济学家对这一标准的含义也存在争论。在经济学捍卫科学标准这个过程中，麦克洛斯基的观点和分析可以起到部分积极作用，但是，在他的作品所产生的影响中，有部分是消极的。

在面对面的专业讨论中，我越来越多地感觉到一种可以被称为修辞犬儒主义的态度，尽管这在正式经济学作品中还没有明显表现出来。这种态度在麦克洛斯基原文中有些许的体现。比如，麦克洛斯基带着敬意引述了弗里德曼和施瓦茨合著的《美国货币史》，在该段的结尾评论道，“在这场争论中，货币主义真正说服人们的，完全在于他们书本的巨大篇幅——它包含了丰富而机智的论证，尽管多数论证与主要论题无关。”在其1983年的作品中，麦克洛斯基的这种态度也许并不明显（McCloskey,1983）。不过，现在，货币主义者以及凯恩斯主义者在试图阐述一些在现有宏观经济学中一些还不清楚的领域的观点时，这种态度更加明显。但是，麦克洛斯基真的认为经济学家可以用无关的观点来增加其理论的说服力吗？或者说，即便我们知道实际上我们没有足够理由说服别人，还应该竭力使用修辞技巧，以期用花言巧语迷惑同行，增加说服力吗？我以为，很多经济学家现在可能觉得，自己作为一个劝说专家，与自己作为一个掌握准确知识的专家同等重要。他们愿意为了所谓“修辞有效性”，发表他们明知有缺陷的观点，而不对这种缺陷加以解释，也不对那些可能指出其理论缺陷的证据加以引述。有些经济学家，已经成为了某些特定观点的坚定辩护士，无论这种辩护是真诚的还是犬儒式的。近来还出现了一种新现象，很多经济学家似乎认为，连基本的技术性细节都不能获得充分展现的粗线条文章，反而会比那些严谨地指出其局限性的文章有更高的引用率。因为，将这些技术性细节推敲留给其他人写会带来引用率。他们认为，这并不能叫做不负责任，因为在这点上，经济学家的角色类似于在法庭进行抗辩的律师。

行文至此，读者应该清楚我个人的观点了。我认为，经济学首先是科学，经济学研究的首要目标是使理论在数据面前能够站得住脚，无论修辞意义上的经济学价值几何，它始终应该是第二位的。这意味着，经济学家在讨论该学科的核心议题时，他们需要使用统计推断。

四、实际经济周期学派

和其它经济学分支一样，宏观经济学为了研究价格水平、经济周期、经济增长这些现象，需要做大量的、基于一般均衡理论的简化。因此，动态随机一般均衡模型（DSGE）虽然最初难以被应用，但随着计算能力的增强，该模型应用起来更为容易，宏观经济学家们便很自然地对运用这一模型进行各种探索和尝试。

在这一阶段的研究中，经济学家们考察什么样的模型更好，并探索有趣、有效的数值分析方法。这时的研究表现出与库恩（Kuhn）在书中描述的“常规科学”研究的一些特点：有成熟的教材（萨金特的《动态宏观经济学》；斯托基、卢卡斯和普雷斯科特三人合著的《经济动态的递归方法》）；研究者们提出问题、解决难题，由此，一些有效的方法得以被扩展运用到新的应用领域。

这种研究行为在经济学界受到批评。批评者指出，这些模型仍然过于程式化，并且与使用恰当的数据以提供可靠的政策参考这一目标相去甚远。尽管研究者们付出了相当多的精力来建立这些模型，一些经济学家仍然认为这种类型的研究不应予以支持或认真对待。这些经济学家致力于对当前政策、时间贴现率的研究，无意了解学习这种新的分析方法。毫不奇怪，较早对这一领域进行研究的经济学家们针对这些批评，做出了有效的辩护。大多数的诸如此类的辩护常常出现在非正式的交流而不是出版物中。基德兰德和普雷斯科特（Kydland & Prescott）在他们的文章中正式表达了这些辩护，即使其辩护采取的形式的严苛程度让大多数经济学家不太舒服，但仍是有价值的。

他们认为，DSGE经济学模型的研究不仅仅是效仿库恩的常规科学，它甚至就是常规科学。宏观经济学家已提出一个“通过检验”或者说“标准的”理论。他们做（计算的）“实验”，这些实验使“已确立的理论更加稳健”。另外，通过实验偶尔会发现，对现有理论的延伸是有用的，这样，“已确立的理论”也就得以“改进”。

然而，这样拿经济学与成熟的自然科学类比还是相当勉强。作为DSGE模型基础的新古典随机增长理论——该理论由基德兰德和普雷斯科特提出——仅仅是在一个有限的意义上才可被接受。有一组研究人员追随这一模型，并试图挖掘模型可能的含义。在这个小组中，该理论被认为是研究工作的前提。但是即使在这个小组内部，也没有人幻想该理论在整个理论界是没有争议的。小组中的大多数研究者甚至不能很自信地宣称该理论能够如它提出的那样，比凯恩斯主义的联立方程模型或者是带自然率的理性预期模型更好地预测经济现实。

被基德兰德和普雷斯科特称为计算性实验的并非是实验，而是计算。和实验科学不一样，在经济学中，经济学家无法创建观测量来解决有关理论的不确定性，再大的计算量也改变不了这一点。

迄今，DSGE模型并没有给出多少经验性成果。宏观经济学家根据非形式化的理论思想，提出许多不同方法对时间序列数据进行压缩。比如，美国经济研究局早期经济周期分析提出的经济周期阶段图就是最早的简约形式（reduced form）模型方法之一，多元频谱分析（multivariate spectral analysis）、分布滞后回归、转折点时序分析、互相关函数（cross-correlation functions）、分布滞后回归、主成分分析、VAR脉冲响应分析和动态因子分析也都已见诸于应用。应用这些分析方法，得到了不少的特征化事实（stylized facts），比如，奥肯定律（就业变化与产出变化关系）、利率新息（innovation）对产出和价格水平的强预测性、总价格水平和工资变动的平稳性、生产率趋势变化引起顺周期波动，货币总量和名义收入之间很强的相关性以及（格兰杰）因果关系。在估计DSGE模型与现实经济相符性时，大多数关于经济周期的事实被实际经济周期研究所忽略。基德兰德和普雷斯科特正确地指出，所有的理论（至少在宏观经济学领域）都是错误的，因此不能因为一个理论没有完美地解释现实而将其完全抛弃。但是，如果一个理论对现实经济的预测能力弱于其替代理论，该理论理应受到质疑。如果一个理论与现实不是很符合，但是能够带来非常好的数据压缩（即很容易地把待处理数据关联起来），或者该理论通过进一步地研究能够更好地预测现实，那么该理论仍然值得关注。但是，故意回避理论与数据是否相符这一问题则是毫无道理的。

这个问题与是否要采用形式化的统计推断方法不同，现在关注的仅仅是是否所有存在的、各个方面的数据都应该被采用。当马克·沃森绕开“正式的统计推断”，通过傅里叶频率分析来检验时间序列模型的合现实性，他使用这种拓展的标准工具让我们认识到，作为RBC方法核心的新古典随机增长模型对于经济周期中的波动的解释力并不强（Mark Watson,1993）。沃森的分析并不是说要完全放弃RBC方法，而是指出，为了更好地解释现实经济，频域分析（frequency domain analysis）或者其他宏观经济时间序列数据正交分解的方法（比如VAR脉冲响应）应该成为RBC模型评价的一部分。

基德兰德和普雷斯科特非常反对使用现代意义上的经济计量工具。这部分由于，在他们看来，在给定充分数据的情况下，形式统计推断作为“统计假设检验”会拒绝任何（必定是错误的）理论。贝叶斯式的对古典假设检验的批判早已提出相同的观点，但是它没有拒绝使用形式统计推断。基德兰德和普雷斯科特还指出，“选择一个对总时间序列拟合度最好的经济学参数组意义不大，因为这很难回答我们感兴趣的问题。”然而，他们提出了一种非常有意思的问题形式，“如果技术冲击是经济波动的唯一来源，那么美国二战后经济会有多大的波动？”解决这类问题的一个方法是构建一个反映技术冲击对波动的影响程度的DSGE模型参数组，并且将模型作为参数的函数来检验其拟合度。当然，检验结果可能是模型的拟合度对参数不敏感，模型识别能力较弱。但是从另一方面来说，检验可以剔除一些脉冲响应来源，因为从中可以看出它们的拟合度很低。对模型的检验并不是简单地为了找到最大化拟合优度的参数值，而是寻找似然状态的特征。如果基德兰德和普雷斯科特仅仅是不认同将推断的目的局限于获得达到最优拟合度的参数，那么他们与以贝叶斯主义的或者似然性原则为基础的关于推断的观点是一致的⑧。不过，他们似乎要对概率推断进行更进一步的批判，如果是这样，那么他们似乎反对了自身在这些有趣的研究问题上的一些观点。

基德兰德和普雷斯科特确实认同一些基于概率的推断。他们认为接受一些统计模型得出的理论概率分布，并且将其与统计结果相比较——这些统计结果由实际数据计算得到——这样做是合理的。然而，随机模型得到的是一个分布，而不是统计量，如何“比较”一个分布和一个统计量呢？从这个比较中我们能得到什么结论？本文没能对于如何完成这种比较以及解释它给出指导意见⑨。也许鉴于基德兰德和普雷斯科特对推断的厌恶，论文中没有指导意见也就不奇怪了，因为这些问题恰恰是统计推断发展的根源。

通过基德兰德和普雷斯科特关于什么是“经过检验（well-tested）的理论”的讨论，我们可以猜测上述比较的用处。他们将新古典增长框架视为一个经过检验的理论。他们提到，这个理论让我们相信，当一个模型经济受到实际冲击时，“它应该显示与实际观察到的情况相似的定量性质的经济周期波动”。或者说，基于新古典增长框架的随机模型得到了“通常看到那样的（normal-looking）”的波动。对于某些目的，这种说法足够了，但是当我们需要比较两种或者更多的具有不同政策影响的模型或理论可靠性时，我们需要更加确切地知道，哪一个模拟量更加接近“通常看到那样的”，或者说哪一个“定量性质”的数据与实际数据更“相似”。比如，我的观点是，沃森阐明通常运用于RBC文献中的随机新古典增长模型中得到的模拟数据与实际数据大为不同（Watson,1993）。如果基德兰德、普雷斯科特和我要对这个问题进行合理的讨论，我们将不得不开始讨论如何定义“相似”，或者是哪种可替代的模型或理论是标准的，这种标准正是评价模拟量对实际值的符合程度的依据。然后，我们将进行统计推断。

如果有人为了维持DSGE模型这一成长中的经济计量学方法研究者的热情，需要对DSGE模型的成就进行夸张的宣扬，并要求人们不要批评DSGE模型，基德兰德和普雷斯科特的略显夸张的表现一定程度上是可以接受的。不过，即便没有这种夸张的手段，这个领域仍足以吸引研究人员的注意，而这些手段给这个领域带来的教条和意识形态的僵化反而成为了不必要的负担。

五、定量宏观经济学的发展

基于DSGE模型的有些研究运用了大量形式化的概率推断方法。例如：麦格拉顿、罗格森和赖特用极大似然估计法估计了标准真实经济周期模型（RBC），这应该是第一篇对该模型和其它类型DSGE模型以及粗糙的简约模型进行对比的文献（McGrattan,Rogerson & Wright,1993）。利珀和西姆斯构建并模拟了一个DSGE模型，这个模型在基德兰德和普雷斯科特所刻画的标准新古典模型中加入了消费品和资本品的相对价格波动，并且考虑了货币政策以及财政政策部门（Leeper & Sims,1994）。利珀－西姆斯模型接近于一阶简约形式的三变量VAR模型的模拟结果。这一模型的表现显然比所有真实经济周期模型（RBC）文献中的新古典模型都更好，尽管，很少有对那些模型进行细致、标准化的考察，要进行相互的比较很困难。无论如何，可以明确的是，为DSGE模型生成似然面（likelihood surfaces）和进行向前一步（one-step-ahead）残差的预测正变得更可行，这为比较各种旨在解释相同数据的备选模型提供了一种依据。这种比较引起了广泛的兴趣，而且在模型成为量化政策分析的基础之前，这种比较也是不可或缺的。尽管基德兰德和普雷斯科特不会同意加入这一工作中，但这项工作还是会进行。

从经验研究的角度来看，在宏观经济学中其他一些分支的研究的进展和RBC模型化的进展一样重要。一个是联立方程建模传统下对现代政策进行建模。理论宏观经济学家对这类模型的关注很有限，因为他们的研究兴趣是建立均衡模型。但DSGE模型没有在范围、细节程度和拟合方面产生好的结果以至于使得它们很难用于货币政策和财政政策的实际决策过程中来。这样做的结果是将政策建模任务留给了那些不在理论界但接近政策制定过程的人，以及理论经济学家中对政策有很大兴趣的人。该模型已经发展到将理性预期和国际因素纳入其中。但是，这都是有成本的。因为这些模型的纳入理性预期将会使计算变得困难，并且，与我当年写文章的状况相比，现在模型的随机结构变得更加程式化并且不太可靠（Sims,1980b）。

在这方面，泰勒的著作是一个很好的例子（Taylor,1994）。这本书里的两个重要模型不甚严谨地使用了基于动态优化理论的消费与投资函数，并且明确地包含了关于未来收入的预期。模型中工资的调整是黏性的，并且调整取决于未来的预期。模型还使用了预期利率平价条件加入了国际关联因素。在这些方面是超越1980年时的水平的。但由于优化理论的使用不太规范，所以该模型有些结构性异常。并且，模型的方程一次估计一个，在某些情况下，统计方法与模型的随机特征是不相容的。尽管如此，这项工作仍然是有意义的，因为它保持了联立方程模型与实际数据密切联系的传统，也因为它有可能接近于取得实质性发展。最近，由于在线性理性预期模型求解的计算能力和标准化方面取得的进展，使得泰勒可以将他在第一章较小样本模型中使用的更具有内在统一性的统计方法运用于后面的展开模型（full-scale model）中。出于同样的理由，他可以在他的模型中更充分地引入动态优化的行为理论。这样，模型可以在内部一致性和可解释性方面更接近RBC学派，同时保持或提高最初传统联立方程建模的统计拟合性，还能保留为应用政策分析所需的考察范围和细节。

另一个截然不同的研究分支，我自己参与其中，因而对我来说更重要。这类研究利用弱识别时间序列模型分离货币政策的效果。与标准联立方程模式不同，这类文献，先从数据出发，建立多元时间序列模型，得出有显著规律的证据。只有出于解释数据的需要，才会引入基于经济学推理的约束，这时，我们还会特别小心，以免模型的拟合性受到影响。

这类文献始于弗里德曼和施瓦茨，他们通过对时间序列数据和特定历史时期的考察，展示了货币总量和收入的强相关证据以及两者的时序关系，挑战了传统的凯恩斯主义思想。我在1972年的文章进一步论证了，除了相关性和时序关系，货币量和收入之间存在一种单向的预测关系。这意味着货币是前因，名义收入是后果。而基于同样的关于因果次序的定义，“前因”在回归方程的右边。

根据上面指出的，这类文献大多使用简约模型来对数据进行概括，考察一个变量突然变化会给系统内变量带来怎样的变化。这实际上是将数据拆成相互间不相关的碎片，这有助于将主要规律分离出来。变量的突然变化称为“新息”（innovations），由新息带来变化的模式被称为“脉冲反应”。沿着梅赫拉（Mehra,1978）的文章思路，我在（Sims,1980a）1980年的文章表明，当利率被加到一个多元变量系统中，短期利率的新息吸收了大部分货币对产出的预测能力。这削弱了货币主义的理论，该理论认为，货币存量的外生扰动由政策带来，是经济周期波动的主要来源。但是，悬而未决的问题是：利率新息应如何解释？在20世纪80年代中期，伯南克（Bernanke,1986）、布兰查德和沃特森（Blanchard & Watson,1986）以及西姆斯（Sims,1986）的文章开始用形式化的识别方式代替了之前在这类文献使用的非形式化的识别方式，并且将这种方法的弱识别特征引入到联立方程文献中。伯南克和布林德将联邦基金利率新息视为政策冲击，这支持他们的考虑了制度细节的时间序列分析（Bernanke & Blinder,1992）。我的文章指出，这类文献试图加以解释的特征化事实，在美国之外的经济体也存在，但是，从某些方面来看，将利率新息视作政策扰动的观点应用到其他经济体中，会发现与特征化事实不符（Sims,1992）。我在1986年的文章中论及“价格难题”这个异常现象，即一个明显的货币收缩伴随着通胀率上升。在处理美国的数据时，引入一组特定的识别假设（identifying assumptions），可以使这个异常现象消失。其他学者，克里斯蒂亚诺、艾肯鲍姆和埃文斯（Christiano,Eichenbaum & Evans,1994），戈登和利珀（Gordon & Leeper,1995），西姆斯和查（Sims & Zha,1995）也参与了这方面的工作，以找出与数据一致的识别假设的范围。另外，最近，艾肯鲍姆和埃文斯（Eichenbaum & Evans,1993）、金素荣（Soyoung Kim,1994）、金素荣和鲁比尼（Soyoung Kim & Roubini,1995）、库什曼和查（Cushman & Zha,1994）已经把模型拓展到开放经济环境中，并得到了有趣的结果。

这类文献在几个方面增进了我们的认识。首先，它确立了，我们观察到的大多数货币政策工具（利率和货币总量）的变化，不能视作是外生地、由随机的政策变化带来的（令人费解的是，RBC学派试图把货币变量模型引入到DSGE模型中，而这种尝试与我们所确认的基本的经济周期事实是矛盾的）。其次，这类文献较为清晰地描述了货币政策效应的大小及其动态影响。它还向我们表明，这些影响的大小仍然是不完全确定的，并且，由于货币紧缩很少是自发的政策决定的，经济衰退之后货币紧缩这一清楚的事实很难加以解释。

从前文论及的修辞学的角度来看，这类文献在“说服力”方面表现不够好。如果对时间序列和联立方程模型不熟悉，很难理解这类文献。尽管这类文献对结果的阐述受到理性预期思想的影响，但研究者们并没有发现有必要正式使用该思想。虽然这类文献的数量在增加，但都没能对人们的观念形成显著的冲击。这类文献的结论往往有助于削弱那种对数据天真自信的解释，却难以对任何简单的政策主张提供技术支持。

这类文献没有使用动态优化理论，也没有明确地使用理性预期，而是构建了一个版本的联立方程，这可能会使一些宏观经济学家认为这是一种已过时的传统的一部分。事实上，这类文献的目的是，尽可能减少传统的联立方程模型和新的DSGE模型对特别的建模惯例的依赖，集中于关注这样一个核心问题，即区分由深思熟虑的政策带来的变化和政策外的干扰带来的变化⑩。这类文献正在进行两方面的工作，一方面是通过引入一些更为严格的限制性关系（tightly restricted identifications），与DSGE模型联系起来，另一方面是拓展到考虑更大范围以及国际因素的政策模型。金素荣（Soyoung Kim,1994）是后者的代表，西姆斯（Sims,1989）和金基耐（Jinill Kim,1995）是前者的代表。也许，这两方面近来的进展可以认为是该领域正在走向成熟的标志。

六、结论

经验宏观经济学家们正走在好几个有前景的研究方向上。不过，将宏观经济学和自然科学进行类比会使他们紧张，并且会认为他们的研究方法（而非研究主旨）是过时的或者错误的。现在学界还有一种倾向认为在理论化和数据分析时，应放弃那些技术性要求。然而，我们这样的坚持理论化和数据分析工作的研究人员，并没有必要过多考虑这种给自己带来消极作用的观点。包括RBC模型在内，本文所描述的各条研究路径都有其潜在价值，并且不同路径显示出相互融合的迹象。也许，将更多的精力放在不同领域间的相互学习，会比绞尽脑汁想出很多理由来相互忽视更能使我们受益。

原文为“Macroeconomics and Methodology”，发表于《经济展望杂志》（The Journal of Economic Perspectives）1996年第10卷，第1号。

限于篇幅，译文省略了原文的所有参考文献，有兴趣的读者可以和《经济社会体制比较》编辑部联系。——编者注

注释：

① 开普勒的理论出现前，要描述一颗行星的位置，需要将观察到的N个点在其中以（至少在经济学家看来）很高的精确度，将其标示在一个四思维空间中（三维空间加上时间维度）。而有了开普勒的理论后，则只需一个二维坐标（椭圆弧长和时间），加上在三维空间中刻画椭圆的五个数字即可。

② 用牛顿的理论描述行星运行，需要的精确程度差不多，并且只需要一个维度（时间）再加上在基期时行星相对于太阳的位置和速度向量。

③ 具体论述可参考弗格森（Ferguson,1967）著作的前两章或者罗伯特（Robert,1994）著作的第二章及第六章。

④ 尽管公理化的贝叶斯决策基础有其合理性，但为什么自然科学只考虑“客观”概率，并且很少使用正式使用统计推断方法。关于这一问题的拓展讨论请参见柏克斯（Burks,1977）。

⑤ “卢卡斯批判”对应用经济计量方法进行政策评估持批评态度，这也是对经济计量方法应用进行批评的起源之一。“卢卡斯批判”自身逻辑并没有直接指出统计推断是无效的或者有问题的，它批评的是在一些特定模型中将宏观经济政策模型化的一种特定方法。在不太严格的意义上，人们将“卢卡斯批判”概括为“经济计量学”模型对政策评估是无效的。毫无疑问，这种概括为对经济计量方法的广泛质疑提供了论据。笔者在拙著中认为，“卢卡斯批判”的最初形式本身也是存在逻辑缺陷的（Sims,1987）。

⑥ 值得注意的是，这一观点隐含着对近来的一些经济计量学理论的批评态度，尤其是对可能存在的非平稳和协整特征进行的检验研究文献。就这方面来说，这一观点和纯粹的实际经济周期理论家的观点是一致的。

⑦ 中译本见《经济学的哲学》，第13章，豪斯曼（2007）编，丁建峰译，上海人民出版社。——译者注

⑧ 似然性原则是贝叶斯方法的一种含义，但这一原则也可以以其它理论为基础。见伯杰和沃伯特（Berger & Wolpert,1988）。

⑨ 事实上，早期的版本提供了稍微多一些的指导意见，但是这些指导意见看起来更像是简单统计推断。

⑩ 关于为什么“卢卡斯批判”不会产生这类文献的质疑，详细的讨论可参看Sims（1982）和Sims（1987）。这一讨论可以回溯到关于经济学模型中什么是“结构”这一问题的思考，这方面文献可见Hurwicz（1962）。

标签：经济学论文; 宏观经济学论文; 经济模型论文; 理论经济学论文; 统计模型论文; 经济论文; 标准模型论文; 观点讨论论文; 科学论文; 自然科学论文;

宏观经济学和方法论_经济学论文

猜你喜欢