跨国公司与东道国政府的多阶段正和博弈分析_重复博弈论文

跨国公司与东道国政府之间的多阶段正和博弈分析，本文主要内容关键词为：东道国论文,跨国公司论文,阶段论文,政府论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、跨国公司与东道国双方“正和博弈”思想的提出

在世界经济一体化的今天，全球范围内的外国直接投资(FDI)迅速增长，跨国公司的实力和影响日益增强。单就经济实体而言，跨国公司已经发展到与国家并驾齐驱的程度。

对于跨国公司与东道国之间的关系，西方的学者大都遵循传统的“零和思维”或“负和思维”[3][6][7]。1994年，斯托普福德发表《跨国公司与政府日益发展的依存关系》一文，明确提出跨国公司与政府之间是一种“正和博弈”的思想，但将东道国政府看成是博弈中处于弱势的一方。事实上，跨国公司与东道国政府双方的讨价还价能力在不同情况下是不同的，而且随着时间的变化而变化。

首先，东道国存在事后机会主义优势（实施国家掠夺或承诺不兑现），这比跨国公司事前的机会主义更容易给对方造成危害，强大的政府单就这一层次的博弈来说，显然更容易阻吓跨国公司。但是东道国对不同的跨国公司，任何一次事后的机会主义对于该跨国公司和其他跨国公司来说都是可信威胁，成为先验概率，导致下一次或其他的博弈的中止或规则变化。因此，东道国在采取事后的机会主义时会谨慎从事，从而约束了东道国事后违约的倾向。

其次，由于东道国是政策和规制的制定者，各东道国都越来越认识到对跨国公司进入后的活动进行引导和控制的必要性。这些规制包括：所有权控制、业绩要求（比如使用当地劳动力和原材料、技术转移等）、真实公布情报、禁止不正当竞争行为、环保、利润汇回、外汇管制等。这些讨价还价优势不同于上述国家掠夺，因为它们是合法的、正当的。故而东道国政府的博弈能力不仅来源于事后机会主义，而且来源于对跨国公司的合法管制。

再次，从跨国公司来看，它拥有强大的技术、资金、管理、营销手段，拥有全球一体化生产网络，有越过市场壁垒的超强能力，有母国的支持，这些都是同东道国谈判的筹码。因而在谈判之初，跨国公司的讨价还价能力是非常强大的，但随着时间的推移，跨国公司在东道国的“沉淀成本”会加大，“沉淀成本”在某种程度上成了东道国的“人质”，从而削弱了跨国公司的讨价还价能力。

最后，双方讨价还价能力的强弱不仅取决于各自的绝对实力，还取决于跨国公司能力和东道国市场大小的相对比较。如果跨国公司的力量相对强大（比如通用汽车公司和微软公司），则跨国公司就可能具有强大的讨价还价能力。反之，如果东道国具有非常强大的资源租金（比如石油），而跨国公司之间的竞争非常激烈，则东道国的讨价还价能力会强于跨国公司。

上述分析说明，双方讨价还价能力都各有强弱，这决定了博弈参与人对声誉的取舍。因而具有不同博弈能力的跨国公司（政府），其策略选择是不一样的，下面将用KMRW声誉模型进行详细分析。

二、跨国公司和东道国之间的多阶段正和博弈：一个改进的KMRW声誉模型

1.声誉问题

前面的分析表明，博弈参与人对声誉的取舍决定了其策略选择。博弈论中的无名氏定理(Folk Theorem)说明了这种声誉存在的必要和可能。但实现合作需要局中人具有无限次博弈机会以及足够耐心，这意味着对局中人来说，博弈机会必须是无限的或无成本的。但事实上，就跨国公司与东道国的讨价还价博弈来说，公司的管理人员和国家领导人大多都是有限任期，双方的博弈机会从来都是有限资源，博弈次数不可能是无限的。此外，许多现实结果表明，即使在有限次重复博弈中，合作行为也频繁出现，这是无名氏定理所未能解答的。

对于有限重复博弈的研究结果是，在完全信息下，根据连锁店悖论，重复博弈只要次数有限，就不会有合作出现。而在不完全信息上，根据KMRW定理，只要重复的次数足够大，就能产生合作的情况。

KMRW声誉模型是克瑞普斯等人于1982年提出的，用来解答有限次重复博弈中出现合作现象的问题。其中，定理成立的前提是，要么是以大于零的概率存在肯定会在第一阶段合作的非理性局中人，要么是理性局中人以大于零的概率呈现非理性状态，即必须有无法在事先用经济学假定解释的非理性的局中人存在。

KMRW定理的论证基础是不牢固的，之所以被人们接受，是因为它与许多现实相吻合。但在用来解释跨国公司与东道国政府的稳定合作可能时，需要假定有一方或者双方都存在非理性倾向，为了获得一个满意的解释而引进非理性因素，则意味着模型的设定和分析至少是不令人满意的。博弈均衡的多重性正是对现实的最好刻画。

2.改进的重复博弈声誉模型

假定总共有m个跨国公司、n个东道国政府参与博弈

其中t为时间，总时间标准化为1；i为跨国公司，i=1,2,…,m,j为东道国政府，j=1,2,…,n。（第一个下标表示跨国公司，第二个下标表示东道国政府，以下同）

博弈在任意i和j之间发生，其顺序和次数是不确定的，但在任意时刻t最多只能有一次博弈发生，并且在任意i和j之间，至少能发生1次博弈。

这样设定的理由是，声誉效应是伴随着机会主义问题产生的，如哈特所言，如果没有机会主义问题，声誉就没有存在的必要。

时间和信息都是存在成本的，原因是存在无法知道或无法控制的时间因素和信息因素，也就是说，存在不确定性，解释如下：

(1)信息成本反映在两个方面。不失一般性，为了使问题简化，假定低信息成本等价于一个任意小的正数，而高信息成本等价于正的无穷大。

这样，由于局中人的博弈能力或者处理信息的能力不同，就存在两类不同的局中人。一类是有博弈能力的局中人，由于有条件进入重复博弈模式，而可能有建立声誉以便合作的倾向，定义为“声誉型”跨国公司（政府）；另一类博弈能力或者处理信息的能力较低，为了使不确定性最小化，所以固守纳什均衡策略，定义为“囚徒型”跨国公司（政府）。

博弈局中人了解或控制博弈的次数是需要成本的：令。

对称地，令。

如果跨国公司(政府)是非囚徒型的,且其信息成本低而可以了解或有意愿且能够控制博弈的次数,即称之为“学习型”跨国公司（政府）L(Learner)。学习人具有较强的信息处理能力，掌握的信息多。

相对地，如果局中人是非囚徒型，但在了解或控制博弈次数上具有高的信息成本，或是无意愿使博弈次数有限，即，定义为“声誉型”跨国公司（政府）R(Reputation)。显然，如果某次博弈双方都是声誉人，则该博弈就变成无名氏定理问题，完全合作的情况就会出现。

(2)时间成本反映在3个方面：

①任何博弈人i参与博弈的总次数是有限的，即存在充分大的正数M＞0，N＞0，使

②局中人改变自己的行为模式是需要成本的，假定局中人i在与j进行第次博弈时合作，而在与j进行第次博弈时继续合作，则不需为此付出成本，但若改变行为模式不合作，则需付出成本。反之亦然，从不合作转向合作也需付出代价。这样设定的理由是：改变行为模式需要付出作决策的时间成本；要求局中人采取尽可能简单的有效策略；可排除大多数采用频繁改变行为模式的策略所导致的均衡。特别地，假定对声誉人来说，改变行为模式是高成本的，而对学习人来说则是低成本的。

③新博弈发生的概率是旧博弈的函数，即，f、g为定义在[0,1]上的函数。

最后，在市场中得到3种不同类型的理性局中人：

①囚徒型跨国公司（政府）P（以下若不需要特别指出，则都简称为“囚徒”）：；

②声誉型跨国公司（政府）R（以下若不需要特别指出，则都简称为“声誉人” ）：

③学习型跨国公司（政府）L（以下若不需要特别指出，则都简称为“学习人” ）：

三类参与人的特点是：囚徒由于博弈能力较低，没有支付信息成本和时间成本的能力，倾向于不合作策略；声誉人由于博弈能力较强，有支付信息成本和时间成本的能力，但改变博弈策略的成本巨大；学习人则介乎于囚徒和声誉人之间。他们之间在均衡策略上的差异，不是来自于理性上的差异，而是来自于信息和时间成本上的差异。

现在来考虑这3种理性人在博弈中采用的策略。假定所有的局中人事先都不知道对方的类型，但知道自己的类型。局中人有足够的耐心，即贴现因子δ充分大，接近于1。克瑞普斯文本的囚徒型困境支付矩阵如表1所示。

令表示不合作。

首先考虑囚徒型跨国公司（政府）P的策略，由于：，囚徒型局中人每一次博弈都和其他博弈相互独立，因而与静态博弈没有差别。不合作是唯一的均衡策略。可以得到如下定理：

表1　囚徒困境

命题1在有限跨国公司（政府）的重复囚徒博弈中，只要存在学习型的局中人，则对囚徒跨国公司（政府）来说，｛始终合作｝就不能成为囚徒型的均衡策略，而｛始终不合作｝是其惟一的均衡策略。

证明：以囚徒型跨国公司为例，囚徒型政府的情况可类似地证明。

由于囚徒P博弈能力较低，没有支付信息成本和时间成本的能力，假定时间成本因素只允许囚徒有限次改变行为模式，比如说，只允许改变1次，囚徒型的策略实际上只有｛始终合作：｝或｛始终不合作：｝，或其他等价策略。如果采用｛始终合作｝，由于存在学习人L在某时刻标识出囚徒后，采用机会主义的不合作策略，以对囚徒型进行掠夺。

因而，｛始终合作｝就不能成为囚徒型的均衡策略，而｛始终不合作｝是其惟一的均衡策略。

证毕。

命题1说明，囚徒的｛始终合作｝和｛始终不合作｝策略的优点是不需要付出信息和决策成本，在不存在机会主义的最佳情况下，囚徒可适用无名氏定理选用｛始终合作｝为优化的均衡策略。但只要有机会主义的存在，囚徒就不能用｛始终合作｝策略“免费搭车”。

(3)声誉型跨国公司（政府）R的策略。相对于“针锋相对”策略，声誉人R更喜欢“冷酷策略”，这是因为，根据KMRW定理，“冷酷策略”只要求声誉人在发现对手的背叛行为后一次性地改变行为模式，这样在博弈市场中，声誉人最多只需改变m-1次行为模式。而采用“针锋相对”则要求声誉人被动地应付对方行为模式的变化，实际上将行为模式控制权交于对方之手。由于声誉人无法知晓或控制对方行为模式的变化，因而无法控制自己在改变行为模式上的总成本，这种不确定性不是声誉人所想要的。因而声誉人R更喜欢“冷酷策略”。

显然，声誉型与囚徒型的博弈结果是

声誉人之间的博弈结果是始终合作

声誉人在KMRW定理中相当于非理性人，因而声誉人与学习人的博弈适用KMRW定理。其中，学习人会先背叛声誉人，而声誉人不会先行背叛，理由是声誉人对博弈次数的预期是＋∞，大于学习人的预期，也就是说，声誉人在重复博弈的最后阶段仍然维护自己的声誉。因而有如下：

命题2（合作信号和信息成本）在有限人数的重复囚徒博弈中，学习型或声誉型政府（跨国公司）在和未曾博弈过的对手进行首次博弈时，倾向于无条件选择合作的策略。

证明：以非囚徒型跨国公司i为例，非囚徒型政府可类似证明。

根据KMRW定理和表1的支付矩阵，在两阶段重复博弈的第2阶段，如，则i的期望付是[p·5+(1-p)(-3)]+[p·8+(1-p)·0]=16p-3；如Sij=C，i的期望支付是[p·8+(1-p)·0]=[p·0+(1-p)·0]=8p。所以，当16p-3＞8p，即p＞3/8时，i选择首次合作策略D优于非合作策略C。

另外，若0＜p≤3/8，则i首次不合作的最大期望支付是[8+0+…+0]=8，而首次合作的期望支付是，则首次合作策略就优于首次不合作策略。不失一般性，假定p是属于自然的私人信息，或局中人要知道p就必须支付一个很大的信息成本。

在博弈的全过程中，学习人或声誉人采用首次合作的“冷酷策略”所受的最大可能损失为3(m-1)。显然，只要，学习人或声誉人就没有必要在知道p后再选择首次合作策略，即倾向于五条件选择合作的策略。

证毕。

由以上证明过程可以看出，首次合作策略的意义在于：①发出愿意合作的信号；②节约标识对手和获得对方信息的成本。

(4)学习人L的策略。由于学习人在改变行为模式上是低成本的，假定“针锋相对”策略和“冷酷策略”对学习人是无差别的。因为知道或有意愿控制与具体对手博弈的次数，学习人可以运用机会主义策略最大化自己的期望报酬。

如果囚徒是充分理性的，那么学习人针对囚徒的机会主义策略就仅仅是一种可置信的威胁，学习人跨国公司（政府）与囚徒政府（跨国公司）的博弈结果是

考虑学习人L在与局中人进行重复博弈时采用末期机会主义策略；即从重复博弈一开始就坚持“冷酷策略”，直到倒数第2次博弈，最后一次博弈时不合作。要说明这是学习人的一个均衡策略。

命题3（不合作信号和声誉滥用）在有限人数的重复囚徒型政府（跨国公司）博弈中，学习型的局中人在与其他非囚徒型局中人进行博弈时，倾向于仅在预期的最后一次博弈时主动选择不合作策略。

证明：以学习型跨国公司L与其他非囚徒型政府j博弈为例，学习型政府L与其他非囚徒型跨国公司i博弈的情况可类似证明。根据KMRW定理，重复博弈的结果是

其中，合作次数为-1，不合作的博弈次数为

若由两个学习人进行博弈，则总有一方先于对方或与对方同时采用背叛策略，因而实际上由首先背叛的一方控制，称首先背叛的一方为控制方。显然，在与声誉人博弈时，学习人总是控制方，而在与囚徒博弈时，囚徒总是控制方。当学习人为控制方时，解下述简单规划：

得，这就是说控制方的最优策是最后一次博弈时背叛。

此外，在本模型中，学习人率先背叛，则提前一轮率先背叛的额外收益是8-5=3，但机会损失是5，因而边际收益是(8-5)-5=-2，得不偿失，所以没有提前背叛的动机。

证毕。

末期机会主义策略的意义是：①发出终止合作的信号；②获得机会主义利益或防止对方机会主义带来的损失。

由以上三个定理及其论证过程可得：

推论1

(1)要使重复博弈中出现合作，不必要求有非理性人存在。在总人数为有限人数重复博弈中，只要至少有一家非囚徒型跨国公司和一家非囚徒型政府，则稳定的合作就可能出现。

(2)只要囚徒型和学习型局中人同时存在，就不能在重复博弈中排除囚徒型局中人以坚持不合作为均衡策略的现象。

(3)囚徒型、声誉和学习人在均衡策略上的差异，不是来自于理性上的差异，而是来自于信息和时间成本上的差异。

三、小结

改进后的声誉模型揭示，信息成本和获取信息能力决定了博弈双方对声誉的取舍。在有限人数的重复博弈模型中，高信息成本的囚徒以不合作为均衡策略。有获取信息和标识能力的声誉人以“冷酷策略”为均衡策略来最大化未来收益和声誉的价值，低信息成本的学习人则采用末期机会主义以最大化合作收益和机会主义利益。

本文的声誉模型与KMRW声誉模型相比，有以下几方面的优点：

(1)增加了对信息成本和时间成本的考虑，使模型可以区分出不同类型的理性人。

(2)KMRW声誉模型为双人博弈模型。本文声誉模型为有限人数的多人多阶段博弈模型，可以将有博弈能力的理性人和无博弈能力的理性人区别开来。

(3)新的声誉模型排除了非理性人存在的必要。在有限人数重复博弈中，只要至少有一家非囚徒型跨国公司和一家非囚徒型政府存在，以合作为均衡策略的情况就会出现。而只要囚徒型的跨国公司和政府同时存在，以不合作为均衡策略的情况就会存在，这一点在KMRW定理中未能得到阐述。也就是说，信息的完全程度和对称程度越高，合作的可能性就越大，反之亦然。这样，KMRW声誉模型中存在的问题得到了较好的解决。

由于其假设更接近现实，更具有普遍性，模型对许多社会现象无疑有更强的解释力。另外，本文强调了声誉价值、信息成本、时间成本等，其应用前景有待进一步挖掘。

标签：重复博弈论文; 合作博弈论文; 机会主义行为论文; 有限政府论文; 能力模型论文; 博弈论论文;

跨国公司与东道国政府的多阶段正和博弈分析_重复博弈论文

猜你喜欢