从数据处理方法看时变因素对人口迁移选择性的影响_样本量论文

论时变性因素对人口迁移选择性的影响——基于数据处理方法的视角，本文主要内容关键词为：数据处理论文,选择性论文,视角论文,人口论文,因素论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、研究背景

迁移者的个体特征会对迁移的决策行为产生重大影响。然而，由于迁移涉及迁移者在至少两个时点和两个地点上的变动，使得迁移研究变得更为复杂。因为研究对象的部分特征（年龄、婚姻状态等）会随着时间的变化而发生改变，忽略这种时变性因素容易在方法论上出现谬误，从而影响研究结果的可靠性。国内学者对此已有关注，一些文献也指出应当注意时变性变量对研究结果的影响。例如，段成荣(2000)指出，在国内研究迁移决定因素的文献中，在方法论上有一个共同的特点，就是用调查时点上的个人特征来研究人口迁移行为。他认为，这种处理忽略了时变性变量带来的“同时性偏差”，有时会导致变量之间的虚假关系。而正确处理同时性偏差，将有助于消除这种虚假关系，同时还能够增强统计模型的解释力度。

从国内研究来说，忽略时变性因素的主要原因是中国研究资料多为截面数据，较少有调查对迁移者进行连续的长期追踪，从而忽略时变性因素是一种不得已的选择。尽管如此，笔者认为，在数据资料具备消除时变性特征影响的结构时，应当进行有关的数据处理，以充分反映迁移发生时被调查对象的真实特性。目前来看，1987年全国人口调查、1988年全国生育节育抽样调查和2000年全国人口普查（简称“五普”数据）中的迁移数据就具有这样的结构，能够反映出被调查者发生迁移的时点和时变性特征。

本文利用“五普”数据，通过数据处理与模型分析结果的比较，希望明确迁移选择性与时变性因素之间的关系，以及挖掘更深层次的信息。

二、资料来源

本文利用“五普”0.95‰的微观数据来进行分析，其中蕴涵了本研究所需要的必要信息。由于“五普”0.95‰的样本量非常大，为此笔者对其进行了10%的随机抽样，得到初步的样本量为118 324个。为了讨论的方便，在本研究中将主要对1998～2000年间15岁及以上人口发生的省际迁移行为进行分析，对在1998年前发生的跨省迁移行为将不视为迁移。同时，本文将只关注影响跨省迁移决策的4种个人因素，即年龄、性别、婚姻和教育水平，其中只有性别是非时变性变量，并在样本中进一步剔除了年龄在15岁以下的人口，最终用于分析的样本量为90 686个。

三、迁移数据中时变性因素的处理方法

根据笔者所了解的情况，处理截面迁移数据的方法有多种，下面主要就3种方法进行探讨。第一种方法可以称为调查时点法。这是国内迁移研究文献中使用较多的办法，即按被调查者在调查时点的信息来确定变量的值。第二种方法可以称为局部倒推法，仅仅将发生迁移行为的人还原到迁移发生时的状态，利用调查数据中的有关信息来倒推迁移者在迁移发生时的属性。这样能够准确地把握迁移者在做出迁移决策时的人口经济特征。段成荣(2000)采用了这种方法。第三种方法可以称为全面倒推法。这是由Ma等(1997)提出来的人年分解方法①。这种方法与段成荣所用方法的主要区别是：(1)全面倒推法不仅将迁移者随时间而改变的人口经济特征恢复到迁移时点，还将未迁移者随时间而改变的人口经济特征倒推到迁移发生年之初。(2)人年分解方法以年为分割界面，将每个人的信息分年倒推到每年初的状态，从而使每个观测值在每个研究年份形成一套新的截面数据资料，样本量以研究年数为基数增加，形成一套合成的人口数据。郭志刚(1999)在分析省际迁移的离散时间风险模型实例中也提到了类似的人年数据组处理方法，但他的方法对数据结构的要求与“五普”资料不完全相同。

下面以两个具体的观察值为例，更直观地展示3种数据处理方法。

例1：调查对象A，在调查时点上的信息是：年龄为30岁，男性，1999年结婚，1998年时发生了省际迁移，教育水平为研究生毕业，数据处理结果如表1所示。

例2：调查对象B，调查时点上的信息是：年龄为18岁，男性，未婚，1999年时发生了省际迁移，教育水平为高中毕业，处理结果如表2所示。

从上述例子可以看出，调查时点法的不当之处在于忽略了变量属性随时间的改变，局部倒推法对这一缺点进行了局部的修正，同时作出一个隐含的假定，即研究的时间范围不是以单独一年界定的。该方法考察的是多年内的迁移行为，但设定的参照群体却是调查时点上未迁移的人群。全面倒推法进一步将迁移考察的时间限定在单独一年内，考察的是一年内具有迁移风险的人群。当把连续多年的数据放到一起时，则是一个多年加权平均的迁移风险研究。因此，前两种方法中样本量不变，全面倒推法下样本量会随着研究年份的增加而倍增。

四、变量的描述性分析

（一）对分析变量的说明

因变量是省际迁移：在研究范围内发生省际迁移为1，未发生为0。年龄：分为15～19岁、20～24岁、25～29岁、30～34岁、35～39岁、40～44岁、45岁及以上。45岁及以上为参照组。性别：女性为1，男性为0。受教育年限：按连续变量处理，设定文盲为0年，半文盲为1年，小学毕业为6年，初中毕业为9年，高中毕业为12年，中专毕业为13年，大专毕业为15年，大学毕业为16年，研究生毕业为19年。当然，各种受教育程度还存在着毕业与在校、辍学等状态的区分，为了简化，本文不再细分。婚姻状态：未婚为1，曾婚为0。曾婚指有过婚姻经历的人，与未婚者对应。

（二）描述性分析与方法比较

在前面设定的方法下，得到了所要研究对象在年龄、性别、受教育年限、婚姻状态方面的描述性结果（见表3）。可以看到，样本量方面调查时点法和局部倒推法相同，全面倒推法是前两种方法的3倍，但3种方法下迁移者的数量没有变化。

1.年龄②。年龄是影响迁移决策的重要时变性变量。调查时点法下，对包括迁移者和非迁移者的样本全体而言，人口的平均年龄为39.67岁。而局部倒推法由于将迁移者的年龄倒推回到迁移发生年年初时的年龄，其平均年龄下降到39.65岁。对迁移者的平均年龄来说，这两种方法得到的迁移者平均年龄也不一致，局部倒推法下平均年龄为26.77岁，略低于调查时点法的27.51岁，更是远低于整个分析样本的平均年龄39.67岁，差值为12.9岁。这印证了迁移的年龄选择性，而且局部倒推法处理后迁移人口的年龄进一步下降了。在全面倒推法下，得到样本的平均年龄为38.67岁。这与局部倒推法的结果一致，说明我们的数据处理是正确的。比较分析表明说明两点：(1)迁移人口具有明显的年龄选择性，年轻人更容易迁移，(2)但全面倒推法能更准确地把握年龄与迁移行为之间的关系。

2.性别。性别是唯一不随时间改变的变量，3种处理方法下结果一致。数据表明，样本中男女比例基本一致，但迁移者中女性的比例要低近4个百分点。可见，女性的迁移风险总体上要略低于男性，即迁移的性别选择偏向于男性。

3.受教育年限。3种方法下，样本全体的平均受教育年限分别为7.829年、7.827年和7.794年，迁移者的平均受教育年限则分别为9.216年、9.146年和9.146年，数值依次降低或不变。局部倒推法使全体样本、迁移者的受教育年限降低了，与迁移实际发生时的真实受教育水平更加贴近。全面倒推法样本的平均受教育年限被“摊薄”，全体样本的均值下降，迁移者的均值下降（这与局部倒推法相同）。

4.婚姻状态。在3种方法下，样本全体的未婚比例略有不同，分别为20.38%、20.43%、21.65%，迁移者的未婚比例也呈大幅上升的趋势，分别为46.78%、48.46%、48.46%。在局部倒推法下，未婚者的比例提高了，因为已婚者被倒推还原成了未婚。全面倒推法下，样本中未迁移者的婚姻状态也进行了逐年的修正，因此，未婚比例要高出前两种方法很多。数据同时也表明，未婚者更容易发生迁移行为。

比较分析表明，我们的处理方法识别了时变性的影响，年龄、教育、婚姻等时变性因素的均值和方差发生了明显变化，忽略这些因素将带来分析上的风险。

五、时变性影响的Logistic模型分析与比较

上述分析表明，时变性变量的均值及均方差随着时间而变化。进一步还需要确定不同处理方法下变量间关系是否稳定，是否具有统计上的显著意义。下面利用Logistic模型的结果来审视这些问题。Logistic模型是处理二分变量的标准方法，也是迁移研究中的常用工具，表4列出了3种处理方法下Logistic回归分析的结果。通过模型设定选择了参照组，年龄的参照组为45岁及以上组，性别的参照组为男性，婚姻的参照组为曾婚。

（一）模型拟合优度

首先看一下模型的总体拟合效果。王济川、郭志刚(2001)指出，Hosmer和Lemeshow的拟合优度检验是估价Logistic回归模型的拟合优度最为广泛应用的指标，可以据此探讨模型对数据的拟合情况。根据该检验，在自由度为8的情况下，调查时点法下的卡方值为13.10，P值为0.108，局部倒推法下的卡方值为6.93，P值为0.544，全面倒推法下的卡方值为10.90，P值为0.143，卡方统计结果均不显著。因此，不能拒绝3个模型对数据都拟合得很好的假设。

如果利用类确定系数伪R[2]进行比较，3个模型中得到的伪R[2]分别为0.0905、0.0944、0.0674。由此看来，前两种方法具有更高的解释力度，局部倒推法较之调查时点法提升了模型的解释能力，而全面倒推法的解释力度最低③。段成荣(2000)认为，考虑了时变性因素后的模型对迁移风险的类解释系数会上升。本研究证实了他的推断。

笔者认为，模型拟合优度考察的是模型对数据的拟合能力，并不能对数据处理方法的优劣进行有效的判别。就本研究而言亦是如此，因为3个模型各自的样本量不同；其数据结构发生了变化。在此情况下，从回归系数大小的变化及变量影响的统计显著性角度来考察分析方法差异对迁移选择性的影响是可行的选择。

（二）回归系数的差异

总体来看，3种处理方法下各变量对迁移选择性的影响基本一致，尽管变量的回归系数beta值差异明显，而且部分变量的作用在统计显著性上发生了变化，但自变量作用的方向改变。为了分析时变性的影响，下面分别就回归系数的变化和标准误差的变化进行说明（见表4）。

1.年龄。各个模型均显示，与45岁及以上人口相比，其他年龄段人口的迁移风险都较高，其中20～24岁组迁移风险最高，25～29岁组（局部倒推法）、15～19岁组（调查时点法和全面倒推法）迁移风险次之，然后依次是30～34、35～39、40～44岁组人口。即随着年龄增加迁移风险先上升，然后达到峰值，最后迁移风险随年龄增加而下降。这基本反映了迁移的年龄选择性模式，与众多学者的研究一致。

然而，不同模型中相同年龄组的回归系数beta尽管都在1‰的统计水平上显著，但大小明显不同。与调查时点法相比，局部倒推法下所有年龄组的beta偏高，全面倒推法下都偏低。这可能是由于局部倒推法下迁移者的参照组（未迁移者）年龄相对上升，而全面倒推法下迁移者的参照组的年龄平均值下降。

2.性别。性别不是随时间而改变的变量，但不同处理方法下性别对迁移的影响有了一定的变化，而且3种情况下与描述性分析中的结果并不一致。在调查时点法下，beta等于-0.0556，Z值为-1.32。这说明女性比男性迁移风险略低，但这种差异在统计上并不显著。在局部倒推法下，beta值下降为-0.0803，Z值为下降为-1.91，女性比男性迁移风险进一步下降，而且接近了5%的统计显著水平。在全面倒推法下，beta值和Z值与调查时点法基本一致。

3.受教育年限。迁移具有较强的教育选择性这一点，在调查时点法下和全面倒推法下得到了证实，而且全面倒推法下，随着受教育年限增加，迁移风险也不断增加，体现出人口迁移具有较强的教育选择性。然而，局部倒推法下显示，尽管受教育年限增加对迁移的影响有着正向的影响，但这种影响力(beta)并不如其他模型中大，并且在统计上只是接近于5%的显著水平。

4.婚姻状态。调查时点法、局部倒推法、全面倒推法一致表明，单身者的迁移风险远高于有过婚姻经历的人，而且这种差异在统计上显著。但3种方法的beta值有差异，与调查时点法(0.3956)相比，局部倒推法(0.2081)大大低估了单身者的迁移风险，全面倒推法(0.3515)估计值偏低。

可见，不同的处理方法对因变量与自变量间的关系产生了重大的影响。时变性因素不仅对时变性变量本身有影响，而且对非时变性变量（如性别）在回归分析中的统计显著性和回归系数的大小产生影响。

六、结论与讨论

从方法论角度看，迁移研究中的同时性偏差是值得关注的重要问题。正如艾尔·巴比(2005)指出，因果关系成立的基本原则之一就是原因必须先于结果发生，忽略变量随时间而改变的属性就不能构建正确的因果关系。本研究对此进行了数据处理方法和模型模拟的演绎，结果表明，不同数据处理方法使得时变性因素对迁移选择性有明显影响，甚至改变变量作用的方向。从而忽略迁移过程前后个体的人口经济特征的变化，将可能导致我们对迁移过程中的年龄、教育、婚姻等时变性因素的选择性做出错误的结论。因此，对于调查时点法，除非数据结构不许可，不应当选择该方法。局部倒推法本质上是将各年的迁移者假想为2000年时发生的迁移，假借2000年初时人群的年龄、婚姻、性别、教育水平等特征为参照对象，在方法上有一定的合理性，但忽略了不同迁移年份间决策背景的差异。全面倒推法将所有被调查者的人口经济特征按年倒推回到了每年初时的状态，从而使得以年为基准的迁移者与参照群体及其特征之间具备了可比性，有着独特的优点。

如果对全面倒推法下的分年数据进一步分析，这种优点更加明朗。笔者的初步尝试发现，当仅仅选取2000年为研究年份进行分析时，教育对迁移风险的影响不显著，而以1999年和1998年为研究年份进行分析时，则不存在这种情况。事实上，这从数据构成本身和中国迁移的特点可以得到解释。“五普”统计时点截止到当年11月1日零时，距离中国传统节日春节还比较远。当以2000年为研究年份时，大量的外出务工者还没有返回老家。这些务工者大部分是农村人，他们平均受教育程度较低是一个不争的事实，因此2000年的截面数据出现迁移的教育选择性不显著是可以理解的。而在普查数据中保留下来的1999和1998年中迁移人口，与未迁移人口比，很可能有着较高的平均受教育水平。因此，全面倒推法能够发现教育选择性的中国特色，厘清选择性与时变性之间的辩证关系，有助于发现更有价值的信息。

但对于全面倒推法的应用需要进行更深入的思考。例如，能否将人年分解法下3年的数据合并用于描述性分析和回归分析。因为这种合并处理需要警惕3个统计事实：(1)合并之后观察值在跨年间存在着序列相关；(2)合并后的样本存在着参照组混同的问题，这相当于一个面板数据；(3)合并后的数据使得样本量成倍增加。这三点对统计方法应用和统计结果的可信性提出了挑战。究竟影响如何，有待于进一步探讨。

注释：

①这一方法曾在笔者的硕士论文(Tang，2005)和唐家龙、马忠东(2007)的文章中使用过，这里主要从方法论的角度进行的阐释与思考。

②在局部倒推和全面倒推中，没有将年龄低于15岁的观测值剔除，主要是为了便于说明数据处理方法的可靠性。同样，后面的统计模型中也保留了那些年龄小于15岁的观测值。

③DeMaris(1992)认为，Logistic回归中采用的是似然比方法，不应该将伪R[2]作为被解释的比例R[2]。

标签：样本量论文; 数据迁移论文; 状态变量论文; 统计模型论文; 中国人口迁移论文; 风险模型论文; 统计调查论文; 变量论文;

从数据处理方法看时变因素对人口迁移选择性的影响_样本量论文

猜你喜欢