多元统计分析技术在人口研究中的应用_统计分析论文

多元统计分析技术在人口研究中的应用,本文主要内容关键词为:统计分析论文,人口论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着计算机技术的发展和统计分析软件的日益普及,统计分析技术在人口研究中得到了日益广泛的应用。在我国20世纪70年代和80年代的人口研究文章中,使用多元统计分析技术的凤毛麟角。进入90年代以来,随着各种统计分析技术被介绍到国内来,以及统计分析软件变得越来越易学好用,统计分析技术的应用在人口学研究中得到了长足发展,且不仅局限于频数表和交叉表等基本的统计分析,象多元线性回归,Logistic回归等多元统计分析技术的应用也呈上升趋势(郝虹生,1998)。多元统计分析技术为我们解释人口现象,定量地分析人口因素和社会、经济等因素之间错综复杂的关系提供了有利的分析工具。由于在我国的人口学研究领域应用多元统计分析技术的时间不长,处于探索阶段,而且人口学研究工作者来自于不同的研究领域,很多人没有系统地学过统计分析技术,因此在使用这些方法时难免会有一些问题。本文旨在对目前多元统计分析方法在人口学研究中应用的现状进行回顾总结,发现主要的问题所在,并针对有些具体问题进行探讨,这将对促进统计分析技术在仔国人口研究领域科学地应用具有积极地意义。

1 应用现状

根据对《人口研究》、《中国人口科学》、《人口与经济》和《人口学刊》四种核心期刊1990~2000年中发表的论文进行检索,其中涉及使用多元统计分析技术的论文共64篇(见表1),他们应该代表了目前人口学领域应用统计分析技术的总体水平,因此本文以这64篇论文作为分析对象。

表1 论文的来源

杂志 篇数

人口研究19

中国人口科学

17

人口与经济

 18

人口学刊10

合计

64

1.1 方法

统计分析方法应用出现了多样化的趋势。64篇论文中共涉及到10种多元统计分析方法,其中应用最多的是多元线性回归和Logistic回归,二者合计占77%;其次是通径分析,占10.8%。因子分析和聚类分析的应用较少,比例风险模型、典型相关、MCA分析和Probit分析各出现了一次。多元线性回归和Logistic回归的应用占了绝对主导地位,这表明这两种方法已经被国内越来越多的人口学家所熟悉和掌握。比例风险模型、典型相关等更高级的统计分析方法也开始在实践中加以应用。

表2 统计分析方法分布

方法 

 频数 比例(%)

多元线性回归

 36

 48.6

Logistic回归

 21

 28.4

通径分析  8

 10.8

因子分析  3

  4.1

聚类分析  2

  2.7

其它

  4

  5.4

合计

 74

 100

绝大多数论文中只使用了一种多元统计分析方法,13.5%的论文中使用了两种多元统计分析方法。使用两种多元统计分析方法的论文中,其中一种方法90%是多元线性回归,另一种方法涉及到通径分析、Logistic回归、因子分析、比例风险模型和典型相关。

1.2 数据来源和类型

从文章使用的数据来源看,以各种抽样调查和典型调查数据为主,占60%左右,使用《人口统计年鉴》、《人口数据表》和其它公开发表的统计年鉴中的数据也占有相当比例,使用人口普查数据的文章不到10%。

从数据的类型来看,以横截面数据占绝对主导地位,用到时间序列数据的文章只有3篇。统计方法的选择在一定程度上取决于变量的测度水平。我们把变量按因变量和自变量分类(注:对于不区分因变量和自变量的方法,如因子分析、聚类分析,假设其因变量和自变量相同。),考察其测度水平。因为是多元统计分析,自变量的个数大于等于2,我们取自变量中最低的测度水平作为自变量的测度水平。从因变量来看,间距测度的变量最多,占60.8%;其次是名义测度的变量,占31.1%;序次变量较少。从自变量的角度来看,自变量中包括名义变量的最多,接近60%,自变量全部为间距测度的占1/3左右(参见表3)。多元统计分析方法中序次测度变量和名义测度变量的处理方法一样,所以一般并不加以区分,序次测度变量常作为名义测度变量来用,把二者合称为分类变量。本次研究的论文中有2/3的分析中有分类变量。

表3 变量的类型

1.3 分析单位和内容

分析单位指所用的数据资料是以个人或家庭等个体为单位,还是以县、省、国家等地区作为分析单位,前者称为个体单位;分析的是微观行为模式;后者称为集合单位,反映的是宏观行为模式。本次分析中使用个体单位资料的占69%,集合单位资料占31%。

分析内容十分广泛,涉及到人口研究的各个方面。按照统计分析的内容可以分为九个大的方面,按所占的比例依次为:(1)生殖健康(17.5%),包括婚前性行为,婚前怀孕、避孕、人工流产以及出生婴儿质量等方面;(2)生育(15.9%),主要集中在分析生育水平的影响因素;(3)老年(14.3%),包括老年人的居住类型、经济供养、心理健康、日常生活能力、利用医疗服务状况等方面;(4)社会经济发展(12.7%),涉及到人均收入水平、医疗保障水平、非农化水平、居住水平、妇女地位等方面;(5)婚姻家庭(11.1%),涉及婚姻的稳定性、招赘婚姻、立户水平、孩子效用、孩子抚养费用等;(6)死亡(9.5%),主要集中在分析影响死亡率和婴儿死亡率的影响因素;(7)迁移(9.5%),集中在分析是否发生迁移,人口迁移的影响因素方面;(8)就业(7.9%),包括人口职业结构变动、非农就业的决定因素、待业、是否再就业等内容;(9)环境(1.6%),涉及到环境问题的文章只有1篇。

2 存在的主要问题

2.1 方法使用错误

选择什么统计方法取决于研究的目的和所能获得的数据资料。本次研究所涉及的论文中,绝大多数统计分析的目的是分析对某一人口变量的主要影响因素及这些因素作用的相对大小,或者更进一步地分析影响途径和影响程度。因此,使用哪一种统计方法主要决定于你所拥有的数据资料的类型,即变量的测度水平。每一种统计方法对变量的测度水平都有自己的要求,这是最基本的条件,只有满足条件的分析结果才是有意义的。

本次分析中Logistic回归、因子分析、聚类分析的变量都满足要求,出现问题比较大的是多元线性回归和通径分析,通径分析是建立一组线性回归方程,因此对变量的要求和多元线性回归一样。多元线性回归要求因变量必须为间距测度或以上的变量,自变量可以是分类变量,但当自变量中有分类变量时,必须做虚拟变量回归,而不是普通的线性回归。从我们检索到的论文看,在多元线性回归和通径分析的应用中还存在着比较严重的问题,回归分析和通径分析中因变量是分类变量的情况并不是个别现象,近2/3的回归分析中自变量有分类变量,超过1/3的路径分析中外生变量有分类变量,但使用虚拟变量回归的论文只有4篇(参见表4)。

表4 变量的测度水平分布

注:这里通径分析中的因变量指内生变量,自变量指外生变量。

2.2 模型的评价和检验

在统计分析中模型的评价和检验是很重要的部分,在介绍统计方法的书中都会谈到模型的评价和检验问题,但在实际应用中却往往被忽略,作者经常只关注对结果的分析。

对模型进行评价是要反映一个模型的效率,即模型在多大程度上解释了因变量的变化,模型对观测数据的拟合程度如何,每一种统计分析方法都有自己的模型评价指标和方法。模型的检验是检验模型的统计显著性,由于大部分研究都是基于抽样调查数据做出的,所估计出的结果只是总体参数的一个点估计,由于抽样误差的存在,参数估计结果不大可能出现为零的情形,统计检验的作用在于判断模型中的关系是真的存在,还是由抽样误差造成的,只有统计显著的结果才是有意义的。因此,模型的评价和检验结果不是可有可无的,而是统计分析结果的一部分,应该和参数估计结果一起在报告中给出。这样,读者才能对文章的分析和结论有一个更好的把握。比如,如果一个回归分析的R[2]只有0.3,而这一结果并没在报告中给出,在报告中只是分析第一重要的影响因素,第二重要的影响因素,等等,这无疑会误导读者。因为,最重要的影响因素实际上并没包括在模型中。

从本次分析的论文看,对模型的评价和检验部分暴露出一些问题,不同的方法问题重点有所不同。表5给出了使用频率较高的两种方法的模型检验和评价结果。从总体来看,多元线性回归的统计规范性做的最好。多元回归分析中,决大多数论文在文章中都列出或在文章中提到了对模型的检验情况,对模型的评价方面要差一些,只有2/3的文章给出了R[2]、调整R[2]或R等指标。Logistic回归分析中,所有的结果都给出了显著性检验的结果,但在模型的评价方面做的比较差。这和这一方法本身有关,线性回归中有一个意义很明确的指标R[2],表示了模型的解释能力,但在Logistic回归中没有对应的指标,统计学家设计出的一些近似R[2]的指标在计算值上存在着很大差异,因此,在评价模型拟合程度方面用处不大,关于这些度量本身一直也存在着较大的争议(注:郭志刚主编.社会统计分析方法-SPSS软件应用.中国人民大学出版社,1999:196)。但这并不意味着不需要评价Logistic回归模型,在SPSS的Logistic回归报告中提供了一个分类表(Classification Table),它给出了样本中事件发生和不发生的观测结果与估计结果的交互表,并给出了每一类中估计正确的百分比和整体估计正确的百分比。这一结果很直观地反映了模型对数据的解释能力,有很大的实用价值,但在实践中尚未引起重视,在我们检索到的21篇应用Logistic回归的文章中,只有3篇给出了估计正确率这一指标。

表5 模型的评价和检验状况

对通径分析模型的检验,不仅指模型中具体回归方程的检验,更为重要的是对通径分析理论模型的检验。通径分析具有很强的理论依赖性,其关键的一步是建立变量之间的因果关系结构图,然后用实际资料检验这种假设结构是否成立,如果不成立则需要修改模型,直到最后得到一个通过检验能够接受的模型。不管是探测性研究还是证实性研究,因果结构关系的定性分析都是必要的,它可以避免犯一些因果关系假设的逻辑错误。从本次研究的论文看,一些论文对因果结构关系缺乏理论分析,因果关系设置比较随意。比如对死亡率的分析中,出现了出生率→死亡率的直接影响通径。个别文章甚至没有因果结构图,也没有方程,只是给出了一个直接影响和间接影响的列表。本次分析的论文中只有一半的文章给出了方程检验和评价的结果。

2.3 模型的解释

在20世纪80年代,多元线性回归也是应用最多的方法,当时对回归系数的错误解释是相当普遍的。主要表现在,直接将各个自变量的回归系数的绝对量进行比较,并依其大小顺序来断定各个自变量对因变量的相对影响程度,回归系数绝对值最大的,即被认为是对因变量的影响最大,因而与其它自变量相比较而言该自变量最重要(郝虹生,1987)。在本次检索到的论文中没有再出现类似的错误。

Logistic回归解释中问题集中在对发生比(odds)的解释上。SPSS软件中Logistic回归结果的报告中直接给出了EXP(b)的结果,它等于发生比率OR(Odds Ratio)或称为相对风险比RRR(Relative Risk Ratio)。用公式表示为:

,表示自变量一个单位的变化,或者相对于参照类而言,发生比的变化,比如,EXP(b[,i])=2,表示新发生比Ω[*]为原来发生比Ω的2倍。把发生比解释为概率的文章不是个别现象。例如,一篇文章中分析农民是否参加农村社会养老保险的影响因素,地区是其中的一个控制变量,估计得到地区A的相对风险比为EXP(1.892)=6.6273,作者解释为,如果其他自变量相同,A地区的农民参加社会养老保险的概率是参照地区的6.6273倍。这种解释是错误的,实际应该是A地区的农民参加社会养老保险的发生比是参照地区的6.6273倍,发生比是事件发生与不发生的概率之比,Ω是概率P的单调增函数,但不是线性的。

在对通径分析结果的解释上,集中在分析直接影响和间接影响。但有些论文(占37.5%)把通径系数的绝对值按直接影响、间接影响和总影响分别相加,计算出百分比,然后进行分析,这是一种误用。我们以本次检索到的一个分析实例加以说明该实例分析的最终结果变量是总和生育率y,X[,1]是唯一的外生变量,X[,2]、X[,3]、X[,4]、X[,5]、X[,6]是中间变量(参见图1)。作者在分析直接影响和间接影响时,把直接影响下的通径系数的绝对值相加得到1.8592,然后计算出百分比,根据这些百分比值的大小,就得出结论。对y直接影响最大的因素是X[,5],占全部直接影响的45.12%。同样,作者对间接影响下的所谓通径系数也做了同样的分析,得出结论间接影响最大的因素是X[,1],占全部间接影响的57.81%(参见表6)。这种解释方法显然是不正确的,所谓直接影响和间接影响是相对每一个变量而言的,通径分析中把一个变量对最终结果变量的影响分解为直接影响和间接影响,横向具有可加性,因此可以横向计算百分比,它反映了该变量对最终结果变量的影响模式,但纵向的系数是不可相加的,百分比没有意义。X[,1]对y的总影响是X[,1]与y之间的简单回归的标准化系数,其他中间变量对y的总影响的分解是把经该变量传递的影响都表达为该变量的函数后得到的。比如,要分析X[,4]和X[,5]对y的影响,根据通径分析图,有下式:

图1 通径分析图

由以上分析可以看到,表6中间接影响和总影响下的系数不是通径系数,而是有关通径上的通径系数乘积之和。标为通径系数是错误的,这些系数是在不同的控制条件下得到的,把他们加起来毫无意义。直接影响下的系数是通径系数,他们表示的是以这些变量为自变量,y为因变量进行回归的标准回归系数,这些系数的大小反映了影响的相对重要程度,可以比较大小,但其绝对值相加也不表示任何意义,这些变量对y的综合解释能力为R[2]。

3 小结和讨论

从以上的分析可以看出,目前统计分析技术在人口研究的应用中主要存在以下三个方面的问题:(1)统计分析方法的误用。对所用方法的适用范围、限制条件不清楚,或者清楚,但在实际应用中也没有引起足够的重视,其中多元线性回归最为严重。(2)统计分析报告不规范,一些重要的统计结果在报告中没有给出。(3)对统计结果的错误解释。对一些重要的统计量的含义不清楚,缺乏对结果可能存在的问题和局限性的讨论。绝大多数模型的目的是为了解释现象,但缺乏对模型解释有效性的讨论。

本文的根本目的并不在于指出在这些统计分析方法的应用中所存在的问题,而在于通过对这些问题的讨论引起同行对这一类问题的重视,促进我国的人口学工作者在实际中应用统计分析技术的整体水平的提高。只有研究的目标明确、有适当的资料、选用适当的统计方法三者统一起来,才可能产生一个科学的研究结果。要减少统计分析方法的误用和滥用,在以下三个方面今后应该引起关注:

表6 各因素对y的直接、间接和总影响力

(1)人口学者应该加强对统计分析方法的系统学习。这是提高正确应用统计分析方法应用水平的根本途径。在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的、对象和条件有所了解,这样本文所提到的很多问题都会避免。很多人了解和学习统计方法不是从统计书上,而是从别人的研究文章中,这样照猫画虎,以误传误的现象不是个别的。

(2)编辑人员应该提高编审水平,严把质量关,使一些有明显错误的文章修改后再发表。

(3)加强统计分析方法的介绍和普及工作。社会科学研究中涉及到的大部分变量是分类变量,而绝大部分的多元统计分析技术,要求全部变量或一部分变量为间距测度等级,数据资料的限制制约了统计分析技术的应用和造成了相当多的统计分析方法误用。因此,需要加强介绍和普及更适用的统计方法,如对数线性模型、多重分类分析方法(Multiple Classification Analysis,简称MCA)。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多元统计分析技术在人口研究中的应用_统计分析论文
下载Doc文档

猜你喜欢