多目标抽样调查中删除指标变量的预测方法_误差分析论文

多目标抽样调查中删除指标变量的预测方法,本文主要内容关键词为:变量论文,指标论文,目标论文,方法论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:O212 文献标识码:A

多目标抽样调查中调查项目设计的调查表包含着繁多的指标,这种调查表的优点是可以反映出调查单位的全面信息,调查员可以比较方便地对调查项目的各指标进行统计,但有很多缺点:由于指标繁多、数目庞大、被调查单位负担沉重,容易产生错登、漏登现象;调查指标多、调查任务繁重,使得调查周期长,费用消耗高。因此,对简化调查表(删除一些指标)又不失去全面调查表所提供的信息则具有重要意义。

一、多指标变量的删除与预测模型

(一)多目标变量指标删除方法 有前进法:选择最弱(或不相关甚至独立)相关的指标作为调查指标;后退法:删除掉容易被其它指标代表(用数量表示的指标),剩余指标作为调查指标。还有“强弱相关结合法”,“广义典型相关系数法”和“聚类分析法”,这里介绍“聚类分析法”。

从总体中选取一部分有代表性的指标途径有两种:一是从指标体系中去分析这些指标之间的关系,找出一部分代表性强的指标;二是从数据出发,用数理统计的方法选取一部分“代表”性指标(即变量)。把这两种方法结合起来较为理想。下面对“聚类分析法”做了尝试。

聚类分析的基本思想是:从一批样品的多个观测指标中,找出能度量样品之间或指标之间相似程度的统计量,构成一个对称的相似矩阵,在此基础上进一步找寻各样品(或变量)之间的相似程度,按相似程度的大小,把样品(或变量)逐一归类,关系密切的归类聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有样品或变量都聚集完毕,形成一个亲疏关系谱系图,用以更自然地和直观地显示分类对象(个体或指标)的差异和联系。对变量进行聚类分析的统计量有:

1.相似系数

用相似系数或相关系数做为距离测度对指标进行聚类,根据实际情况,选取合适的阀值可以将总体指标分成几类,类内指标之间相关性很强,用一个指标可以反映类内所有指标的绝大部分信息,而类与类之间的指标相关性较弱。当然,一个类里面一般含有K(K≥1)个指标,怎样从K个指标中选择一个最具有代表性的指标呢?第一种方法:是从定性的角度出发,在所有类内指标中,指标的地位是不一样的。有的指标是相对重要的指标,有的指标的地位就相对较弱一些。这样我们选取地位最为重要的指标,作为调查指标。根据这个原则选出来的指标,既具有代表性,又最大限度地满足了人们的需要。第二种方法:是当指标的地位并无显著性差异时,从预测的精度出发,当然要选取这个类内最具有代表性的指标,即选择与其它指标相关性最强的指标。可以用如下两种方法进行选取。

方法1 设X=(x[,1],…,x[,k])是一个类内所有指标,X 的协差阵记为V(X),X的相关矩阵记为R(X),若V(X)的元素为σ[,ij],σ[,ij]是x[,i]的方差,i≠j时σ[,ij]为X[,i]与X[,i]的协方差。用r[,ij]表示x[,i]与x[,j]的相关系数,则有

此时,x[,k]对x[,1],x[,2]…x[,k-1]的多元相关性用r[2][,x(k)x-k]=σ[1](k)V[-1][,k-1k-1σ(k)]/σ刻划。如果r[2][,x(k)x(-k)]很大,说明x[,k]与x[,1],x[,2]…x[,k-1]的相关性很强,因而我们只要找出最大的r[2][,xkx(-k)],不妨设为x[,k0],则x[,k]就是类X=(x[,1],x[,2]…x[,k])'所有指标中最具有代表性的指标。

方法2 两个变量之间的相关程度是用相关系数来衡量的, 而一个变量与一组变量之间的相关程度可以用复相关系数来衡量。记R[,k(1,2,…,k-1)]为指标x[,k]与x[,1],x[,2],x[,2]…x[,k-1]的复相关系数。

以x[,k]为因变量,x[,1],x[,2]…x[,k-1]为自变量,做多元回归分析,记

R[,k,12…k-1]越大,说明x[,k]与x[,1],x[,2]…x[,k-1] 的相关程度越高,因而选取最大的R[,k1,2…k-1]不妨设为x[,k],则x[,k]就是类x=(x[,1],x[,2]…x[,k])所有指标中最具有代表性的指标。

综上所述,我们可以从一个旨标体系中选取出具有代表性的指标x[,1]、x[,2]…x[,p]做为调查指标设计简易调查表。

(二)模型的构造 此模型构造如下:

模型的参数估计与假设检验,应适当替换变量后与线性模型相同。

二、应用实例

对我国1958~1998年31年的主要工业产品产量的数据资料〔见《中国40年年鉴》,中国统计出版社,1989年(P380~P381)〕,用聚类分析法聚类可分为四类(聚类图略):第一类为(X2,X3,X18,X5,X6,X7,X15,X16,X14);第二类为(X8,X9,X4,X1,X17);第三类为(X10,X12,X13);第四类为(X11)。

一、二、三类中的指标均大于2个,而且指标的地位无显著差异,采用复相关系数法从每一类中选取最具有代表性的指标,各类的各指标的拟合优度计算结果如下:

指标X2 X3X18 X5 X6

R[,2] 0.999320.99877

0.98944 0.989700.99517

指标 X7X15 X16 X14

R[,2] 0.99351 0.997740.94341 0.99343

指标X8 X9X4 X1 X17

R[,2]

0.99938 0.999050.998380.99477 0.98796

指标X10X12 X13

R[,2]

0.98208 0.99006 0.96758

经比较,分别在第一、二、三类中选取了X2,X8,X12 做为各类中最具有代表性的指标。综合以上步骤,选取X2,X8,X11,X12共4 个指标做为调查指标,其余14个指标为预测指标。

根据模型(1.1),计算各调查变量的高次方,发现5次以上的调查变量的回归系数均不显著,因而阶数最高定为5次。同时, 我们又将各调查变量取对数做为自变量也引入模型之中,用逐步回归剔除不显著的β项,确定模型如下:

根据模型,对1983~1988年五年预测指标的预测见表1~表7:

表1

预测指标X[,1] 相对D1 指标X[,3] 相对

后年份 原值预测值误差(%)

原值 预测值 误差(%)

第一年 54.0753.10 -1.79148.80

147.63

-0.78

第二年 73.4961.29-16.61137.00

144.796.41

第三年 94.7885.53 -9.76146.70

160.939.70

第四年101.7384.90-16.54164.70

182.52

10.82

第五年117.50

105.68-10.06173.00

201.60

16.53

表2

预测指标X[,4] 相对D1指标X[,5]相对

后年份 原值预测值误差(%)

原值 预测值 误差(%)

第一年 10.219.36 -8.32

14291.00

4864.82

4.02

第二年 11.009.91 -9.91

18049.00 16492.04 -8.63

第三年 12.59

13.25 5.22

21816.00 21883.23

0.31

第四年 14.91

15.73 5.52

25187.00 23044.96 -8.50

第五年 20.47

20.12 -1.73

26537.00 28135.37

6.02

表3

预测指标X[,6]相对D1 指标X[,7] 相对

后年份 原值预测值 误差(%) 原值 预测值 误差(%)

第一年 9.9910.09 1.00661.00 604.76

-8.51

第二年 11.7811.41-3.18756.00 634.64 -16.05

第三年 14.4914.79 2.10911.00 710.96 -21.96

第四年 14.9914.26-4.86999.00 782.69 -21.65

第五年 16.0216.28 1.61

1141.00 865.06 -24.18

表4

预测指标X[,9] 相对D1 指标X[,10] 相对

后年份 原值预测值误差(%)原值预测值 误差(%)

第一年2758.20 2626.14 -4.793469.00 3387.54

-2.35

第二年2861.40 2898.99 1.313798.20 3593.52

-5.40

第三年3227.70 3222.01 -0.185431.10 5481.510.93

第四年3568.30 3564.95 -0.097317.40 7306.24

-0.15

第五年4116.70 4119.33 0.066142.40 6142.750.01

表5

预测指标X[,13] 相对D1 指标X[,14] 相对

后年份 原值预测值误差(%)原值预测值 误差(%)

第一年 92.56

92.01 -0.59 604.00

597.70 -1.04

第二年 126.18 117.20 -7.12 711.00

712.94

0.27

第三年 178.97 185.45

3.62 851.00

849.86 -0.13

第四年 202.54 191.71 -5.35 985.00

989.47

0.45

第五年 256.70 260.42

1.451195.00 1193.37 -0.14

表6

预测指标X[,15] 相对D1指标X[,16] 相对

后年份 原值预测值误差(%) 原值 预测值 误差(%)

第一年1938.00 1983.85 -2.28

377.00 360.83

-4.92

第二年2132.00 1960.16 -8.06

380.00 388.522.24

第三年2370.00 2247.60 -5.16

451.00 449.90

-0.24

第四年2596.00 2578.08 -0.69

525.00 509.71

-2.91

第五年2881.00 2928.33

1.64

506.85 506.850.17

表7

预测指标X,17] 相对D1 指标X[,18] 相对

后年份 原值预测值 误差(%) 原值 预测值 误差(%)

第一年 67.7065.48-3.2886.50

84.81-1.95

第二年 81.0083.56 3.1694.30

84.82

-10.05

第三年 100.5099.93-0.5799.60

91.21-8.43

第四年 117.50

116.79-0.61

109.60

98.27

-10.34

第五年 119.20

119.55 0.30

111.80 105.38-5.74

由相对误差可以看到在第一年的14个预测指标中全都小于10%,小于5%的有12个,占总体的85%;第二年小于10%有11个, 占总体的83%;第三年小于10%有12个,占总体的85%;第四年小于10%的有10个,占总体的70%;第五年小于10%有10个,占总体的70%;第五年小于10%有10个,占总体70%。从总体看来其效果较好,故从此例可以看出其方法及模型都是可行的。

标签:;  ;  

多目标抽样调查中删除指标变量的预测方法_误差分析论文
下载Doc文档

猜你喜欢