多目标抽样调查中删除指标变量的预测方法_误差分析论文

多目标抽样调查中删除指标变量的预测方法，本文主要内容关键词为：变量论文,指标论文,目标论文,方法论文,调查中论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：O212 文献标识码：A

多目标抽样调查中调查项目设计的调查表包含着繁多的指标，这种调查表的优点是可以反映出调查单位的全面信息，调查员可以比较方便地对调查项目的各指标进行统计，但有很多缺点：由于指标繁多、数目庞大、被调查单位负担沉重，容易产生错登、漏登现象；调查指标多、调查任务繁重，使得调查周期长，费用消耗高。因此，对简化调查表（删除一些指标）又不失去全面调查表所提供的信息则具有重要意义。

一、多指标变量的删除与预测模型

（一）多目标变量指标删除方法有前进法：选择最弱（或不相关甚至独立）相关的指标作为调查指标；后退法：删除掉容易被其它指标代表（用数量表示的指标），剩余指标作为调查指标。还有“强弱相关结合法”，“广义典型相关系数法”和“聚类分析法”，这里介绍“聚类分析法”。

从总体中选取一部分有代表性的指标途径有两种：一是从指标体系中去分析这些指标之间的关系，找出一部分代表性强的指标；二是从数据出发，用数理统计的方法选取一部分“代表”性指标（即变量）。把这两种方法结合起来较为理想。下面对“聚类分析法”做了尝试。

聚类分析的基本思想是：从一批样品的多个观测指标中，找出能度量样品之间或指标之间相似程度的统计量，构成一个对称的相似矩阵，在此基础上进一步找寻各样品（或变量）之间的相似程度，按相似程度的大小，把样品（或变量）逐一归类，关系密切的归类聚集到一个小的分类单位，关系疏远的聚集到一个大的分类单位，直到所有样品或变量都聚集完毕，形成一个亲疏关系谱系图，用以更自然地和直观地显示分类对象（个体或指标）的差异和联系。对变量进行聚类分析的统计量有：

1.相似系数

用相似系数或相关系数做为距离测度对指标进行聚类，根据实际情况，选取合适的阀值可以将总体指标分成几类，类内指标之间相关性很强，用一个指标可以反映类内所有指标的绝大部分信息，而类与类之间的指标相关性较弱。当然，一个类里面一般含有K（K≥1）个指标，怎样从K个指标中选择一个最具有代表性的指标呢？第一种方法：是从定性的角度出发，在所有类内指标中，指标的地位是不一样的。有的指标是相对重要的指标，有的指标的地位就相对较弱一些。这样我们选取地位最为重要的指标，作为调查指标。根据这个原则选出来的指标，既具有代表性，又最大限度地满足了人们的需要。第二种方法：是当指标的地位并无显著性差异时，从预测的精度出发，当然要选取这个类内最具有代表性的指标，即选择与其它指标相关性最强的指标。可以用如下两种方法进行选取。

方法1 设X＝（x[,1]，…，x[,k]）是一个类内所有指标，X 的协差阵记为V（X），X的相关矩阵记为R（X），若V（X）的元素为σ[,ij]，σ[,ij]是x[,i]的方差，i≠j时σ[,ij]为X[,i]与X[,i]的协方差。用r[,ij]表示x[,i]与x[,j]的相关系数，则有

此时，x[,k]对x[,1]，x[,2]…x[,k－1]的多元相关性用r[2][,x(k)x-k]＝σ[1]（k）V[-1][,k-1k-1σ(k)]／σ刻划。如果r[2][,x(k)x(-k)]很大，说明x[,k]与x[,1]，x[,2]…x[,k-1]的相关性很强，因而我们只要找出最大的r[2][,xkx(-k)]，不妨设为x[,k0]，则x[,k]就是类X＝（x[,1]，x[,2]…x[,k]）＇所有指标中最具有代表性的指标。

方法2 两个变量之间的相关程度是用相关系数来衡量的，而一个变量与一组变量之间的相关程度可以用复相关系数来衡量。记R[,k(1,2,…,k-1)]为指标x[,k]与x[,1]，x[,2]，x[,2]…x[,k-1]的复相关系数。

以x[,k]为因变量，x[,1]，x[,2]…x[,k-1]为自变量，做多元回归分析，记

R[,k,12…k-1]越大，说明x[,k]与x[,1]，x[,2]…x[,k-1] 的相关程度越高，因而选取最大的R[,k1,2…k-1]不妨设为x[,k]，则x[,k]就是类x＝（x[,1]，x[,2]…x[,k]）所有指标中最具有代表性的指标。

综上所述，我们可以从一个旨标体系中选取出具有代表性的指标x[,1]、x[,2]…x[,p]做为调查指标设计简易调查表。

（二）模型的构造此模型构造如下：

模型的参数估计与假设检验，应适当替换变量后与线性模型相同。

二、应用实例

对我国1958～1998年31年的主要工业产品产量的数据资料〔见《中国40年年鉴》，中国统计出版社，1989年（P380～P381）〕，用聚类分析法聚类可分为四类（聚类图略）：第一类为（X2，X3，X18，X5，X6，X7，X15，X16，X14）；第二类为（X8，X9，X4，X1，X17）；第三类为（X10，X12，X13）；第四类为（X11）。

一、二、三类中的指标均大于2个，而且指标的地位无显著差异，采用复相关系数法从每一类中选取最具有代表性的指标，各类的各指标的拟合优度计算结果如下：

指标X2 X3X18 X5 X6

R[,2] 0.999320.99877

0.98944 0.989700.99517

指标 X7X15 X16 X14

R[,2] 0.99351 0.997740.94341 0.99343

指标X8 X9X4 X1 X17

R[,2]

0.99938 0.999050.998380.99477 0.98796

指标X10X12 X13

R[,2]

0.98208 0.99006 0.96758

经比较，分别在第一、二、三类中选取了X2，X8，X12 做为各类中最具有代表性的指标。综合以上步骤，选取X2，X8，X11，X12共4 个指标做为调查指标，其余14个指标为预测指标。

根据模型（1.1），计算各调查变量的高次方，发现5次以上的调查变量的回归系数均不显著，因而阶数最高定为5次。同时，我们又将各调查变量取对数做为自变量也引入模型之中，用逐步回归剔除不显著的β项，确定模型如下：

根据模型，对1983～1988年五年预测指标的预测见表1～表7：

表1

预测指标X[,1] 相对D1 指标X[,3] 相对

后年份原值预测值误差(%)

原值预测值误差(%)

第一年 54.0753.10 -1.79148.80

147.63

-0.78

第二年 73.4961.29-16.61137.00

144.796.41

第三年 94.7885.53 -9.76146.70

160.939.70

第四年101.7384.90-16.54164.70

182.52

10.82

第五年117.50

105.68-10.06173.00

201.60

16.53

表2

预测指标X[,4] 相对D1指标X[,5]相对

后年份原值预测值误差(%)

原值预测值误差(%)

第一年 10.219.36 -8.32

14291.00

4864.82

4.02

第二年 11.009.91 -9.91

18049.00 16492.04 -8.63

第三年 12.59

13.25 5.22

21816.00 21883.23

0.31

第四年 14.91

15.73 5.52

25187.00 23044.96 -8.50

第五年 20.47

20.12 -1.73

26537.00 28135.37

6.02

表3

预测指标X[,6]相对D1 指标X[,7] 相对

后年份原值预测值误差(%) 原值预测值误差(%)

第一年 9.9910.09 1.00661.00 604.76

-8.51

第二年 11.7811.41-3.18756.00 634.64 -16.05

第三年 14.4914.79 2.10911.00 710.96 -21.96

第四年 14.9914.26-4.86999.00 782.69 -21.65

第五年 16.0216.28 1.61

1141.00 865.06 -24.18

表4

预测指标X[,9] 相对D1 指标X[,10] 相对

后年份原值预测值误差(%)原值预测值误差(%)

第一年2758.20 2626.14 -4.793469.00 3387.54

-2.35

第二年2861.40 2898.99 1.313798.20 3593.52

-5.40

第三年3227.70 3222.01 -0.185431.10 5481.510.93

第四年3568.30 3564.95 -0.097317.40 7306.24

-0.15

第五年4116.70 4119.33 0.066142.40 6142.750.01

表5

预测指标X[,13] 相对D1 指标X[,14] 相对

后年份原值预测值误差(%)原值预测值误差(%)

第一年 92.56

92.01 -0.59 604.00

597.70 -1.04

第二年 126.18 117.20 -7.12 711.00

712.94

0.27

第三年 178.97 185.45

3.62 851.00

849.86 -0.13

第四年 202.54 191.71 -5.35 985.00

989.47

0.45

第五年 256.70 260.42

1.451195.00 1193.37 -0.14

表6

预测指标X[,15] 相对D1指标X[,16] 相对

后年份原值预测值误差(%) 原值预测值误差(%)

第一年1938.00 1983.85 -2.28

377.00 360.83

-4.92

第二年2132.00 1960.16 -8.06

380.00 388.522.24

第三年2370.00 2247.60 -5.16

451.00 449.90

-0.24

第四年2596.00 2578.08 -0.69

525.00 509.71

-2.91

第五年2881.00 2928.33

1.64

506.85 506.850.17

表7

预测指标X,17] 相对D1 指标X[,18] 相对

后年份原值预测值误差(%) 原值预测值误差(%)

第一年 67.7065.48-3.2886.50

84.81-1.95

第二年 81.0083.56 3.1694.30

84.82

-10.05

第三年 100.5099.93-0.5799.60

91.21-8.43

第四年 117.50

116.79-0.61

109.60

98.27

-10.34

第五年 119.20

119.55 0.30

111.80 105.38-5.74

由相对误差可以看到在第一年的14个预测指标中全都小于10%，小于5%的有12个，占总体的85%；第二年小于10%有11个，占总体的83%；第三年小于10%有12个，占总体的85%；第四年小于10%的有10个，占总体的70%；第五年小于10%有10个，占总体的70%；第五年小于10%有10个，占总体70%。从总体看来其效果较好，故从此例可以看出其方法及模型都是可行的。

标签：误差分析论文; 抽样调查论文;

多目标抽样调查中删除指标变量的预测方法_误差分析论文

猜你喜欢