事后中国农业调查质量的抽查_总体方差论文

中国农业普查事后质量抽查,本文主要内容关键词为:中国农业论文,事后论文,质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、PES数据分析模型

由于抽查不只是对普查的重复,而是针对已进行的调查来收集“真实值”的一种方法。在中国,PES的入户访问是按与普查相同的环境来进行的,目的是要得到尽可能接近真实的调查结果。

从PES得到的数据要与普查数据相比较。对两次调查的回答逐一比较,会得到如下的结果:①普查和抽查回答一致;②两次调查的回答不一致:回答的差别越大,普查估计的可靠性就越低。

PES是为了检查和评估普查的数据质量。对PES回答误差的研究表明,回答误差也影响了PES数据。下面,我们将对两次调查同等对待。

估计可靠性的指标包括回答方差(response variance)和偏误(bias)。如果估计用的参数是均值μ,回答误差对估计量的影响可以用下面的等式来计算var

即回答方差,Δ为估计的偏误。根据普查和抽查数据收集的设计,回答误差可以分解为:

记录匹配完成后,对以下几个方面进行可靠性估计:①在抽查中丢失的和找到的人数,从而对农村住户的家庭人数进行估计;②与农村住户和农业管理有关的回答误差的估计;③与家庭成员有关的回答误差的估计。

基本回答方差可用下面的公式来估计,它几乎是一个无偏估计(注:被调查者误差估计的计算公式是无偏的,如果“回忆误差”为零,即被调查者记住了普查的回答,在抽查时作出同样的回答。)(Fellegi,1964;Bassi & Fabbris,1997):

上面已提到,假定条件是普查数据和抽查数据同样可靠。

回答方差比可以与总方差(抽样方差和非抽样方差)进行比较。在我们的工作中,平均的总方差是用抽查数据(注:Y的变动可以用普查数据来进行更可靠的估计,在我们的工作中,出于实际原因,是按抽查数据估计的。)来估计的。

这一指数也可以用替换的办法来估计,分子可以用公式(2),分母可以用抽样方差,或者按Fellegi(1964)的建议,用主调查(普查)和检验调查(抽查)的平均方差。下面,还有最后一种建议。

另外一个关于普查和抽查未匹配数据的指标是Krippendorff(1970)提出的“一致系数”(agreement coefficient)。

式中:r为匹配成功的各组变量数,d[,ij]为各组之间的距离,n[,ij]为匹配成功变量i行j列频数,e[,ij]为在i行j列独立的假设条件下的期望频数。如果变量为数值型变量,距离为d[,ij]=(X[,i]-X[,j])[2];如果变量为序数变量,d[,ij]=(i-j)[2];如果变量为名义变量,d[,ij]=1。如果匹配变量表的两个边际频数是相等的(注:与e[,ij]相对等的常规统计假设是组内相关系数。如果变量为两分变量,在常规统计假设下,则一致系数为柯恩K值(Cohen,1960),在更精确的等边际假设下,则为斯科特π值(Scott,1955)。),则期望频数e[,ij]=n[,i+]n[,+j]/n。当然,d=1-a可视为不一致系数(disagreement index)。

二、普查漏报的家庭成员

普查和抽查的农村住户可以用地址码来对应,这是识别一个住户的主要标识。

在每一住户内的家庭成员匹配生成的频数分配表为表2。在经过匹配后,b=95人在抽查中有,而在普查中没有。c=82人在普查中有,而在抽查中没有。匹配的结果参见表3。

表2 普查和抽查中与家庭成员有关的二分变量匹配结果

普查

匹配未匹配 合计

匹配 a

b a+b

抽查 未匹配c

d c+d

合计 a+c b+d n=a+b+c+d

表3 普查和抽查家庭成员(人记录)匹配结果

 

 

普查

匹配 未匹配

合计

匹配149212 95

149307

PES

未匹配82=82

合计

149294 95

由于普查(Cen)和抽查PES(Pes)都是独立进行的,在两次调查中都漏报一个人的联

因此,通过抽查明确了以下两点:

①就在一个调查户中漏报一个家庭成员的可能性而言,普查和抽查的可靠性是相同的。下面,出于误差分析的目的,我们假定两次调查收集的数据是同等可靠的。

②一些在两次调查间隔中出生的人,在普查不可能填报,对于抽查,也有类似的情况,在普查后去世的人,在抽查中没有填报,但应该填报。不管怎样,在两次调查中漏报的人,实际上是忽略不计的。

普查和抽查都漏报一个人的概率不为零,但无关紧要(d≈0.05)。

三、回答误差估计

对农业结构和土地使用估计的可靠性是以普查和抽查数据的比较为基础的。

(一)家庭成员及从业情况的误差估计

就40576户农村住户家庭成员及从业情况普查与抽查的比较结果可见:

(1)对于一个住户内的人的调查(男性、女性、在校学生和家庭成员总数),调查表的填报率很高,回答误差率较低。对人的调查,是普查的重点之一,在现场工作阶段进行了严格的质量检查和控制。同时,数据录入程序也把质量控制考虑在内。然而,普查和抽查之间的差异不仅仅是由于出生与死亡的变动,而且也有人为的和随机的回答误差。

(2)对于各种家庭规模的农村住户,普查和抽查之间的总体差异在0.7%到0.9%之间,但对于2人户,差异高达2.3%。就平均水平而言,每个农村住户的差异率为0.9%。如果把性别考虑在内,总体差异率为1.9%。

(3)普查和抽查之间的差异也可以用高估和低估来衡量。普查低估的部分是表4至表7中主对角线以上的部分,而高估的部分则是主对角线以下的部分。从表中可以看出,抽查漏报的人比普查要多。在抽查中漏报(普查高估)和在抽查中多报(普查低估)的户数和人数的比率大约为2。因此,就调查的人数而言,可以似是而非地猜测,普查比抽查略微准确些。

(4)造成普查和抽查之间差异的一个很可能的原因是性别的回答误差。从表8中可以看出,每千人中有2.6人有性别误差。对于农村人口的性别而言,普查和抽查没有不一致,因此,我们猜测,导致农民申报相反的性别是计划生育,因为在农村,如果第一孩子是女孩,可以生第二胎。由于这方面的原因,有些户主在申报孩子的性别时,要么是在普查中,要么是在抽查中,作出了相反的申报。当然,两次调查都作出相反的申报的可能性也是存在的。可以肯定的一点是,每千人中有2.6个人的性别数据是错误的,也就是说,在每千个女性中,有1.3人的真实性别应该是男性。女性/男性的性别比的估计数为94.8%,实际应该更正为“至少95.3%”。

表4 农业普查主要指标的误差估计

非相关 不一致

误差估

变异系

指标方差(%) 指数(%) 计(%) 数(%)

耕地面积0.33 2.02.220 3.9

水田0.76 0.63.497 21.6

旱地1.80 3.53.799 9.5

从集体承包 1.48 7.54.944 9.4

从其他住户转入 5.68 26.2

4.227 327.7

其他转入5.73 5.12.137 87.2

茶园0.81 10.0

0.722 656.8

桑园0.89 10.4

0.644 322.1

果园3.30 8.63.728 233.0

果木苗圃0.14 (*)1.027 10271.3

种植面积合计0.26 1.64.559 5.3

粮食0.44 2.03.907 5.6

稻谷1.47 1.23.796 18.6

小麦2.18 1.82.795 13.0

玉米4.17 3.43.148 19.8

大豆6.48 6.41.590 37.9

薯类7.71 6.21.183 26.8

油料4.76 3.81.368 23.8

油菜籽 3.30 3.41.237 41.2

花生4.79 5.60.814 53.9

棉花2.08 3.70.804 33.9

麻类0.23 4.60.200 142.9

糖料1.45 8.70.971 161.8

烟叶0.85 4.40.928 94.7

药材0.81 33.8

0.534 1334.6

蔬菜9.41 8.21.624 45.8

瓜类3.59 20.3

0.861 179.3

饲料4.40 8.30.969 129.1

其他作物7.07 16.7

1.883 166.6

非耕地种植面积 4.52 10.9

0.903 114.3

庭院种植面积1.37 7.80.192 174.9

(*)估计数大于100%。

(5)普查比抽查多报人数的趋势从在校学生数也可以得到证实。在抽查中,有0.8%的农村住户申报的在校学生数比普查多,而申报的在校学生数比普查少的农村住户的比例为1.2%。

(6)其他原因也导致了申报错误。有两处以上差异的情况即使在1人或2人户中也存在。总体上,由于性别错误导致的不一致率为1%。而在校学生(注:就农业普查的目的而言,在校学生是可以忽视的。)的不一致指数高达4.7%。

(二)农业用地、农作物种植和畜牧等指标的误差估计

有关农用地、农作物种植和畜牧等方面的指标的误差估计在表4和表5中列出。主要是按照Pritzker-Hanson的不一致指数公式(6)进行计算的。

(1)普查的每个指标都不同程度地存在误差,但从总体上看,不一致指数都在合理的范围之内。这表明对普查员和指导员培训效果较好,普查员与被调查者和村干部配合较好,被调查者能够明确普查员所提问题,并能作出如实回答。

(2)填报率很低的变量,其估计误差较高。这说明这些变量在抽查中没有代表性。如果木苗圃、牦牛存栏、役用牦牛、骆驼存栏,这种指标普查可以调查,但抽查不应该调查。此外,牦牛在青海和西藏分布较集中,而骆驼仅在内蒙古和新疆分布较集中。普查数据的质量不会因其规模小而受到影响。但对于果木苗圃和能繁殖母猪这两个指标的数据,使用时应谨慎。

(3)有些指标在参数估计中也有大的起伏,如能繁殖母猪出栏、药材种植面积、茶园面积、自宰和出售的肉牛、从其他住户转入的耕地、桑园面积。这变量的平均估计误差超过1%,但普查和抽查之间的差异较大(其估计的标准差是其估计的均值的3倍)。全国农普办表示,使用这些指标应小心,因为它们只是就全国水平而言才有代表性。

表5 农业普查牲畜指标的误差率

非相关不一致 误差估 组内相

指标 方差 指数(%) 计(%)

关系数

黄牛存栏 4.35

5.8

0.1380.983

黄牛役用 7.16

11.2 0.4480.947

水牛存栏 3.09

9.1

0.1100.957

水牛役用 3.33

10.2 0.0890.947

奶牛存栏 0.10

2.5

0.0320.993

牦牛存栏 0.05

(*)

0.0320.667

牦牛役用 0.04

(*)

0.0000.727

马存栏

0.73

6.1

0.0550.967

马役用

0.78

7.6

0.0550.950

驴存栏

1.16

7.1

0.0550.866

驴役用

1.22

7.9

0.0550.959

骡存栏

0.67

7.0

0.0450.963

骡役用

0.68

7.4

0.0450.947

骆驼存栏 0.01

(*)

0.000-

骆驼役用 0.00

- 0.000-

自宰和出售肉牛

2.39

12.0 0.3550.949

山羊存栏 1.28

3.2

0.2760.992

山羊出栏 1.13

4.1

0.2470.983

绵羊存栏 0.63

4.2

0.6890.991

绵羊出栏 0.64

6.2

0.2070.980

猪存栏

3.66

3.0

0.4540.985

猪出栏

5.85

4.7

0.4660.980

能繁殖母猪存栏

3.84

9.6

0.1970.861

能繁殖母猪出栏

0.81

91.8 0.2630.288

家禽存栏 12.86 11.9 18.9 0.948

家禽出栏 14.73 11.8 35.3 0.948

(*)估计数大于100%。

(4)这些变量差异较大可能是由于对概念的理解不同(如药材在不同的地区可能有不同的理解)、担心增加农业税(例如特产税)或各地的“习惯亩”等原因造成的。由于没有种植记录,被调查者需要在调查员的帮助下回忆和根据产量估算其作物的种植面积,因而,被调查者的能力与回忆的意愿、各地之间习惯亩的差别、在两次调查中被调查者和调查员的不同,这此都有可能导致误差的产生。

(5)有些误差率较低的变量是“混合”项,加耕地面积合计、水田、旱地、从集体承包的耕地面积、种植面积合计、粮食种植面积。对于这些指标,农民心中有数,从而指标的可靠性较高。

(6)比较而言,畜牧业指标的误差率要比农业用地和农作物种植方面的指标的误差率高一些。原因是猪、羊、家禽的饲养实际较短,它们是农民肉食和现金收入的主要来源。普查的现场调查是在春节前进行的,而抽查的现场调查是在春节后进行的。普查和抽查现场调查之间的这段时间是猪、羊和家禽数量变化最大的时期。在抽查中,有些调查员没有把标准时间向被调查者讲清楚。而且,根据中国的法律,农民出售或屠宰猪、羊等牲畜,需要缴纳屠宰税。这就是为什么有些农民少报牲畜出栏数的原因。就家禽而言,多数农民不可能确切回忆,因此普查和抽查之间差异较大。总体而言,牲畜存栏的误差率要比牲畜出栏和役用的误差率低。这一点很容易理解,因为对于存栏数,调查员是可以当场检查的(注:在抽查中,建议抽查员实地查看农民的畜栏、菜园等,以核实申报数字。)。

(7)还要提及的一点是,城市居民饲养的牲畜和家禽没有计算在内(中国的法律限制城市居民饲养牲畜),就全国而言,牲畜总头数可能被少量地低估。

(8)通过对普查和抽查数据差异的因素分析,结果显示家庭结构方面的差错与其他变量方面的差错不存在多大的相关关系,与牲畜方面的指标也不存在相关关系。只是在申报类似的种类的牲畜时存在较强的相似性(注:索尼娅·扎姆佩蕾蒂女士帮助完成了因素分析工作,作者在此特表谢意。),如驴、骡存栏与役用(因素1)和猪、能繁殖母猪的存栏与出栏(因素2)。

四、人记录回答误差频数估计

从分析结果看,可以得出如下几点结论:

(1)人记录指标的回答误差率不高。因此,可以认为,农业普查关于农村住户从业情况的主要数据是可靠的。

(2)年龄的回答误差率占总基本方差的21.7%。年龄差错可能是中国计算年龄的方法造成的,即周岁与虚岁之间相差两岁。而计算的标准是以春节为准的,上文几经提及,普查的现场查点工作是在春节前进行的,而抽查的现场查点工作是在春节后进行的。因此在普查和抽查之间1~2岁的年龄差异大多数是由这个原因造成的。

(3)普查和抽查在文化程度的上的差异主要集中在文化程度较低的组别中,即不识字或识字很少(文盲、半文盲)和小学两组中。但是,如果把差异同边际频数相比较,文化程度高的组可靠性要比文化程度低的组差一些。一种可能是由于被调查者不是户主,而是别人代理申报的,另一种可能是被调查者把文化程度高报一个级别。总的来看,一致指数(公式7)为963%。

(4)普查和抽查数据在从业时间上的差异相对较大。差异最大的是从事农业生产时间,不一致率达5%。差异主要集中在最后一项“6个月以上”。如果是由别人代理户主回答的,不一致的情况会大大上升。

(5)在对农业时间(有1.3%的不一致)和非农业时间(有0.8%的不一致)两的相关的问题的回答,也存在不一致的情况,即回答从业时间的问题时,有些活动在农业和非农业重复存在计算。对从事的主要行业的回答也有一定的不确定性(有0.6%的回答不一致)。

(6)从事主要行业的差错率与从事什么行业有关,差错水平从0.7%到6.6%不等,加权平均为4.9%。在多数情况下,这方面的差错是因调查员造成的。在普查现场登记期间,全国农普办就发现,普查员对被调查者从事的行业拿不准,其中有些普查员在不能确定时就更可能填“其他行业”。在普查现场登记期间,全国农普办专门发文强调了这个问题。尽管如此,对从事的主要行业的回答仍有一定的不确定性。

(7)对主要从业地区和从事非农业生产的主要地点的回答,普查和抽查是高度一致的。因为这两个问题很容易回答,所以,即使是别人代理户主申报的情况下,也能给出一致的回答。

五、结论与建议

开展事后质量抽查的目的是要对第一次全国农业普查的质量进行公正的检验和评价。在经过对抽查的数据进行分析后,在如何更好地设计普查表、如何更好地培训指导员和普查员、如何更好地进行事后质量抽查等方面,对我们有所启示。

在收集数据前对数据的误差水平有一个假定。总的来说,我们可以宣布普查数据质量达到了预期的目标要求。有些项目数据要比其他项目的数据更可靠。从全国水平来看,所有数据都是可靠的。有些数据在地方则不宜公布。我们指的是与农业用地有关的一些变量。其他一些重要的变量,如文化程度、从事主要行业,由于人口规模大,从分析目的上看,用地区以下的数据比用省级的数据进行分析更可靠。

这些是关于任何农业普查或抽样调查的共同问题,不管它们是在哪里进行的。不过,在指导手册中应该告诫进行普查工作的实地人员。

在进行普查和抽查数据的比较过程中也提出了其他有些问题。最重要的一点是事后质量抽查要对确定错误来源的有效性的关注。查找差错可以对实地人员是一种“约束”,而且,查清差错来源也是防止和减少统计误差的唯一手段。

要达到计算误差和理解误差来源这两个目的,怎样来进行一次或多次的检验调查呢?我们可以回过头看农业普查中的有关误差。

1.对调查估计最有打击性的影响来自调查员误差。我们发现普查和抽查之间的大多数差异集中在少数村中,也就是说,在一个调查员的任务范围内。如果没有抽样贯穿其中,要区分被调查者和调查员对调查估计的影响是不可能的(Mahalanobis,1946)。我们应该至少对两个调查员和它们负责的两个村进行交叉子抽样(注:相互贯穿式调查可视为一种形式的“哑”监控,即不用任何专门的手段对实地人员的表现进行监控。如果应用在实地人员的抽选阶段,通过这种方法可以选出最出色的实地人员的人选。),或者,如果这样作费用太高的话,至少应在一个村进行(Fabbris,1998)。为了区分抽样误差和回答误差,可以在普查和抽查中对调查员的工作进行双重交叉子抽样(Fellegi,1964,1974)。这是抽选一支独立的抽查员队伍是关键,因为双重子抽样意味着,在检验调查中,调查员要交换它们以前的工作任务。如果进行的是多分层的数据收集设计的话,指导员误差可以从调查员误差中分离出来。(Bassi & Fabbris,1997)。无论是什么样的调查设计,必须输入调查员(普查员和抽查员)、指导员和参与数据收集与控制的其他实地人员的代码。

2.另一种威胁的误差是偏误(bias),特别是普查对象(农村住户、及住户所属的全部土地、耕地等)的范围不全面。这种情况可以通过比较样本地区的数据和样本数据来评估。典型的情况是,这种比较要以专门的调查员或指导员进行的成对式的数据收集为基础来进行。(Fabbris,1998)。这种调查可以用于大型的调查,加普查,也可以用于范围更具体的检验调查。此外,对于基础数据,对偏误的估计是非常重要的,即使发现偏误(通常非常小),也只会加强估计的可靠性,而不会导致尴尬。

3.对于被调查者误差,抽查可以提供估计值的影响方面的信息。为了确定回答误差的原因,从而对普查和抽查的估计作相应的调整,我们应该记录以下信息:(1)调查是由谁申报;(2)关于家庭成员的数据,是被调查者申报的,还是每个成员自己申报的,或者是他人代为申报的;(3)为活动数据与住户接触的次数;(4)对同一问题的回答次序。对回答的核实(注:对回答的核实需要一个复杂的过程,以避免调查员查看第一次调查的结果,而在第二次调查中照抄。需要记录三个值:第一次和第二次的自然回答以及核实的结果。)可通过子抽样的办法进行。如实地人员没有高度的自觉性的话,对抽查的全部样本的进行核实可能会危及检验数据的可靠性。

标签:;  ;  ;  ;  ;  

事后中国农业调查质量的抽查_总体方差论文
下载Doc文档

猜你喜欢