我国农业产量调查中几种可行PPS系统的抽样设计_抽样分布论文

中国农产量调查中几种可行的PPS系统抽样设计,本文主要内容关键词为:农产论文,几种论文,中国论文,系统论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:O212.2  文献标识码:A

引言

在概率抽样调查中,抽样设计是一个重要的核心工作环节。抽样设计包括抽取样本的方法和用样本对总体进行估计的方法。这两者是联系在一起的。在抽样凋查实践中,使用着多种抽样设计。与规模成比例的概率(简记为PPS)系统抽样设计是国际上比较流行的方法,它在实践中有着广泛的应用。在我国农产量抽样调查中,由于历史的原因,现在广泛使用的是对称等距抽样设计,这是一种不等概率抽样设计,在实际应用中存在一些需要研究的问题[1]。但是由于各种原因,我国学术界对农产量抽样调查设计的研究很少。本文的创新点是根据我国农产量调查的实际,结合国际上通行的抽样设计方法,讨论了适用于我国农产量抽样调查的几种可行的PPS系统抽样设计,供有关部门和研究者参考。

在一般参考文献中,通常将有放回的与规模成比例的概率抽样称为PPS抽样,而将无放回的与规模成比例的概率抽样称为πPS抽样。本文为简单方便起见,将与规模成比例的概率抽样统称为PPS抽样。因此,本文将πPS系统抽样称为PPS系统抽样或无放回的PPS系统抽样。

一、几种可行的PPS系统抽样设计

这里先讨论4种可行的三阶PPS系统抽样设计,辅助变量分别取为农户数、播种面积、耕地面积、切块数。然后讨论2种可行的二阶PPS系统抽样设计,辅助变量分别取为农户数、切决数。这几种抽样设计各有一些特点,需要在应用中注意。这里的设计是以省为总体进行的,相关估计公式可见冯士雍等[2]和科克伦[3]的著作。

(一)以户数为辅助变量的三阶抽样

省以各县去年或普查年户数作辅助变量,进行PPS系统抽样,抽n个县;抽中县以各村去年或普查年户数作辅助变量,进行PPS系统抽样,抽m个村;抽中村以农户名录框进行简单随机抽样,抽l户。

1.对抽中的第i县第j村

4.分析

这种情况是标准的各级单位大小不等时自加权的三阶抽样,所以能直接套用有关方差的估计公式和其他推算公式。我国的统计实践表明,户数在我国不是一个好的辅助变量[1]。但是,在很多发展中国家,因为各种各样的原因,都用户数作为辅助变量[4]。

因为第三阶段观测值的差异不大,我们以行政村为基本抽样单位进行调查和推算,所以在计算抽样方差时可忽略第三阶段的差异,使用两阶段的抽样方差估计公式来计算抽样误差。这时有:

4.分析

这种情况不是标准的各级单位大小不等时自加权的三阶抽样。因为其最后一个阶段的简单随机抽样不是以播种面积作抽样框的,所以不能直接套用有关方差的估计公式和其他的推算公式。如果最后一个阶段以单位播种面积作抽样框,实际上不具有可操作性。前两阶段选择播种面积作辅助变量,原因主要是我国上世纪80年代正式进行抽样设计时,就是以播种面积为辅助变量的。播种面积虽然并不是一个稳定的好的指标,并存在许多调查的实际问题,但由于历史和现实的原因,它还是一个可用的辅助变量。

因为第三阶段观测值的差异较小,我们以行政村为基本抽样单位进行调查和推算,所以在计算抽样方差时可忽略第三阶段的差异,使用两阶段的抽样方差估计公式来计算抽样误差。这时有:

4.分析

这种情况也不是标准的各级单位大小不等时自加权的三阶抽样。因为其最后一个阶段的简单随机抽样不是以耕地面积作抽样框的,所以不能直接套用有关方差的估计公式和其他推算公式。如果最后一个阶段以单位耕地面积作抽样框,实际上不具有可操作性。前两阶段选择耕地面积作辅助变量,原因主要为耕地面积是一个比较好的指标,它比播种面积指标更稳定,它还与许多需要调查的农业指标存在相关(经常是正相关)关系,并容易过渡到以切块数为辅助变量的区域框抽样。

因为第三阶段观测值的差异不大,我们以行政村为基本抽样单位进行调查和推算,所以在计算抽样方差时可忽略第三阶段的差异,使用两阶段的抽样方差估计公式来计算抽样误差。这时有:

4.分析

这种情况是标准的各级单位大小不等时自加权的三阶抽样,所以能直接套用有关方差的估计公式和其他推算公式。国际经验表明,切块数是一个非常好的辅助变量。在很多发达和发展中国家,都用切块数作为辅助变量[4]。

因为第三阶段观测值的差异不大,我们以行政村为基本抽样单位进行调查和推算,所以在计算抽样方差时可忽略第三阶段的差异,使用两阶段的抽样方差估计公式来计算抽样误差。这时有:

(五)以户数为辅助变量的二阶抽样

将省总体分为合适的层,在各层中,以各初级抽样单位(简记为PSU,现在可以设想为村)去年或普查年户数作辅助变量,进行PPS系统抽样,从N个PSU中抽n个PSU;在抽中的村中以户名录框进行简单随机抽样,从村的户中抽m户。

(六)以切块数为辅助变量的二阶抽样

将省总体分为合适的层,在各层中,以各PSU(现在设想为村)去年或普查年切块数作辅助变量,进行PPS系统抽样,从N个PSU中抽n个PSU;在抽中的村中以区域框进行简单随机抽样,从村的个切块中抽m个切块。

1.对第i个PSU(村)

三、总结

我们在介绍这几种抽样设计的时候,已经表明了我们对抽样设计的推荐态度。这里辅助变量用的省、县甚至村的户数、播种面积、耕地面积、切块数,都是历史数据。这4个辅助变量数据的稳定性是可以判断的,后面的比前面的高。后面两个的定义也比较明确,并可以利用地图、卫星照片等进行核实,因此它们的好处是明显的。这里可行的抽样设计不需要用省、县的“乡村户数”的指标,比原来的调查设计在这方面前进了一步。如果能像美国、韩国那样每年进行一次耕地面积变动调查,则以耕地面积或切块为辅助变量的PPS系统抽样设计会更准确、可靠。

1.耕地面积是一个较稳定的指标。在农业调查中除了行政面积,它可能是最稳定的指标,并且与许多农业指标有相关关系,因此用它做辅助变量是较好的。用耕地面积作辅助变量的名录框,实际上可相当于一种类型的区域框。这种区域框不是经典的区域框。经典的区域框中切块大小基本相同,是设计中一般使用的抽样框。有些国家(特别是发达国家)是用行政面积划分切块的,它的稳定性是更好的。这样,农产量调查就可以用一套样本解决基本问题。当然一套样本不可能解决所有问题,比如韩国对栽培规模大而在全国广泛分布的水稻等17种主要作物,抽出一定数量的样本,由农业统计机关实施抽样调查;对栽培规模小的玉米等33种作物,由地方自治团体访问耕作农户分作物进行访问并计算0.1公顷平均产量,然后依据农业统计机关抽样调查推算的栽培面积计算其生产量。此外,我国存在耕地概念不完全与国际上的概念相同,耕地和多年生作物用地区分不清等问题。

2.村抽户或切块使用的是简单随机抽样设计,除了估计简单(是自加权的)外,另一个原因是为了便于用简单方法进行样本轮换。因为最后阶段对户或切块采用的是简单随机抽样设计,所以可以使用简单常用的复合样本轮换方法。这里只牵涉到在调查村中编制户(或切块)框,不涉及其他总体户数及其推断,因此不需要用无概率抽样保证的“乡村户数”指标,也不涉及单产的多级平均。可以直接推算省总产量,然后再反推单产。

3.在不受调查县限制的条件下,即在一个省的范围内可在任何县进行调查的条件下,样本可在全省范围内抽取。这时可对全省进行分层,在各层内以PSU的切块数为辅助变量进行PPS系统抽样设计直接抽PSU(现在可考虑以行政村作为PSU),然后在PSU中用简单随机的方法抽切块进行调查。这是一个标准的二阶抽样,也是国际上通用的设计方法。县可以参照省的设计方案进行自己的设计和调查。县的面积比省小,全县范围内的地理、气候。环境、农作物品种和管理等条件比省的差异小,所以比省更容易进行设计和调查。省也可以按县分层,以一个县或数个县为一层,对层进行抽样设计。

标签:;  ;  ;  

我国农业产量调查中几种可行PPS系统的抽样设计_抽样分布论文
下载Doc文档

猜你喜欢