我国农业产量调查中几种可行PPS系统的抽样设计_抽样分布论文

中国农产量调查中几种可行的PPS系统抽样设计，本文主要内容关键词为：农产论文,几种论文,中国论文,系统论文,调查中论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：O212.2　文献标识码：A

引言

在概率抽样调查中，抽样设计是一个重要的核心工作环节。抽样设计包括抽取样本的方法和用样本对总体进行估计的方法。这两者是联系在一起的。在抽样凋查实践中，使用着多种抽样设计。与规模成比例的概率（简记为PPS）系统抽样设计是国际上比较流行的方法，它在实践中有着广泛的应用。在我国农产量抽样调查中，由于历史的原因，现在广泛使用的是对称等距抽样设计，这是一种不等概率抽样设计，在实际应用中存在一些需要研究的问题[1]。但是由于各种原因，我国学术界对农产量抽样调查设计的研究很少。本文的创新点是根据我国农产量调查的实际，结合国际上通行的抽样设计方法，讨论了适用于我国农产量抽样调查的几种可行的PPS系统抽样设计，供有关部门和研究者参考。

在一般参考文献中，通常将有放回的与规模成比例的概率抽样称为PPS抽样，而将无放回的与规模成比例的概率抽样称为πPS抽样。本文为简单方便起见，将与规模成比例的概率抽样统称为PPS抽样。因此，本文将πPS系统抽样称为PPS系统抽样或无放回的PPS系统抽样。

一、几种可行的PPS系统抽样设计

这里先讨论4种可行的三阶PPS系统抽样设计，辅助变量分别取为农户数、播种面积、耕地面积、切块数。然后讨论2种可行的二阶PPS系统抽样设计，辅助变量分别取为农户数、切决数。这几种抽样设计各有一些特点，需要在应用中注意。这里的设计是以省为总体进行的，相关估计公式可见冯士雍等[2]和科克伦[3]的著作。

（一）以户数为辅助变量的三阶抽样

省以各县去年或普查年户数作辅助变量，进行PPS系统抽样，抽n个县；抽中县以各村去年或普查年户数作辅助变量，进行PPS系统抽样，抽m个村；抽中村以农户名录框进行简单随机抽样，抽l户。

1.对抽中的第i县第j村

4.分析

这种情况是标准的各级单位大小不等时自加权的三阶抽样，所以能直接套用有关方差的估计公式和其他推算公式。我国的统计实践表明，户数在我国不是一个好的辅助变量[1]。但是，在很多发展中国家，因为各种各样的原因，都用户数作为辅助变量[4]。

因为第三阶段观测值的差异不大，我们以行政村为基本抽样单位进行调查和推算，所以在计算抽样方差时可忽略第三阶段的差异，使用两阶段的抽样方差估计公式来计算抽样误差。这时有：

4.分析

这种情况不是标准的各级单位大小不等时自加权的三阶抽样。因为其最后一个阶段的简单随机抽样不是以播种面积作抽样框的，所以不能直接套用有关方差的估计公式和其他的推算公式。如果最后一个阶段以单位播种面积作抽样框，实际上不具有可操作性。前两阶段选择播种面积作辅助变量，原因主要是我国上世纪80年代正式进行抽样设计时，就是以播种面积为辅助变量的。播种面积虽然并不是一个稳定的好的指标，并存在许多调查的实际问题，但由于历史和现实的原因，它还是一个可用的辅助变量。

因为第三阶段观测值的差异较小，我们以行政村为基本抽样单位进行调查和推算，所以在计算抽样方差时可忽略第三阶段的差异，使用两阶段的抽样方差估计公式来计算抽样误差。这时有：

4.分析

这种情况也不是标准的各级单位大小不等时自加权的三阶抽样。因为其最后一个阶段的简单随机抽样不是以耕地面积作抽样框的，所以不能直接套用有关方差的估计公式和其他推算公式。如果最后一个阶段以单位耕地面积作抽样框，实际上不具有可操作性。前两阶段选择耕地面积作辅助变量，原因主要为耕地面积是一个比较好的指标，它比播种面积指标更稳定，它还与许多需要调查的农业指标存在相关（经常是正相关）关系，并容易过渡到以切块数为辅助变量的区域框抽样。

4.分析

这种情况是标准的各级单位大小不等时自加权的三阶抽样，所以能直接套用有关方差的估计公式和其他推算公式。国际经验表明，切块数是一个非常好的辅助变量。在很多发达和发展中国家，都用切块数作为辅助变量[4]。

（五）以户数为辅助变量的二阶抽样

将省总体分为合适的层，在各层中，以各初级抽样单位（简记为PSU，现在可以设想为村）去年或普查年户数作辅助变量，进行PPS系统抽样，从N个PSU中抽n个PSU；在抽中的村中以户名录框进行简单随机抽样，从村的户中抽m户。

（六）以切块数为辅助变量的二阶抽样

将省总体分为合适的层，在各层中，以各PSU（现在设想为村）去年或普查年切块数作辅助变量，进行PPS系统抽样，从N个PSU中抽n个PSU；在抽中的村中以区域框进行简单随机抽样，从村的个切块中抽m个切块。

1.对第i个PSU（村）

三、总结

我们在介绍这几种抽样设计的时候，已经表明了我们对抽样设计的推荐态度。这里辅助变量用的省、县甚至村的户数、播种面积、耕地面积、切块数，都是历史数据。这4个辅助变量数据的稳定性是可以判断的，后面的比前面的高。后面两个的定义也比较明确，并可以利用地图、卫星照片等进行核实，因此它们的好处是明显的。这里可行的抽样设计不需要用省、县的“乡村户数”的指标，比原来的调查设计在这方面前进了一步。如果能像美国、韩国那样每年进行一次耕地面积变动调查，则以耕地面积或切块为辅助变量的PPS系统抽样设计会更准确、可靠。

1.耕地面积是一个较稳定的指标。在农业调查中除了行政面积，它可能是最稳定的指标，并且与许多农业指标有相关关系，因此用它做辅助变量是较好的。用耕地面积作辅助变量的名录框，实际上可相当于一种类型的区域框。这种区域框不是经典的区域框。经典的区域框中切块大小基本相同，是设计中一般使用的抽样框。有些国家（特别是发达国家）是用行政面积划分切块的，它的稳定性是更好的。这样，农产量调查就可以用一套样本解决基本问题。当然一套样本不可能解决所有问题，比如韩国对栽培规模大而在全国广泛分布的水稻等17种主要作物，抽出一定数量的样本，由农业统计机关实施抽样调查；对栽培规模小的玉米等33种作物，由地方自治团体访问耕作农户分作物进行访问并计算0.1公顷平均产量，然后依据农业统计机关抽样调查推算的栽培面积计算其生产量。此外，我国存在耕地概念不完全与国际上的概念相同，耕地和多年生作物用地区分不清等问题。

2.村抽户或切块使用的是简单随机抽样设计，除了估计简单（是自加权的）外，另一个原因是为了便于用简单方法进行样本轮换。因为最后阶段对户或切块采用的是简单随机抽样设计，所以可以使用简单常用的复合样本轮换方法。这里只牵涉到在调查村中编制户（或切块）框，不涉及其他总体户数及其推断，因此不需要用无概率抽样保证的“乡村户数”指标，也不涉及单产的多级平均。可以直接推算省总产量，然后再反推单产。

3.在不受调查县限制的条件下，即在一个省的范围内可在任何县进行调查的条件下，样本可在全省范围内抽取。这时可对全省进行分层，在各层内以PSU的切块数为辅助变量进行PPS系统抽样设计直接抽PSU（现在可考虑以行政村作为PSU），然后在PSU中用简单随机的方法抽切块进行调查。这是一个标准的二阶抽样，也是国际上通用的设计方法。县可以参照省的设计方案进行自己的设计和调查。县的面积比省小，全县范围内的地理、气候。环境、农作物品种和管理等条件比省的差异小，所以比省更容易进行设计和调查。省也可以按县分层，以一个县或数个县为一层，对层进行抽样设计。

标签：抽样分布论文; 总体方差论文; psu论文;

我国农业产量调查中几种可行PPS系统的抽样设计_抽样分布论文

猜你喜欢