经济纵横

分层抽样下的变体平行模型及其实证研究

吕恕，宋颖潇

(电子科技大学数学科学学院，四川成都 611731)

[摘要 ]敏感问题的专业调查方法近年来得到不断完善，同时伴随着互联网的发展，网络调查开始渗透到敏感问题调查的实证研究中。变体平行模型是目前应用范围最广的敏感问题专业调查方法，将分层抽样方法引入到变体平行模型中，可以适用于调查总体较为复杂、单位间差异较大的情况，极大地提高调查效率及调查结果的准确性。分层抽样下的变体平行模型也有效地降低了网络调查的误差，使得敏感问题调查与网络调查的结合有了更坚实的基础。

[关键词 ]敏感问题；变体平行模型；分层抽样；网络调查

一、引言

互联网飞速发展的现代社会，充斥着复杂多变的信息，其中敏感性信息因涉及个人隐私，如吸毒、性取向等，其调查结果获取的难度极大。针对敏感性问题调查发展起来的专业调查方法，主要有随机化应答技术和非随机化应答技术，这些专业调查方法确保了受访者在调查中的匿名性，提高了敏感性问题调查结果的有效性。其中非随机化应答技术不需要复杂的随机化装置，使调查更简单便捷，还可与网络调查相结合，这一特点打破了以往敏感问题专业调查技术只能面对面、一对一，调查结果回答率和真实回答率不高的缺点，扩大了调查范围、降低了调查成本、提高了调查效率。但非随机化应答技术尚处于发展中，其各个方面的研究都还不完善，实际应用也不够广泛，因此对非随机化应答技术的研究还有待于进一步深化。

非随机化应答技术是针对二项选择属性特征敏感问题的调查模型，即是否具有某种敏感特征。变体平行模型^[1]是非随机化应答技术中应用范围最广且最高效的模型，其既解决了三角模型和交叉模型^[2]的局限问题——不能用于敏感问题中两分类都敏感的情况(如吸毒三次以上和吸毒三次以下)，也解决了平行模型^[3]中受访者非敏感性特征的比例不易得的问题(如喜欢吃辣的人群比例)。目前国内外对于敏感问题调查中非随机化应答技术的应用，大多限于小范围特定群体小样本的简单随机抽样，即使遇到复杂样本也只是利用简单随机抽样下的非随机化应答技术进行调查，导致调查结果出现较大误差。^[4]分层抽样划分了总体类别，增大了各个类别中样本的共同性，抽取的样本代表性更好，抽样误差较小，因此分层抽样常常被用于样本间差异较大或样本较多的复杂情况。

基于聚合物敏感膜的电位传感器往往用于金属离子的检测，对于生物分子的检测很难在传统聚合物选择性膜上实现，于是众多研究者将目光转移到了具有选择性结合序列的适配体和有特异性结合的小分子上。

本文将分层抽样引进变体平行模型中，对分层抽样下变体平行模型的敏感比例估计值、估计值方差和样本量的确定做出了详细推导。介绍了网络调查及其数据误差^[5]，分析了分层抽样下变体平行模型与网络调查结合的效果。利用新设计进行实证研究——吸毒人员复吸比例调查研究，使用蒙特卡罗方法模拟实际的调查过程。

二、变体平行模型介绍

变体平行模型的设计如下：令X=1表示具有敏感性特征的人的类别(吸毒)，X=0表示不具有敏感性特征的人的类别(不吸毒)。引入两个二分随机变量Y和W，假设Y和W都是非敏感的且X、Y、W相互独立，p=P(W=1)已知而q=P(Y=1)未知。例如，Y=1表示受访者喜欢吃辣，Y=0表示受访者不喜欢吃辣，W=1表示受访者ID最后一位是奇数，W=0表示受访者ID最后一位是偶数。可以合理地认为p≈0.5，要求估计具有敏感性特征的人群比例π_v=P(X=1)(下标v表示变体平行模型the variant of Parallel Model)。

受访者被要求如实回答表1左侧部分，并选择自己对应情况的符号。

的方差为

表 1变体平行模型设计及其对应概率

由表1知，当受访者选择“○”时，受访者属于{Y=0，W=0}这一子类；当受访者选择“△”时，受访者属于{X=0，W=1}这一子类；当受访者选择“□”时，受访者属于{Y=1，W=0}∪{X=1，W=1}这一子类。因为{X=0}、{Y=0}、{Y=1}、{W=0}、{W=1}均是非敏感的，所以{Y=0，W=0}、{X=0，W=1}和{Y=1，W=0}∪{X=1，W=1}这三个子类都是非敏感的，无论受访者做出什么样的选择都是非敏感的，都不会被采访者知道他的真实分类，即受访者是否具有敏感性特征。

三、分层抽样下的变体平行模型

由λ_i1=(1-q_i)(1-p_i)，λ_i2=(1-π_i)p_i可得

设调查总体容量为N，将总体划分为L层，第i层容量为N_i(i=1,2,…,L)，分别在各层以简单随机抽样的方法独立抽样，调查共抽取总样本容量为n，第i层样本容量为n_i(i=1,2,…,L)，对抽取的每个单位，采用非随机化应答技术进行调查。

令π_i表示第i层子总体中具有敏感性特征X的人群比例，q_i表示第i层子总体中具有非敏感性特征Y的人群比例，p_i表示第i层子总体中具有非敏感性特征W的人群比例。p_i已知而q_i未知。根据表1，设m_i1、m_i2、m_i3分别表示第i层n_i个子样本中受访者选择“○”、“△”、“□”的人数，λ_i1、λ_i2、λ_i3分别表示第i层n_i个子样本中受访者选择“○”、“△”、“□”的人群比例。

第i层子总体中:

进入11月份，主产区小麦价格整体稳中走强。华北地区麦价领涨市场，南方麦区价格稳中补涨。由于麦价持续走高，国家政策性小麦竞价交易回暖渐趋明显。

我爷爷是一名“老垦荒”，1960年建场时他就来了。那时牧场荒无人烟，只有一望无垠的草原，风吹过如巨大的波浪铺天盖地、此起彼伏，故而得名“巨浪牧场”。那时，第一批老垦荒队员和泥脱坯盖起了一排排泥土窝棚，从此便有了安身之所。

分层抽样的具体方法为：按总体各单位的显著特征(如性别、年龄等)将总体分层；根据各层单位数、总体单位数和样本容量，确定每一层的抽样比例(抽样比)；依据抽样比在每层以简单随机抽样的方法抽取样本；汇总每层抽样结果，组成总体抽样样本。在分层时需做到使层内各单位间的差异尽可能小，层间各单位间的差异尽可能大，层与层相互独立，总体各单位在划分时不重不漏。

λ_i1、λ_i2的无偏估计量分别为由变体平行模型中的结论可知：

且和分别是π_i和q_i的无偏估计。

在渡槽通水运行不卸荷加固条件下，渡槽碳纤维贴片加固后槽身裂缝得到抑制，且具有投资少，效果好，有效解决了实际工程问题，值得借鉴。

远程监测平台主要实现对集装箱的在线管理和实时监测，远程监测平台采用B/S结构[14-15]，使用最新的C#技术进行开发，建立ASP.NET MVC应用程序，数据库采用MySql[16]，根据“低耦合、高内聚”的模块划分原则将平台划分实时环境监测、实时位置监测、历史数据查询、历史轨迹查询、电子挂锁管理等模块。监测管理平台界面如图8所示。

调查总体中，π_v的估计量为：

我不是一个多么优秀的人，当然，也不是那么的糟糕，我尽我所能地希望把所有的事情都做好，但还是有太多不尽人意。天不遂人愿，遥远的爱情让我触不可及，我与它之间的距离只有“奢望”二字可以注解。不过，这并不妨碍我笃信爱的存在，以及希冀它的到来。最后，我想说，世道无常，悲欢无情，如果爱，请深爱！

其中ω_i=N_i/N为第i层的权重，即第i层的抽样比例，∑ω_i=1。

各层之间相互独立，因此的方差为

其中π_i(1-π_i)/n_i表示在第i层n_i个子样本中采用直接问答调查的方差，且与q_i无关。显然当p_i=1时模型失效变为直接调查，失去了对受访者的保护性。同时与p_i成反比，当p_i→0时，

调查中预先给定一个精度α，

根据分层抽样样本量最优分配原则可知，当且仅当

因此调查总样本容量

此时可达到预定的精度，取最小样本量即可满足要求，[x]为不大于x的最大整数。

则可知第i层样本容量

重复实验100次，男性层和女性层的实验结果分别如图1、图2所示。

四、实证研究

网络调查的误差分为覆盖误差、抽样误差、无回答误差和计量误差，分层抽样下的变体平行模型可以有效降低四类误差，用于网络调查两分类均敏感的问题。本文实证研究主题为“吸毒人员复吸比例调查研究”，调查的目标人群是吸毒人员，以蒙特卡洛模拟的方式进行研究。吸毒人员分为被查获一次且无戒毒史的偶吸人员和复吸(成瘾)人员，复吸人员相比偶吸人员更难戒断，同时男女在戒毒时产生的反应也有所不同，因此在戒毒方案的制定上要有所区分。

作者简介：林舒虹，女，龙岗区机关幼儿园，幼教一级，龙华区优秀教师，甘露名园长工作室学员，本科学历，研究方向：学前教育。

令X=1表示受访者(吸毒人员)复吸，W=1表示受访者编号ID尾数为偶数，Y=1表示受访者喜欢吃辣。则p=P(W=1)=0.5，q=P(Y=1)未知，求吸毒人员中复吸的人群比例π=P(X=1)的估计值。

首先将所有吸毒人员按性别分层，据《2015年中国毒品形势报告》统计^[6]，截至2015年底，全国共有吸毒人员234.5万(不含戒断三年未发现复吸人数、死亡人数和离境人数)，其中男性200.7万名，女性33.8万名，分别占85.6%和14.4%。设调查总体容量为N=5 000 000，男性层容量为N_m=4 280 000，层权重ω_m=85.6%，女性层容量为N_f=720 000，层权重ω_f=14.4%。令π_m表示男性层中复吸人群比例，π_f表示女性层中复吸人群比例，男性层和女性层中具有非敏感性特征W和Y的人群比例均与总体相同。

表 2分层抽样下的变体平行模型

生成信息矩阵后，需要对信息矩阵进行筛选，按照表2分层抽样下的变体平行模型选出符合条件的信息，即{X=0，W=1}，得到受访者中选择“△”的人数。设m_m、m_f分别表示男性层和女性层中受访者选择 “△”的人数，通过公式(1)、公式(2)计算可以得出实验中男性层和女性层的敏感人群比例。

利用蒙特卡洛方法对男性层和女性层分别进行模拟，实现了变体平行模型的整个问卷调查过程，假设样本量的设定是合理且有效的。在软件中生成吸毒人员的信息矩阵，每个人的信息包括{X，Y，W}，其中X、Y、W分别以一定的概率生成。据统计，截至2015年底，全国吸毒人员中偶吸人员106.9万名，复吸人员127.6万名，分别占45.6%和54.4%。因此在生成吸毒人员的信息矩阵时可将概率设定为：π_s=P(X=1)=0.544，p=P(W=1)=0.5，其中s表示实际调查中敏感人群比重。

短期旋回基准面下降期沉积的地层主要由三角洲平原和三角洲前缘富砂沉积物构成。在平行物源方向的地震剖面上通常显示明显的楔状体几何形态，内部连续、低角度的前积反射发育［3］。在三角洲进积过程中，前缘沉积物发生滑塌，经常在三角洲进积体的坡角处或更远的深水湖区形成滑塌浊积岩，呈小型透镜体状，分布面积有限，厚度较薄，一般数米厚。

(1)

(2)

方差达到最小值，此时

2016年山东疫苗事件发生后，黄梅立即结束休假，毫无怨言地服从领导安排。2016年3月18日～4月19日，黄梅连续参加两轮对辖区内的疫苗经营企业拉网式全面排查，带领检查组查到了国家总局通报中的上线人员“王忠林”。随后参与对贵州某医药有限公司调查，并对该公司库存的25个品规疫苗、484笔疫苗采购和5275笔医药销售进行逐笔调查。

图 1男性层敏感人群比例重复实验 100次的结果

图 2女性层敏感人群比例重复实验 100次的结果

再将重复100次实验的男性层、女性层敏感人群比例代入计算公式(3)，可以得到重复100次实验情况下调查总体中敏感人群的比例，如图3所示。

(3)

图 3调查总体中敏感人群比例重复实验 100次的结果

由上述男性层、女性层和调查总体中的敏感人群比例图可以看出，重复实验100次，实验结果总在预设值附近波动，因此蒙特卡洛模拟可以很好地实现敏感性问题调查的物理过程，且打破了抽样调查在相同情况下只能进行一次有效调查的限制，得到了重复实验100次的结果。

但是从图中也可以看出，每个群体中波动的大小不同，分析男性层和女性层的敏感人群比例的方差可知，见公式(4)、公式(5)，在设定的各层敏感人群比例与非敏感人群比例与总体保持一致的情况下，各层敏感人群比例的方差只与样本量的大小有关，且两者成反比。本实证研究中男性层的样本量比女性层大，因此男性层敏感人群比例的方差比女性层小，很好地解释了实验结果中男性层波动更小的情形。

人工模拟肠液的配制：磷酸氢二钾6.89 g，加500 mL蒸馏水溶解，再用0.4 mol/L NaOH溶液将其pH调至6.8，另取胰蛋白酶10 g加适量蒸馏水溶解，将两液混合后，加水定容至1 000 mL。

(4)

(5)

五、研究结论

通过上述分析可知，分层抽样下的非随机化应答技术应用范围更广、精度更高，相比简单随机抽样下的非随机化应答技术，更适用于调查较为复杂、单位间差异较大的总体。其与网络调查相结合可以使得敏感性问题的调查变得更加便捷。分层抽样下的变体平行模型需要注意以下三点：

赴菲游客对巴拉望岛和长滩岛两地涉水事件的风险感知较高，其原因可能是巴拉望岛和长滩岛均为世界著名的潜水胜地，有非常丰富的潜水娱乐项目，因而发生溺水事故的可能性也大大增加。

1.总体敏感比例估计值的确定。用每层敏感比例估计值来推导总体敏感比例估计值时，不能简单地进行叠加，用确定各层敏感人数，相加后得到总体敏感人数，再求总体敏感比例的估计值

2.总体样本量的确定。由于总体方差为各层加权求和，直接与精度比较求样本量无法实现，因此将各层方差与精度比较，求出各层样本量n_i，再求和得到总体样本量n。

3.各层样本量分配比例的确定。每层在抽样时的抽样比例不能简单地用层权来衡量，而应该根据分层抽样样本量最优分配原则来确定。

实证研究中对于吸毒人员复吸比例的调查研究，成功地实现了相同条件下的重复实验，实验结果在真实值附近波动，模拟了敏感性问题调查的实际过程。该项实证有助于戒毒管理单位更加科学有效地帮助吸毒人员戒毒。本文对于变体平行模型的改进及其实证研究敏感性问题调查方法的进一步完善提供了可靠有效的理论参考和指导原则。

[参考文献 ]

[1]Liu Y,Tian G L.A Variant of the Parallel Model for Sample Surveys with Sensitive Characteristics[J].Computational Statistics &Data Analysis,2013,67:115-135.

[2]Yu J W,Tian G L,Tang M L.Two New Models for Survey Sampling with Sensitive Characteristic:Design and Analysis[J].Metrika,2008,67(3).

[3]Tian G L.A New Non-randomized Response Model:The Parallel Model[J].Statistica Neerlandica,2014,68(4):293-323.

[4]吴琴.敏感性调查中两总体下 NRR模型的应用[D].哈尔滨:东北师范大学,2010.

[5]樊茗玥.网络调查数据质量控制研究[D].镇江:江苏大学,2011.

[6]中国国家禁毒委员会办公室.2015年中国毒品形势报告[R/OL].[2016-02-18]http://www.nncc626.com/2016-02/18/c_128731173.htm.

Parallel Model of Variants under Stratified Sampling and Its Empirical Study

Lü Shu, Song Ying- xiao

(School of Mathematical Sciences,UESTC,Chengdu 611731,China)

Abstract: The professional investigation methods for sensitive issues have been continuously improved in recent years.At the same time,with the development of the Internet,network surveys have begun to penetrate into the empirical research of sensitive issues.The variant parallel model is the most widely used professional survey method for sensitive problems.When the stratified sampling method is introduced into the variant parallel model,it can be applied to the investigation of complex and differences between units at larger,which greatly improves the efficiency and accuracy of survey results.The variant parallel model under stratified sampling also effectively reduces the error of network survey,which makes the combination of sensitive problem investigation and network survey have a more solid foundation.

Keyword: sensitive issues,variant parallel model,stratified sampling,network survey

[中图分类号 ]O212.2

[文献标识码] A

[文章编号] 1004-9339(2019)04-0062-06

[收稿日期 ]2019-04-05

[作者简介 ]吕恕(1963-)，女，吉林长春人，电子科技大学数学科学学院教授，统计学博士；宋颖潇(1994-)，女，陕西渭南人，电子科技大学数学科学学院统计学硕士研究生。

责任编辑：任玲

标签：敏感问题论文; 变体平行模型论文; 分层抽样论文; 网络调查论文; 电子科技大学数学科学学院论文;

分层抽样下的变体平行模型及其实证研究论文