大数据调研、云Panel调研、传统调研的融合贯通论文

大数据调研、云Panel调研、传统调研的融合贯通

◇王霄李金玲罗志亮刘允强

摘要：为解决线下传统调研难度大、成本高，以及网络访问固定样组调研和大数据调研样本代表性不足，难以进行统计推断等问题，本文重点研究利用数据融合（Data Fusion）方法逐步搭建大数据调研、云Panel调研、传统线下调研三种方式融合贯通的新型调研模式。具体利用基于倾向得分匹配的样本匹配（Sample Matching）方法，将来自三种调研方式的样本及调查数据有效融合，创造三种调研方法相互结合、相互补充、相得益彰的新型调研方式，提高运作效率，提升调研质量。研究表明，基于倾向得分匹配的样本匹配方法可以实现不同调研方式的融合贯通，在实际市场调查中具备可应用价值。

关键词：大数据调研；云Panel调研；传统调研；样本匹配；倾向得分匹配

一、引言

市场调研的三大核心问题可以归纳为：第一，数据质量，包括控制抽样误差和非抽样误差，抽样误差主要强调的是样本代表性，非抽样误差指调查中所有其他因素带来的误差；第二，执行效率，调研项目成功与否很大程度上取决于项目响应率、问卷的回答率；第三，调查费用，即成本，市场调研行业就是在这三大核心问题上不断寻找着最优化的组合。不论包括入户、街访的传统线下调研，还是网络迅猛发展下，利用基于样本招募的自有和外部网络访问固定样组的云Panel调研，以及大数据形势下应运而生的大数据调研，在面临这三大问题，寻找最优解时，各自体现出了突出的优势及不足。

线下传统调查特别是入户调查，因遵循随机原则而使样本能够准确反映调查总体的信息。实际中，我们有很多推及总体的项目，比如电视观众满意度的项目、居民消费习惯调查基本上都是入户调查，最后要精准推及全市、全省乃至全国的总体情况；再有，国内很多权威调研，比如居民收入水平调查，还需在入户调查前出具最为专业细致的抽样方案来保证样本的代表性，从而最终保障调查总体数据的准确可靠。可见样本数据是调研之本源，样本是偏的，调查结果无疑将出现不可忽视的偏误，所以统计抽样的重要性不言而喻。而网络调查所依托的网民群体目前来讲还不能代表总体，有相当一部分个体没有入样，很难实现真正意义上的“随机原则”从而保障良好的代表性。它们更适合应用在特定人群或者与互联网使用相关的调查来提高样本代表性，所以其应用范围及应用深度均受到一定的阻碍。图1表示云Panel抽样、大数据抽样与网络总体、人群总体之间的关系。然而，随机样本的触达是非常困难的，入户调查会耗费大量的人力、物力、财力；而云Panel调研和大数据调研相较线下传统调研则非常高效、经济、便捷，并且大数据调研还有其更加突出的优势：渠道资源丰富、用户覆盖范围广、用户画像精准圈人，而且利用立体鲜活的人群画像能够更深层次地挖掘样本信息以获得更深层次的调查结论。

图1 云Panel抽样、大数据抽样与人口总体、网络总体的关系

综上所述，这三种调研方式皆是尺有所短、寸有所长。那么，如何在保障数据质量的基础上，充分利用云Panel、大数据的调查优势，拓展其在市场调查中的应用，尽可能高效率、低成本、精准地执行我们的调研任务，是我们目前面临的挑战和亟待解决的问题。对此，我们将尝试利用数据融合技术中的样本匹配法将三种调研方式融合贯通，研究该方法在统计调查中的可应用性，这无论是对丰富调查抽样领域的研究，还是对解决市场调查中存在的实际问题均具有重要的学术意义和应用价值。

二、大数据调研、云Panel调研、传统线下调研的融合贯通

本文主要研究利用数据融合（Data Fusion）方法逐步搭建大数据调研、云Panel调研、传统线下调研三种方式融合贯通的新型调研模式。具体利用样本匹配（Sample Matching）方法，将来自三种调研方式的样本及调查数据有效融合，创造三种调研方法相互结合、相互补充、相得益彰的新型调研方式，提高运作效率，提升调研质量。

通常，欠缺结婚形式要件的法律后果是婚姻不成立，而不是婚姻无效。中俄婚姻法都持此见解，故在婚姻无效的事由中并无欠缺形式要件这一项。

所谓样本匹配，通常被用于非随机化的观察性研究中，特别是在医学、生物学领域有着广泛的应用。目前，样本匹配方法已不乏应用于市场调查中的先例，国内外也有很多的文献支持，Rivers D^[1]2006年首次提出样本匹配法（Sample Matching）是一种从非概率样本中选择代表性样本的新方法，特别适合于网络固定样组调查。Vavreck L和Rivers D^[2]（2008）针对美国国会选举研究，选用了一种基于距离函数的样本匹配法从云Panel中采集与美国社区调查文档中最近的匹配样本，通过匹配样本的数据进行估计，发现与传统的调查方法相比总体估计的均方误差（RMSE）更小。Terhanian G和Bremer J^[3]（2012）基于平行调查（一个随机数字拨号电话调查和一个网络访问固定样本调查）使用倾向得分来选择匹配样本。金勇进、刘展（2016，2017）^[4][5]在大数据背景下非概率抽样的统计推断问题中也探讨了基于样本匹配的抽样方法以及权数构造与调整的具体解决办法。

我国提出教育强国的目标，国家在高等教育上也加大了投资力度，但是过于强调教学，好像教育只跟教师挂钩，长此以往，在人们的观念中学校只有教师才是最为重要的，其他辅助人员都是作为教师的“陪衬”而存在的[2]。

（2）基床顶面的最大应力为485.6 kPa，根据测量资料，工程区域地基承载力极限值为1529.6 kPa，可见工程区域地基能够承受基床顶面的应力，设计合理。

1.倾向得分匹配

倾向得分匹配原本用于因果推论，倾向得分指的是被研究个体在控制可观察到的混杂变量的情况下，接受某种处理的条件概率^[6]。首先指定协变量X_i，将有无接受处理记作D_i（接受时，D_i=1；反之D_i=0），则个体i的倾向得分为：p（X_i）=P（D_i=1|X_i）。倾向得分匹配就是假设个体i属于处理组，找到属于对照组的某个体j，使个体j与个体i的协变量或倾向得分取值最大程度相近，即X_i≈X_j或p（X_i）≈p（X_j）[7]。

寻找与目标样本匹配的网络，通常两者之间的相似程度通过距离函数来定义，不同的距离函数定义规则产生不同的匹配方法，常用的匹配方法有最近邻匹配、卡钳与半径匹配、分层或区间匹配、核与局部线性匹配等。本文研究基于最近邻匹配（Nearest Neighbor Matching，NNM）^[8]。

（1）估计倾向得分

高速公路的施工时，实际施工地区的差异比较明显，因此应该进行具体的前期勘察与实地分析，确定施工方案，并将可能对施工产生影响的外部环境进行提前分析与记录，包括施工区域的天气状况、所处的地理条件、交通状况等等。针对具体的情况制定安全管理的示意图，为后期的施工提供参考和依据。

估计p（X_i）=P（D_i=1|X_i）主要选择参数估计（probit/logit）或非参数估计来处理，结合现状来看，logit函数作为常用连接函数，主要把示性变量D_i定义成因变量，协变量X_i定义成解释变量实现Logistic回归模型。实践处理阶段，假定X_i全部完成中心变换，那么：

由式（1）可得：

这里我们选用多元统计轮廓分析法对250对样本的调查结果进行平行轮廓、重合轮廓及水平轮廓检验。由于篇幅问题，这里仅对云Panel、线下各20个样本关于CCTV-4、CCTV-10、旅游卫视、CCTV-9的满意度评分进行展示。

这边SIHH的日子似乎也不太好过，大约是9月份，爱彼和理查德米勒几乎同时宣布在2019年之后不再参加SIHH展会。不论是斯沃琪还是爱彼的官宣里，几乎都提到了一个核心议题，制表行业的不断发展，促使品牌的商业模式逐渐产生变化。制表商决定探索新的方向，以便与全球终端客户和腕表爱好者，媒体建立更紧密、更直接的关系。一句话，传统展会带给品牌的回报不再吸引人，而品牌可以通过性价比更好，效率更高，回报更优厚的方式来营销。不论是线下的独立直营店，还是网上的品牌旗舰店，都能带来更好的回报，更专业的服务品质。

（2）选择匹配样本

倾向得分匹配的目的是通过控制混杂变量的影响来有效规避选择性误差，从而保证因果结论的可靠性。网络抽样中也不可避免地因样本有不同的参与意愿和倾向产生选择性偏差，从而损伤样本代表性，因此这种方法特别适合网络样本的代表性抽样。这里我们定义，D_i=1表示单元i在目标样本中，D_j=0表示单元j在网络样本中。目标样本每个单元i都有一些协变量（性别、年龄、教育程度等）组成的向量 X_i=（X_i1，X_i2，…，X_ip），p为协变量的个数，网络样本中每个单元j拥有同样协变量组成的向量 X_j=（X_j1，X_j2，…，X_jp）。匹配具体步骤如下：

样本匹配法的核心思想是：首先，从包含一系列协变量（性别、年龄、教育程度、职业、收入等）的目标总体抽样框中抽取一个概率样本作为目标样本；其次，根据协变量信息，采取一定的匹配方法，从网络样本中抽取与目标样本对象最为近似的单元，称为匹配样本；最终，对目标样本混合匹配样本展开调查访问，获取调查数据进行整体估计。样本匹配法涉及很多种类型，诸如基于决策树的样本匹配、基于最近邻的样本匹配、基于预测均值的样本匹配、基于随机森林模型的样本匹配等，本文重点研究倾向得分匹配（Propensity Score Matching)。倾向得分匹配具有将高维度匹配降为一维的突出优势，极大降低了计算复杂度，是目前最流行的统计方法之一，因而得到广泛应用。

最近邻匹配是将两组样本中最近的一个或多个样本进行匹配的方法。样本间的距离可采取不同定义，如1-范数、2-范数、∞-范数等。若一个样本匹配另一组与其距离最近的一个样本，这种方法称为单一最近邻匹配，若匹配另一组与其最近的多个样本，在估计模型中对多个样本赋予不同权重，这种方法称为多重最近邻匹配。根据匹配单元是否进行多次匹配可分为有放回的最近邻匹配和无放回的最近邻匹配，其区别在于，有放回的最近邻匹配允许给定的网络样本单元（D_j=0）匹配到多个目标样本单元（D_j=1）。本文采取单一无放回最近邻匹配，距离定义如下：

2.基于样本匹配的调研方式融合贯通

可见，倾向得分匹配可以有效消除云Panel、线下样本在性别、年龄、教育程度、职业等混杂变量上存在的偏倚，使匹配样本与目标样本间不存在显著的结构性差异，此时匹配样本本质上可近似于线下概率样本。同时看到，匹配样本的分布取决于网络访问固定样本的分布，网络访问固定样本结构分布越均匀，匹配样本分布越均匀。目前网络访问固定样本尚未达到覆盖总体结构的水平，因此会对样本混合造成一定程度的影响，这种情况可以通过分层抽样的方法来解决，在此不做赘述。

图2 线下概率样本、云Panel样本融合过程

云Panel调研和大数据调研的融合贯通。云Panel是以网民总体结构（CNNIC公布）为基础建立的，对网民总体具有一定代表性，那么为提高样本的代表性，我们以云Panel为目标样本在大数据样本中选择匹配样本，并邀请目标样本和匹配样本完成调查，该过程展示如下图3：

图3 大数据样本、云Panel样本融合过程

三、实证研究

目前为止，我们已在不同类型的市场调查项目中进行了大数据、云Panel、传统调研间的融合贯通试验。试验过程均为，首先，通过两种调研方式简单随机抽样大样本量进行同期调查，并利用倾向得分匹配法以其中一种调研方式的样本为目标样本选取匹配样本；其次，进一步检验匹配后的目标样本与匹配样本在调查结果间是否存在统计学显著性差异。如果两者之间存在显著性差异，则一定程度上说明两种调研方式的样本不能相混合，反之，则说明两种调研方式的样本可以混合，共同完成调研项目，可以融合贯通。

1.线下传统调研与云Panel 调研的融合贯通

以某城市电视观众满意度研究为例，其是市场研究中的重要研究类型，通常以0分至100分的评分形式来反映对电视频道、栏目、主持人整体满意程度。线下入户调查样本600个、同期云Panel样本750个。

（1）倾向得分匹配

首先以线下概率样本为目标样本进行倾向得分匹配，我们这里选用的是最近邻法，单一无放回的一对一精确匹配的方法，匹配容差（卡钳半径）设为0，选取性别、年龄、教育程度、职业为协变量，精确匹配出的样本共计250对。倾向得分匹配具体实现过程在R中进行。特别是对于样本匹配协变量的选择问题，由于不同类型的问题涉及的被调查群体的背景信息均存在或大或小的差异，我们不可能以偏概全地就使用某个或某几个固定的协变量来诠释所有被调查人群的背景情况，因此我们倾向于利用相应领域的专家咨询及行业经验来进行协变量的选择。

MSBR工艺进行污水处理时，出水COD会出现偶尔增高的现象，并且最高值达到了45mg/L。同时进行沉淀出水时还有污泥上浮的情况，污泥的颜色也比较深，造成这种情况的原因有可能是曝气量不足导致溶解的氧含量较低。经过检查之后，部分区域仍然出现污泥上浮并且出水COD较高的情况。针对此情况，将好氧环境中的序批反应时间设置成搅拌好氧过程，这样就可以将出水COD值控制在合理的范围内[3]。

表1 倾向得分匹配结果

由表2可以看到，在样本匹配之前，网络访问固定样本中随机抽样的样本与线下概率样本在性别、年龄、教育程度、职业间均存在结构性差异；而在样本匹配后，匹配样本与目标样本在各个背景信息间的分布都更均衡可比。

智慧城市作为一项系统性工程，需要根据城市建设和社会发展的宏伟蓝图进行顶层设计，制订长期发展规划和建设目标，更需要以人为本的建设理念，做好技术选择和制度创新。智慧城市的建设目前还在在摸索中发展和前行，一城一策、因地制宜，需要通过对智慧城市建设的理论研究和城市自身的实践调查，逐步推进。在建设过程中，如何摆正政府和市场的关系，利用好社会资本和社会力量，也是智慧城市建设的重要抓手，是做好这项只有起点而没有终点的工作的关键。

表2 倾向得分匹配前后，云Panel样本、线下样本结构特征

由公式（1）可知，匹配样本本质上近似于目标样本，不同调研方式的融合贯通则是指将匹配样本与目标样本相混合共同完成调查项目。云Panel调研和线下传统调研的融合贯通首先需在线下随机抽样部分样本进行访问调查，再根据当期线下概率样本为目标样本在云Panel中选择匹配样本，并邀请匹配样本完成调查，该过程展示如下图2：

（2）调查结果显著性差异检验

应用蛋鸡绿色生态养殖技术，有效解决传统蛋鸡养殖中环境污染大、疫病多、污染物危害性强的特点。通过积极应用绿色蛋鸡生态养殖技术，能够及时转变传统生产模式，提高养殖效益，实现蛋鸡养殖经济效益、生态效益和社会效益的有效结合，具有重大现实意义。

式中，0≤p（X_i）≤1

表3 某城市云Panel、线下样本对电视频道满意度评分的调查结果

续表

表4 云Panel、线下电视频道满意度评分的平行轮廓检验多变量检验^a

上表展示的是平行轮廓检验的结果，四种不同的检验统计量的p值均为0.739，表示在0.05的显著性水平下均通过检验，只有在通过平行轮廓检验的情况下才可进行重合轮廓检验。

表5 云Panel、线下电视频道满意度评分的重合轮廓检验主体内效应检验

上表展示的是重合轮廓检验的结果，四种不同的检验统计量的p值均远大于0.05，表示在0.05的显著性水平下均通过检验，只有在通过重合轮廓检验的情况下才可进行水平轮廓检验。

表6 云Panel、线下电视频道满意度评分的水平轮廓检验主体间效应检验

水平轮廓检验显示四种不同的检验统计量的p值均远大于0.05，表示在0.05的显著性水平下均通过检验。上述结果依然表明云Panel匹配样本与线下样本调查结果不存在显著性差异。

因此，云Panel中的匹配样本可以替代部分入户样本，实现与线下入户样本的有效融合，两种调研方式融合贯通。这样则可以在保障调查抽样具有良好代表性的基础上，充分利用云Panel的调查优势，高效高质量地完成调查项目。

2.大数据调研与云Panel调研的融合贯通

以某城市中高端白酒消费者研究为例，主要调查消费者中高端白酒的消费认知、消费渠道、消费场景等。该项目通过外部大数据公司利用丰富的媒体资源、多维度的用户画像以及场景化的投放快速而精准地触达336个样本，云Panel同期采集514个样本。

我国的林业发展中，种植的林木种类多，不同地区的种植方式不同，这就导致了无法对单一林种进行详细的造林技术规定。对于一些国有林地，其在种植速生桉树的同时，或许也在发展林下产业，这对于造林时对造林技术形成技术规程的制定与完善产生了阻碍，但也不应因为种植速生桉树而放弃林下产业的开发。因此，对于一些速生桉树林区而言，在造林技术进行之前，提前对造林规程进行搭配与完善是必要手段，在技术上对造林工程进行规范，完善与制定严格的技术要求，保证造林技术的规范性，实现速生桉树生产效益的最大化。

这里我们认为，云Panel是以网民总体结构（CNNIC公布）为基础建立的，对网民总体具有一定代表性，那么为提高样本的代表性，我们以云Panel为目标单元，通过倾向得分匹配成功匹配86对样本，并比较两种调研方式调查数据的显著性差异。表3结果说明，来自大数据的匹配样本与云Panel样本的调查结果已达到非常接近的程度，调查结果不存在显著性差异（这里应用卡方检验，调查结果双尾检验概率p值大于0.05，即在0.05的显著性水平下我们没有足够的理由拒绝原假设，即两者的调查结果不存在显著性差异）。

表7 某城市中高端白酒调查结果的卡方检验

因此，大数据与云Panel的样本可以有效融合，两种调研方式融合贯通。这样可以充分利用大数据的突出优势，精准高效触达目标样本，更全面、深刻地挖掘用户特征、洞察研究内容，高效高质量地完成调查项目。

四、结语

截至目前，本文通过样本匹配的方法尝试了线下传统调研和云Panel调研之间的融合贯通，以及大数据调研和云Panel调研之间的融合贯通。在保证抽样调查代表性的基础上着力解决线下传统调研面临的瓶颈，同时拓展大数据、云Panel在市场调研上广泛和深度应用，促使其在业界获得更为广泛的共识，逐步引导大家接受这种融合调研的方式。通过若干项目的试验论证，大数据、云Panel、传统调研融合贯通的方式不仅在市场研究理论上站得住脚，而且在调查实践中具备更强的可应用性。这种尝试对市场调查行业调查体系的良性发展具有重要应用价值，可以作为一种科学的调研方式在实际调查项目中进行尝试及推广。

参考文献：

[1]Rivers D．Sample matching—representative sampling from internet panels[J].Polymeric White Paper Series，2006.

[2]Vavreck L，Rivers D．The 2006 cooperative congressional election study[J].Journal of Elections，Public Opinion ＆ Parties，2008（04）.

[3]Terhanian G，Bremer J．A smarter way to select respondents for surveys？ [J]．International Journal of Market Research，2012（06）.

[4]刘展，金勇进.大数据背景下非概率抽样的统计推断问题[J].统计研究，2016（03）.

[5]刘展，金勇进.云Panel调查的统计推断研究[J].统计与信息论坛，2017（02）.

[6]Rosenbaum P R，Rubin D B.The Central Role of the Propensity Score in Observational Studies for Causal Effects[J].Biometrika，1983（01）.

[7]刘展，金勇进.基于倾向得分匹配与加权调整的非概率抽样统计推断方法研究[J].统计与决策，2016（21）.

[8]Smith J A，Todd P E．Does matching overcome La Londe’s critique of non-experimental estimators[J].Journal of Econometrics，2005（02）.

10.13999/j.cnki.scyj.2019.01.008

〔作者单位：央视市场研究（CTR）运作及样本中心〕

标签：大数据调研论文; 云Panel调研论文; 传统调研论文; 样本匹配论文; 倾向得分匹配论文; 央视市场研究(CTR)运作及样本中心论文;