数据驱动的人文社科研究困境与对策：基于微观数据层面的考量论文

数据驱动的人文社科研究困境与对策：基于微观数据层面的考量*

是沁李阳

（1.南京大学信息管理学院江苏南京 210023）

摘要：文章从人文社科研究过程入手，分析了数据驱动的人文社科研究在数据获取、数据处理、数据共享各阶段存在的数据需求、数据隐私、数据质量、数据权益等问题。最后，从微观的数据层面，对数据驱动的人文社科研究提出了促进人文社科数据资源开放共享、构建多维度的人文社科研究数据管理与监督机制、加强人文社科研究人员的数据素养教育等3 个方面的对策建议。

关键词：大数据；数据驱动；人文社科研究；应对策略

大数据作为一种新的理念和技术，对现代生活产生了巨大影响，同时它作为一种新的科学图景，为不同学科发展带来了新的机遇^[1］。在大数据时代，社会信息化和智能化程度有了前所未有的提升，技术环境也发生了巨大的变化，这些变化渗透到了人文社科研究的各个领域，推动了人文社科研究向数据驱动的“第四范式”转变。一方面，大数据使人文社科数据收集更加全面高效，社交媒体数据、传感器数据、社会管理数据等扩大了人文社科研究的数据规模，使研究成果更加科学化、精确化；另一方面，大数据为人文社科带来了新的研究方法，社会网络分析、数据挖掘、机器学习等使研究人员在开展研究时更加得心应手，为跨领域、跨学科研究提供了可能。

毫无疑问，大数据能够提升人文社科研究的质量，为人文社科研究带来新的活力，但近些年的研究表明，大数据带来的风险与挑战也是不容忽视的。如倪万和唐锡光^[2］就大数据应用于社会科学研究的基础性问题展开研究，指出大数据环境下的社会科学研究存在“总体”与“样本”、“混杂”与“精确”、“相关”与“因果”四个方面的悖论；陈泓茹等^[3］指出要警惕大数据融入人文社科研究的基本限度：其一，大数据改变了人文社科研究的存在形态，但从本质来说，精神世界是无法数据化的；其二，充分认识数据固然重要，但是要警惕数据崇拜；其三，大数据能提高人文社科研究的精确化程度，但是精确化并不等于科学化；米加宁等^[4］指出第四范式驱动的社会科学研究需要关注大数据的技术伦理问题与以往社会科学传统价值的挖掘问题。

目前这些已有的研究在一定程度上揭示了大数据应用于社会科学研究的共性问题，但更倾向于宏观问题的描述，缺乏对大数据环境下人文社科研究中数据问题的细粒度分析。虽然有些学者已经提及了数据伦理、数据崇拜等问题，但并未对问题及其产生原因进行深入系统的分析。基于此，本研究对大数据环境下人文社科研究的数据问题进行多方面的综合考量，并有针对性地提出应对策略。

2009年3月，江都三站进行了变频机组发电试运行，在5 m水头下，最大单机发电功率为430 kW，机组平均发电功率在380 kW左右。同时对机组的振动、噪声等参数进行了现场测试，机组运行可靠稳定，各项指标达到设计要求。

1 数据驱动的人文社科研究困境

大数据环境下人文社科研究的数据问题作为“元问题”，由一系列子问题共同构成人文社科研究数据问题的框架，这些子问题主要包括数据需求问题、数据隐私问题、数据质量问题、数据权益问题等。

端正学术氛围，形成自由民主的学术生态。学术是高校的逻辑起点，实现学术创新不仅需要宽松自由的环境，更需要高校的学术自治管理。急功近利的校园文化不利于良好学术氛围的形成与高端学术远景的实现。高校要建立生态学术制度，以制度约束学术规范，保障自由民主、百家争鸣的学术空间，形成恪守道德、珍惜声誉的学术氛围。

1.1 数据需求问题

随着数据驱动的第四研究范式的兴起，数据的价值日益凸显，人文社科研究人员数据需求也发生了一系列的变化，主要表现为多元化的数据来源需求、多样化的数据类型需求、全方位的数据主题需求。首先，在数据密集型的科研环境下，人文社科研究人员不仅可以通过搜索引擎获取互联网大数据，还可以通过数据中心或者数据平台等专业数据库获取用于科学研究的大数据；其次，人文社科数据类型复杂多样，数值型数据、文本、图片、视频等结构化、半结构化、非结构化数据都可以被嵌入到人文社科研究中，尤其像历史学、心理学、社会学等学科对非结构化数据的需求更为强烈；最后，人文社科各学科之间的融合与交汇不断加深，科学研究活动往往需要跨领域数据的支持，科研人员需要获取跨学科的数据以链接不同领域的知识点。

4) 把握社会主义荣辱观，引领学生“真行”。社会主义核心价值体系的基础是社会主义荣辱观,这是社团文化建设的着力点。胡锦涛总书记在新时期提出的社会主义荣辱观充分体现了社会主义基本道德规范和社会风尚的本质要求，它为大学生树立正确的世界观、人生观、价值观提供了准绳和依据，为全面实施素质教育指明了方向，提供了新的动力。正确对待善与恶、美与丑、荣誉与耻辱等，从而把无私奉献、淡泊名利作为自己的人生追求和价值取向,努力成为敬业奉献、明礼诚信、爱国守法的实践者。

人文社科研究人员数据需求日益迫切，人文社科数据资源建设与管理的现状却不乐观。近年来，中国人民大学、复旦大学、武汉大学、《图书馆杂志》出版社等先后搭建了数据中心以支撑人文社科研究的发展。但是数据资源建设蓬勃兴起的同时，仍然存在资源分散、管理混乱、内容单一等问题：（1）国内人文社科数据平台功能相对单一，仅提供浏览、查询等服务，不支持机器的读取和原始下载。如中山大学社会科学调查中心规定数据知识产权划归数据原始持有机构所有，规定数据获取需要审核；（2）人文社科数据资源建设标准不统一，不利于数据互联互通。由于人文社科数据资源建设标准不完善，普遍缺乏数据读取和交互操作的数据接口，科研人员无法查看详细数据结构，更无法通过关联数据的方式相互共享链接^[5］。目前，中国人民大学社会调查与数据中心、复旦大学社会科学中心等明确使用DDI 元数据标准，而其他很多机构在人文社科数据标引规则、数据互操作、数据存储等方面尚需要进一步统一；（3）数据内容揭示不足，数据资源整合层次较浅。目前，一些人文社科数据资源平台能做到对数据或者数据集进行标引，但是缺乏对数据内容的深入标引，大多数平台不具备全面的高级检索功能，无法满足人文社科研究人员的数据多元化跨领域的数据需求。

1.2 数据隐私问题

大数据环境下人文社科研究可以通过社交软件、智能设备、网络日志、开放API 等方式获取实时数据，对数据进行清洗、脱敏、匿名后通过社会网络分析、聚类分析、关联分析等方法揭示多源异构数据之间的相关关系、时间关系与空间关系，形成相关研究，但在这个过程中随时有可能造成个人隐私数据的侵犯。

式中，En—林木资源资产经济价值量；W—销售总收入；C—林木资源资产的各项经营成本；F—林木资源资产经营期间的合理利润。

人文社科研究的数据类型包括用户生成内容（UGC）、空间位置数据与电子踪迹等，这些规模庞大且杂乱的数据中包含着个人识别信息、个人身份信息、个人偏好信息等隐私数据（见图1）。在数据采集阶段，这些隐私数据在用户毫不知情的情况下被获取，自此潜在威胁开始显露。政府网站、数据中心等开放平台的数据一般都通过去识别化处理将数据与其来源相剥离，通过爬虫获取的数据也会进行匿名处理，但是这些方法不是绝对安全的，多个数据集跨域互联之后，即使是已经匿名化的数据也会慢慢清晰。研究者通过数据挖掘和知识推理技术将毫无关联的数据进行加工与整合，将碎片化的静态单元信息通过时空组合形成网状化模块数据，不直接触及到隐私的信息经过科研人员叠加处理，可以轻易用数据画像还原个人生活全貌。 Latanya Sweeney 通过对去识别化的出生日期、性别、邮政编码信息、投票登记记录进行数据配比，从而重新确认州保险委员会发布的匿名化的健康记录信息^[6］。在数据管护阶段，如果不能有效存储数据和合理开放数据，也会对个人隐私与数据安全造成巨大威胁。大数据时代科学数据不断增长，存储与传输系统处理这些科学数据需要坚实的组织与技术保障，并且需要通过相互协作来汇集不同来源的数据。然而，目前我国缺乏统一的数据管护平台，人文社科各数据管理中心的数据安全评估标准与数据安全防护机制也不完善，这些因素都可能成为隐私泄露的原因。

图1 人文社科研究过程中的数据隐私侵犯

大数据时代，数据生成与科学研究分离，加上数据的极度丰富与多维属性，研究人员因个人原因造成的“观念先行”“材料拼凑”“以偏概全”等问题被认为可以有效避免^[9］。因此，有研究认为“大数据时代，人文社科研究从海量数据中获得的结论，相比通过传统抽样统计分析的结果更为准确”^[10］。事实上，数据的生产与科学研究相互独立，不但未能有效排除影响因素，反而可能在一定程度上招致更多的干扰因素。各种外部环境干扰与人为干扰隐藏在数据生产到数据分析再到结果展示的各个阶段，持续影响着人文社科研究的数据质量。

1.3 数据质量问题

数据管理中心数据政策缺失是隐私侵犯的原因之一，其根本原因在于我国缺乏个人隐私保护相关法律对研究人员行为进行规范。从全球来看，联合国有113 个成员国建立了数据保护法或其他等同法案。反观我国截至目前没有独立完整的数据保护法，相关规定分散在各种法律法规中。最新的《中华人民共和国网络安全法》新增了最少够用原则、个人信息共享条件等新规定^[7］，《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》补充了《刑法》，明确了侵犯公民个人信息罪的定罪量刑标准、相关法律适用等内容^[8］。但上述个人隐私保护的法律条款侧重对一般社会行为下的隐私侵犯行为的处罚，不足之处主要表现在：没有对科学研究中的隐私侵害行为进行界定，就目前国内的隐私保护条例而言，公民的隐私信息受法律保护，那么公民就有权利要求科研部门在避开个人隐私数据基础上开展研究，这是法律较难平衡和界定的部分。我国缺少对数据驱动的人文社科研究存在的问题进行底线约束，也未形成完善的道德规范体系进行预防。我国早在2009 年就颁布《高校人文社会科学学术规范指南》，该指南涉及到了学术伦理、引用规范、学术评价规范等方面，然而随着时间的推移，该指南已经无法适应大数据环境下人文社科研究的新场景、新范式、新问题。

首先，数据本身的真实性存在很大的疑问。如以互联网大数据为例，Twitter、新浪微博、知乎等互联网平台带有浓厚的商业色彩，这些平台不是以服务科学研究为目的而建立的，而是追求利润的商业平台，因此生成的数据在一定意义上可以被理解为是销售与消费行为交互作用的结果。在市场逻辑下，围绕信息生产、分配与交换形成一种“数据商业”，大量的人为操纵因素被注入到互联网大数据中^[9］。如微博热搜、知乎问答、微博公众号等的阅读数都存在着大量水军操纵的痕迹。对于人文社科相关研究而言，这些“重新制作”的数据从商业用途转用于科学研究，如果研究人员不能对其进行有效甄别与剔除，数据有可能会存在偏差，最终导致研究结果出现错误。然而，对于虚假数据的识别与筛选仍然是目前研究人员有待解决的技术难题。

其次，即使生成的数据足够科学客观，但对数据的采集与处理同样是一个主观的操作过程。舍恩伯格认为大数据时代的数据一定是基于总体的，数据驱动的人文社科研究追求获得总体数据，但是在具体的研究往往与舍恩伯格的愿望相差甚远。人文社科研究对象的性质决定难以获得全体数据，在实际研究中能够通过数据量化的总体几乎不会出现，并且一旦追求大而全的数据样本，不可避免的会以牺牲数据源的甄选作为代价。另外，数据量的庞大和数据的多样性给科研人员数据处理带来了一定的挑战，但同时也赋予其更多的对数据进行选择的权利，这就意味着在数据处理的环节，很有可能出现随意取舍、组合数据，删除与期望不符的数据以获得研究结果的现象。如2014 年12 月，《科学》杂志刊登的题为 “When contact changes minds： An experiment on transmission of support for gay equality”^[11］的论文由于数据获取方式及验证性存疑，在政治社会科学领域引起关注并引发争论。最终，论文作者承认数据造假并于2015 年5 月正式向《科学》提出撤稿申请。

（1）数据获取阶段权益问题。随着大数据、物联网、数字中国建设推进，人文社科领域的研究资源逐渐从调查获取向感知获取转变，研究人员通过网络媒体系统、电子政务系统、电子商务系统等获取社交媒体数据、金融系统数据、用户隐私数据等^[5］，在这一过程中，数据生产者的数据所有权被研究人员获取。从数据收集的对象来看，其本身是数据的生产者，但是被直接剥夺了数据的所有权，进而也就失去了数据产生价值的收益权。 “数据知情权”是数据搜集中被普遍认可的权利，但是在大数据环境下，知情同意的难度较以往大幅增加了。个体签署同意书通常在数据收集之前，而对信息的实际利用发生在其后。与小数据时代数据利用的目的相对确定不同，大数据时代数据处理具有频繁性，数据获取主体与使用目的常常难以预知。因此，即使数据是合法收集的，个体再也不知道他们的数据会被用来做什么。此外，考虑到时间与成本等因素，研究人员在数据获取之前也不可能一一履行告知义务。

1.4 数据权益问题

在其余分析条件确定的情况下，不同元素或同一元素的不同分析谱线在不同射频发生功率、雾化气流量和辅助气流量是不同的，这就需要在多元素同时测定过程中选择一个折中的参数。在本阶段所测定的12种元素中，Si、As、S的灵敏度相对较差，因此重点是寻找这3个元素的的最佳测定参数。

最后，即使经过处理的数据真实可靠，对数据进行分析时也难免掺杂研究人员的个人意志。一方面，从社会学角度看，所有的数据说到底都是关于“人”的符号，是一种具有社会文化意义的建构行动^[12］。大数据环境下的人文社科研究执着于“客观数据”的解读，缺少对“主观数据”的反映，忽视了数据符号所蕴含的社会文化意义的挖掘；另一方面，人不是法律规范的机械执行者，社会行为必须结合其所发生的具体情境才能被更好地理解。然而，现实情况下人文学科的许多情境因素都未能被记录到大数据之中，而即使是那些被记录、被解读出来情境，也应当不断反思是数据本身的意义还是研究人员对数据意义的过度解读。

（2）搭建一站式人文社科数据开放平台。当前，国内许多人文社科特色数据库及人文社科数据中心普遍存在规模小、数据质量差、聚合程度低等问题，数据难以得到有效的应用。搭建功能齐全、资源丰富、质量保障的人文社科研究数据聚合与一站式服务平台势在必行。①实现数据的有效组织，建立数据共建、共用、共享的开放系统，明确统一的数据开放端口，并根据数据主题、机构、学科等对数据进行分类，实现人文社科资源平台互联互通的同时保障数据的一致性；②完善数据开放服务功能，以大数据环境下研究人员数据需求为中心，增设交互功能，实现一站式服务。人文社科数据资源开放平台应具备数据存储、管理、浏览、检索、关联查找、互动与反馈评价功能。

当前数据驱动的研究范式下，科学数据已经成为一种必不可少的资源，只有实现更大范围的数据共享，才能推动人文社科研究的创新。保障科学数据权益是提高数据生产者共享积极性的关键，其既包括各利益主体的权益与义务的协调问题，也涉及到科学数据相关法律与政策文本是否完善的问题。

2 推动大数据与人文社科研究深度融合的对策

2.1 促进人文社科数据资源开放共享

（1）构建一套完整的人文社科数据资源标准体系。首先，人文社科数据资源建设需要一套统一且规范的数据标准，包括数据资源建设机构的资质要求、数据库选型要求、数据资源筛选分类标准、数据清洗标准、数据资源组织标准、数据资源开放标准等；其次，需要加强薄弱环节建设，管理和评估标准是人文社科数据资源标准规范体系中的薄弱环节，重点建设评估规范、整合服务规范。人文社科数据类型复杂，不仅包括数值数据，还包括文本数据、档案数据、汇编数据和PDF 格式等，根据不同形式的数据制定相应数据评估标准。

（2）数据共享阶段权益问题。科学数据开放共享最核心的问题是“最大程度的利用数据”与“最大程度保护相关者的权益”之间的平衡问题。数据权利化是数据开放共享的现实需求，但是现行的法律与政策对知识产权、数据产权的规定甚少。科学数据的所有权尚未在制度层面予以明确，使得数据存储权、使用权、重用权等无法进一步厘清，给科学数据开放获取的实施增加了难度。另外，我国的人文社科数据管理平台没有对科学数据生产者作出明确的界定，对于数据使用者的权限规定也仅停留在网站的“政策说明”或者“网站申请”的层次。与自然科学领域的学术期刊相比，人文社科类学术期刊的数据政策尚不完善。如在图书情报领域，很多期刊并没有明确的数据管理政策，一些期刊如《数据分析与知识发现》和《图书馆杂志》要求作者在提交论文时上传支撑论文的研究数据，并且有相应的数据提交要求，然而这些要求仅涉及到数据格式、存储形式、提交方式等内容，并未对数据权属、数据引用等问题制定相关细则。科学数据汇交政策、保存与权限控制政策、科学数据重用等规定的模糊，会造成人文社会科学数据生产者、数据管理者与数据使用者权益分配的混乱。

采用差减法测定萤石中氟化钙的含量，其中，全钙的测定采用EDTA滴定法，实验原理同标准GB/T 5195.1—2006方法1，但是分解试样操作方法与其稍有区别：该标准方法采用盐酸-硼酸-硫酸分解试样，其中采用硫酸的目的是为了沉淀分离钡，以免钡与钙同时被滴定，造成结果偏高。考虑到本实验室很少接收含钡萤石试样，故采用盐酸-硼酸分解试样。如钡含量较高，可在分取滤液之后加几滴硫酸沉淀分离钡元素。

2.2 构建多维度的人文社科研究数据管理与监督
机制

数据驱动的人文社科研究数据管理与监督机制构建的关键在于两个方面：其一针对人文社科研究中存在的数据问题制定相应的法律、政策和规范性文件；其二构建大数据环境下人文社科研究管理与监督共同体，明确多个参与主体职责（见图2）。

（2）教育部社会科学委员会学风建设委员会在考虑新技术产生的社会性与伦理性影响基础之上，重新修订《高校人文社会科学学术规范指南》。高校、科研机构等可以考虑增设专门的“研究规范指导委员会”和“学术道德问题咨询委员会”，将大数据环境下的数据伦理要求与项目申请、项目审批挂钩，严格规范人文社科研究人员的学术行为。另外，积极为人文社科研究人员提供系统的科研规范教育和学术道德问题咨询服务，通过正向引导与教育，强化科研人员的道德意识，促进道德内化。

（1）由政府机关完善数据所有权相关法律。大数据环境下的人文社科研究在数据收集、数据处理、数据开放共享过程中都不可避免的涉及到数据隐私问题、数据权益与责任的界定问题、法律执行等操作性问题。因此，国家应该在法律层面就大数据技术的伦理问题，尽快完善全方位保护数据所有权的立法。一方面将数据所有权纳入到知识产权体系中，规定具体的权利内容与对应的义务；另一方面借鉴《数据时代知识发现海牙宣言》^[13］原则中与数据挖掘相关的三大原则（知识产权与促进研究相一致原则、合同许可条款不得限制个人使用原则、知识产权法不限制基于数据和思想的创新与研究原则），对知识产权侵权行为归责原则进行补充，保护数据主体的权益、规范数据使用行为、规避知识产权风险。

在企业人力资源管理的实践中，部分员工对于其当前的薪酬现状不满意，因此当前的薪酬管理无法有效的激励他们的工作热情。这主要表现在两个方面，一方面是薪酬分配上出现严重的不公平现象，另一方面是相应的福利制度不够完善，使得员工在工作中没有安全感。除此之外，薪酬管理还忽略了员工的多元化需求，激励手段较为单一，片面的以物质激励代替一切，尤其是忽略了高层次人才的自身发展需求，结果导致人才流失。

图2 人文社科研究数据管理与监督机制

（3）人文社科出版机构应该在初稿检测、编辑校核、终稿出版、事后监督四个方面承担责任，重点完善数据提交政策与数据质量审核机制，对数据收集方式、数据集完整性、数据描述充分性、数据重用价值进行评价，做好学术不端行为的最后一道防线。

（4）人文社科数据中心需要选择合适的科学数据授权协议，并对关键数据进行识别，形成科学数据分析报告，用于判定科学数据开放共享级别，保障科学数据安全。人文社会科学数据的创建、管理与共享过程涉及的权益主体大体可归纳为生产者（科学数据汇交者）、管理者（科学数据中心）、使用者三个部分，人文社科数据中心需制定科学数据权益主体权限分配办法等指导权限控制，规避侵权风险。

（5）图书馆、档案馆在客观上独立于科学数据利益相关者主体之外，可作为科学数据的第三方监管为人文社科数据中心提供知识产权证明、数据完整性证明等。图书馆、档案馆等通过记录知识产权归属协议、数据来源说明等一系列知识产权归属相关细节，为有效维护人文社科研究人员权益与解决知识产权纠纷提供依据。

2.3 加强人文社科研究人员的数据素养教育

数据素养是信息素养在大数据时代的延续和衍生，不仅强调数据的敏感性，还包含对数据能力和数据道德的要求。数据驱动的人文社科研究围绕密集型数据展开，数据获取能力、数据处理能力、数据道德等显然是保证科研成果科学性的重要前提。

加强人文社科研究人员数据素养教育关键在于建立专业性的服务团队，基于虚拟现实空间、现代信息技术，通过新颖的教育方式提升数据认知素养、数据道德素养、数据能力素养，实现人文社科研究成果的高效产出与交流共享。数据认知素养主要从空间认知、学科认知、智慧认知三个方面展开，其中空间认知培养指提高科研人员感知物理空间、学术空间、虚拟网络空间所需的数据素养的能力；学科认知培养即通过课堂学习、参加研讨会等形式感知从事相关科学研究所需要的数据素养来实现自我素养的提升；智慧认知培养指培养科研人员的前瞻性、创新性思维和能力。数据能力素养主要从数据获取能力、数据管理能力、数据分析能力、数据存储能力、数据引用与共享能力等方面进行培养路径构建。目前，熟练掌握大数据技能的研究人员主要集中在计算机、统计等理工科专业，人文社科研究人员在大数据知识的掌握与技术的应用方面存在一定困难。因此，数据能力素养的教育是大数据环境下人文社科研究人员数据素养教育的核心。数据道德素养教育主要是提升科研人员数据获取、利用、开放过程中的法制观念与判断力，在数据驱动的人文社科研究过程中，多类型的数据来源、参差不起的数据质量、敏感的个人信息都是不可忽略的问题。随着科学数据开放进程不断加快与数据论文的出现，规范数据引用也成为了数据伦理与数据道德教育的重点。

人文社科研究人员数据素养教育的形式可采用在线课堂、虚拟课堂、讲座、研讨会等形式来实现理论的灌输和操作实践教育。高校图书馆作为数据素养教育的主要承担者，在提供相关数据服务的同时，印发有关数据引用规范、数据分析规范等材料供研究人员学习。同时，积极开展数据文化建设，围绕大数据环境下人文社科研究建立特色的科研社区，开展丰富的主题活动，进一步将数据素养的核心问题灌输给科研工作者。

3 结语

作为一种科学图景，大数据以全景式的数据规律弥补用小数据小样本来推导复杂社会因果关系的不足，从而推动人文社科方法论的变革与认识论的跃迁。与此同时，大数据凭借其自身优势为科研人员留下了“数据万能”的心里烙印，数据似乎成为人文社科研究科学性的一种象征。然而，大数据所描绘的理想状态与人文社科研究的现实状况还存在一些差距。总之，大数据为人文社科研究提供了更高的数据起点和更广阔的方法论视角，但是并没有到可以替代传统研究方法的地步。相反，人文社科研究人员如果能将大数据与传统的统计调查、实验法、访谈法等相结合，无疑会开启人文社科研究的另一扇大门。

美国著名旅游市场学家埃塞尔等人，按旅游者流向将旅游市场分为一级市场(即游客数占目的地接待总人数比例最大，一般达40%～60%的客源市场)、二级市场(即游客人数在目的地接待总人数中占相当比例的客源市场)以及目前来的人数尚少的机会市场(也叫边缘市场)[18].根据以上对蜀冈-瘦西湖风景名胜区海外客源市场空间结构的分析，可以确定第一目标层为台湾、港澳和日韩市场，为一级市场；第二目标层为澳大利亚、欧美和东南亚市场，为二级市场；除上述客源地外均可作为机会市场.因此，蜀冈-瘦西湖风景名胜区的海外客源市场可按目标层循序渐进进行拓展.

参考文献：

[1]马费成，张瑞，李志元.大数据对情报学研究的影响[J］.图书情报知识，2018（5）：4-9.

[2]倪万，唐锡光.大数据应用于社会科学研究的价值与悖论[J］.东南学术，2017（4）：68-78，247.

[3]陈泓茹，赵宁，汪伟.大数据融入人文社科研究的基本问题[J］.学术论坛，2015，38（12）：106-110.

[4]米加宁，章昌平，李大宇，等.第四研究范式：大数据驱动的社会科学研究转型[J］.学海，2018（2）：11-27.

[5]王晓光.加强人文社科数据资源建设与管理[N］.光明日报，2018-07-05（11）.

[6]Simple demographics often identify people uniquely[EB/OL］.[2018-11-20］.http;//www.privacylives.com/wp-content/uploads/2015/02/Latanya-sweeney-uniquencess-2000.pdf.

[7]中华人民共和国网络安全法[EB/OL］.[2018-11-20］.https：//baike.baidu.com /item/中华人民共和国网络安全法.

[8]最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释[EB/OL］.[2018-11-20］.http：//www.court.gov.cn/zixun-xiangqing-43942.html.

[9]郝龙.“计算”的边界：互联网大数据与社会研究[J］.中南大学学报（社会科学版），2018，24（2）：148-158.

[10]罗小燕，黄欣荣.社会科学研究的大数据方法[J］.系统科学学报，2017，25（4）：9-12，44.

[11]郜书锴.《科学》杂志怎么应对数据造假[J］.现代出版，2016（4）：76-78.

[12]文军，吴晓凯.找回失去的传统：“大数据”研究范式的反思与重构[J］.新疆师范大学学报（哲学社会科学版），2018，39（1）：63-71，2.

[13]LIBER.The signatories of Hague Declaration on knowledge discovery in the digital age[EB/OL］.[2018-11-20］.http：//thehagedeclaration.com/the-hague-declaration-on-knowledge-discovery-in-the-digital-age/.

Discussion on Dilemma and Countermeasures of Humanities and Social Sciences Research: A Micro Data Perspective

Abstract Clarifying the data problems faced by humanities and social sciences research under the big data environment is conducive to promoting the deep integration of big data and humanities and social sciences research. Starting from the research process of humanities and social sciences, this paper analyzes the problems such as data requirements, data privacy, data quality and data rights in data acquisition, data processing and data sharing of humanities and social sciences research. Then，targeted suggestions are put forward in three aspects: promoting the sharing of humanities and social sciences data resources, informing multiple-dimension data management and supervision mechanism of humanities and social sciences research, and strengthening data literacy education for humanities and social sciences researchers.

Key words big data; data driven; humanities and social sciences; coping strategy

中图分类号： G250.2；C3

文献标识码： A DOI：10.11968/tsyqb.1003-6938.2019003

*本文系国家社科基金重大项目“人文社科专题数据库建设规范化管理研究”（项目编号：18ZDA326）研究成果之一。

收稿日期： 2018-12-20；

责任编辑：魏志鹏

作者简介：是沁（1992-），女，南京大学信息管理学院博士研究生；李阳（1989-），男，南京大学信息管理学院博士后。

标签：大数据论文; 数据驱动论文; 人文社科研究论文; 应对策略论文; 南京大学信息管理学院论文;