大数据联动的负面影响及对策_大数据论文

大数据联动的负面影响及对策_大数据论文

大数据联动的负面效应及应对策略,本文主要内容关键词为:负面论文,效应论文,应对策略论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      “这是一个最好的时代。”[1]基于规模宏大、结构复杂、类型众多到无法通过人工操作在合理时间内筛选、处理并整合的海量信息管理技术的大数据产业促成梦想照进现实。巨量在线资讯挖掘提供科技突破的重要支点[2],开拓社会发展新纪元;网络消费数据集约处理助力企业经营决策[3],重新洗牌整个商业领域;海量电子医疗记录分析增加疾病预测与药效评估的准确性[4],为人类生命延续与健康保障提供重要支撑;联合犯罪数据对比显著提高破案率[5],打牢构建和谐社会的基础。

      “这是一个最坏的时代。”[1]大数据联动在打造全新的商业生态环境、拓展个人数据应用、提高社会服务能力并推动科研发展的同时,也存在多源采集导致欠保元数据巨量化、公权机关及其他恶意第三人滥用关联分析技术打破匿名规则及经营者之间、经营者与消费者之间数据认知水平与管控能力严重不平衡等重要负面问题。亟待使用科学高效的应对策略减少负面效应带来的巨额损失。

      1 大数据联动的特殊优势

      1.1 加强虚拟与现实互联

      链接云计算、物联网、互联网等信息技术的大数据应用嵌入现实社会正在构建数字化生存环境。遍布全球的传感器网络不间断地、廉价地采集现实世界的巨量信息,促进实现智能感知与公共资源协调共享的精确化低碳智能城市的建设。激进的民权主义者(如阿拉伯之春)借助大数据平台储流平等化运动相关资讯。关键词研究工具(如谷歌趋势)通过流量统计与热搜词挖掘使用者对于不同事物的关注度。相关分析结果与传统软件技术结合,促进信息化与工业化的深度交融。例如,托比亚斯·普赖斯教授基于“网民搜索意愿能够潜在反映他们的投资决策”[6]设计的依据“金属”、“股票”等关键词的每周搜索热度进行投资选择的虚拟道指系统创造了股市奇迹。

      1.2 推进广泛的深度协作

      巨量数据的开源分布式处理为亿万用户共同完成某项目标任务创造了有利条件,低成本地推进科研创新、商业模式与公权决策的变革等。例如,全球使用者通过向谷歌翻译平台输入双语或多语文本,共同完善机器翻译系统。又如,我国国家统计局与大型互联网企业联合创设“大数据合作平台”[7],嫁接政府与市场数据资源。

      1.3 提高真相发掘效率

      海量数据挖掘大幅度地提升探明事实真相的效率,助力各行各业的可持续发展(如用人单位通过大数据挖掘找出诚实的求职者[8]),提高整个社会的公平化与正义化程度。例如,从集聚犯罪行为、时间、地点及其他因素的巨量元数据中解析关联数据的分析系统[9]弥补了“e化天眼计划”人工对比庞大数据过度耗费资源的缺陷,显著提高破案率。及时且合理的执法与司法行为有利于安抚受害人及其他群众并威慑潜在犯意,起到有效制止违法犯罪、促进整个社会健康有序运转等重要作用。

      1.4 增强预测精准度

      “大数据的核心就是预测。它是把数学算法运用到海量数据上来预测事情发生的可能性。”[10]总量、速度与形式三向维度爆炸性增长的元数据与精进的挖掘技术使得分析者有能力根据可视化结果进行高度精准的行为预测,彻底改变传统社会的基本运作模式。例如,美国旅游搜索服务网站(Farecast.com)通过采集海量航线机票售价(总计数十万亿条),并分析票价与提前购买天数的关系预测价格走势,帮助消费者把握最佳购买时机。又如,富士施乐的跟踪品质管理系统[11]通过装置在复印机、办公一体机等硬件设备上的各种传感器收集并分析设备使用记录及错误信息等,随时探测故障预兆。

      2 大数据联动的负面效应

      2.1 资讯过度货币化

      “信息社会的主体活动基本上都会产生数据”[12],大数据联动成效的关键在于数据源规模。例如,能够为消费者提供切实的网络消费预警与风险参考的百度“网络消费安全图谱”总共调用高达400TB的网络真实检索数据(相当于1.02亿册图书,6个中国国家图书馆的藏书量)[13]。结构性与非结构性数据的复杂关联挖掘以巨量元数据为支撑,在一定程度上刺激数据资讯过度货币化。数据财产性价值的急剧膨胀致使采集者采取各种方式(如借口“第三方原则”、增补服务条款等)绕过数据权人明示许可,处理表面看似非个人身份性信息,并通过迂回方式(如行为定向广告)隐蔽转化为商业利润。多样化巨量数据储流模式中用户资讯货币价值的过度定位刺激一些涉网企业枉顾社会主体的数据产权、隐私权、公平交易权及其他合法权益,一味追求利润最大化,严重影响产业健康发展,打破社会有序状态。

      2.2 数字记忆过载化

      “人非圣贤,孰能无过。过而能改,善莫大焉。”个人成长过程中难免行差踏错,甚至误入歧途,亦可能会有思维或行为迁移。在历时已久、远赴他乡或满足一些必要条件的情况下摈弃某些真实的负面过往是助力个人积极改正错误、维持社会和谐的重要因素。然而,前提是不错失任何信息的大数据存储机制长期保留和控制信息内容及其平台流转的具体时间和地点等。分析人员通过挖掘散布全球各服务终端的零碎数据完整拼凑使用者的生活细节。例如,谷歌公司通过具有联络跟踪功能的Gmail邮箱系统、标签功能的Picasa数字照片管理系统、面部识别系统与搜索引擎的综合应用,“从互联网上的任一数字照片中获知用户出现在哪里?什么时候?和谁在一起以及做什么?”[14]

      过载化数字记忆能够精确回展某个用户十年前在亚马逊的购书明细、五年前在QQ群的发言、一年前在百度的搜索记录,甚至一天前在优酷的视频观看列表。大数据时代个人过去和现在的全部信息毫无保留地长期展现在网际空间之特质使得“清洁石板法”形同虚设,磨灭了后现代社会陌生人交往“不畏将来,不念过往”、平等对待所有参与主体的优势。众多使用者意识到输入网络的任何信息将“永存不朽”导致惧怕数字化生活的情绪迅速蔓延。海量元数据的持续获取是大数据处理的生命之源,随着用户群缩小而来的元数据库萎缩将给予大数据产业以致命打击。

      2.3 用户隐私趋零化

      海量信息集成共享与交叉复用对政府、经济与社会运行产生革命性影响,为崇尚数据导向的决策者提供更为全面与客观的趋势预测基石[15]。大数据联动挖掘模式不同于传统分析技术的关键在于通过复杂运算法则自海量资源池中采集单独看来完全不涉隐私的非结构性数据。恶意分析者立足马赛克理论,通过诸多探勘方法(如在线信息分析、微化模式识别等)的组合轰炸,不断发掘各种网络交互活动(如电邮往来、信息检索、在线交易等)隐藏的特殊关系性,“提取出隐含的过去未知的有价值的潜在信息”[16],导致用户隐私日益趋零。公权机关通过建立集聚各种大数据处理技术的全球性关联数据定位监测系统,捕捉巨量信息,“蓄意地秘密挖掘精确而广泛的关于个人家庭、职业、性取向、宗教信仰、政治倾向等在内的丰富细节”[17],使得个人生活像一本敞开的书。商业组织通过大规模的关联分析寻找零星非结构性数据之间潜在联系[18]以寻求更高效益的经营模式,在很多情况下触及数据隐私。例如,药品销售网站从某用户在线购买肺癌保养电子书、浏览肺癌救助基金会网页等活动获知该用户未告知医疗保健机构的患有肺癌的私密信息[19]。同时,大数据环境下迅速提升的复杂关联分析技术使得网络服务商或第三方有可能在无意间披露用户隐私。例如,奈飞公司(Netflix)为提高影片推荐引擎效率,面向全球开展了寻找最优算法的竞赛。关联对比该公司提供给参赛者的元数据(已用标识符替代用户名的年龄、性别、邮编、曾看过的影片和评级数据等)可以揭示部分用户在政治、宗教、性倾向等方面的私密信息。又如,美国在线(AOL)为实现“给予任何有意合作者适当机会……创造产学研结合的新纪元”之崇高目标而邀请科研机构探索“确保在线用户可以轻易获取所需商品和服务”[20]的经营方式,并为此释放65万用户3个月的巨量搜索记录作为研究素材。这些信息发布前已集中清除了用户名、网际协议地址等身份性数据,仅采用随机的唯一标识符进行简单区分。但强大的挖掘工具仍可以通过分析这些看似隐名的数据记录彻底揭露用户隐私。《纽约时报》以文件记录中进行了从“手脚麻木”、“老年斑淡化”到“狗到处撒尿”等数百次搜索的用户(标识符为4417749)为挖掘对象,通过综合分析其提交的“佐治亚州利尔本市景点”、多个含“阿诺德”人名及“60岁单身男性”等搜索记录,正确推断出该用户为利尔本市62岁寡居的妇女赛洛玛·阿诺德。该用户在得知其真实信息和搜索活动均被发掘后,明确表示不敢继续使用网络[21]。

      具有一定匿名性的主体意志的自由展现(不受个人身份、公权机关、商业组织或其他第三人影响)是网络社会的最大特色与持久生命力之源,提供了个体交往与制度交往中平等对话的条件。大规模复杂数据关联规则挖掘方法通过对零碎的、看似无关联的简单信息的复合运算,有意或无意地揭露用户隐私,迫使大量使用者意识到虚拟空间中自由领域正在缩小,并因恐惧干扰安静生活的隐暴力而逐步叛离数据服务,严重影响大数据产业的进一步发展。

      2.4 行为选择程式化

      大数据的核心价值是预测功能,“大量数据组的科学预示分析带来更为客观与正确的结果”[22]。相关管理技术在股市涨跌、物价波动、需求变化等领域的高效应用使得用户群越来越依赖数据分析,逐步丧失自我判断能力。依据大数据挖掘结果开展行为选择的新模式虽然有效提升了活动效率,却牺牲了基于思维互动与头脑风暴的创新能力。创造力是实现个人价值、促进持续发展的必要因素。程式化的决策范式意味着冒险精神的失落与创新意识的凝滞,阻碍整个社会的良性运转。

      依赖内外并举的巨量数据无序挖掘与分析结果处理各种事务的机械化操作流程还严重侵害了社会主体的一些其他权益(如平等用工权)。例如,司法机关通过挖掘一定地理区域或特定人群的海量历史性犯罪数据推测当地治安趋势,进而改变警力部署与巡查力度,在一定层面上侵害了该区域居民安宁居住的权利。尤其是警务人员通过滥挖所谓特殊联系的数据捕捞,简单预测并重点关注某些未来可能犯下重罪的潜在违法者,严重侵害其人身权益。

      3 应对策略

      3.1 重构数据隐私保障机制

      大数据挖掘通过采集与关联分析巨量在网痕迹记录,开展确保高投入下确定性增长的信用评估、商业和服务推荐、客户叛离分析等诸多应用,对社会主体的隐私权益造成前所未有的广度与深度侵害,甚至严重影响数据权人的日常生活。例如,数据分析方通过对用户在购物网站的浏览记录测算消费意向并协同过滤推荐商品的过程中往往侵害用户隐私。美国塔吉特百货公司(Target)运用大数据挖掘技术从女性用户的网购浏览信息中预测出怀孕者并由市场部门向其发放线下广告[23]。

      诸多传统社会中行之有效的隐私保障措施在大数据时代成效甚微,甚至连使用者作为加密在线数据的主要工具包括姓名、住址、电话、社保号码及生物特征(如指纹、声波)等在内的个人验证信息也不再是重要的隐私屏障。在某些交互网站(如“How Unique Are You”)上输入性别、出生日期和邮政编码即可确认某人身份[24]。虽然信息规制与隐私保障全球领先的美国的《电子通信隐私法》禁止未经授权获取通信内容[25]且《视频隐私权保护法案》禁止披露视频租赁记录[26],但用户在线存储信息时的“合理隐私预期”仅针对有内容的数据,不包括无内容的痕迹记录。事实上,数据权人大量非内容信息(如网际协议地址、位置记录等)传递到第三方,比内容信息更容易披露隐私[27]。例如,公权机关可以通过手机服务者记录的几乎所有人每日的地理位置实现完整监控[28]。亟待通过重构数据隐私保障机制,妥善限定服务商及其他挖掘者的关联分析范围与结果分享形式,明确相关机构和人员的隐私保障义务与侵权责任(包括直接与间接侵害),采取各种措施提高巨量信息收集与处理过程中的隐私保护力度。

      3.2 确立数据追踪与分析规则

      大数据时代的智能化系统解决方案不仅有内容的信息涉及主体权益,依赖智能推送与预测渲染缓存的展现数据创建者、创建地点与时间的痕迹记录也会泄露权利人的私密信息。例如,虽然脸书站点在服务协议中保证“不会在未定制服务中传递,亦不会向广告商透露您的个人信息”,但脸书的广告系统在追踪用户使用记录的基础上,根据具体用户的个人特征(如性别、年龄、地理位置、工作场所等)定向发送广告。那些有关微对象“对男人感兴趣”还是“对女人感兴趣”的数据分析结果及其关联广告可能会显示在用户的脸书网页,公然揭示其私密的性取向[29]。

      大数据聚合分析表面无关联的微数据组的能力使得非结构性且非身份性痕迹记录异化成暴露个人隐私的危险因素。急于开发更大消费群体或转售聚析结果谋取利润的服务商却通过格式化数据协议(声称基于改进技术、提高服务质量及遵循司法协助条例等需要),明确己方享有追踪并长期保留使用记录之权益;诸多公权机关为了确保在没有合法事由与正当程序的情况下调取数据,亦将此类记录的权属归于服务商,置数据权人各项合法权益于险境,迫使广大用户叛离数据服务。然而,大数据环境中回顾与预测的准确性需要海量元数据支持。巩固用户群必须尽快明确数据追踪与分析规则的调整对象既包括用户传递的内容,亦针对痕迹记录建立挖掘秩序,尤其是突出数据交换过程中信息来源追溯的管控;迅速建立透明化的追踪与分析程序,严格限定服务商为实现数据管理最优化需要挖掘数据的特殊情况并建立禁止二次传播的管理制度;强制规定各种谢绝追踪的情境,要求服务商及第三方挖掘者必须读取与响应使用者发至服务器的谢绝意向,确保数据产权不受非法侵害。

      3.3 健全通知与删除标准

      随着大数据环境的跨越式发展,各类智能终端忠实记载的个体活动数字印迹长期存留与多元挖掘致使数据处理优势与用户隐私权益之间的博弈愈演愈烈,迫切需要健全通知与删除标准。

      适应大数据产业发展需要的通知标准不仅应当要求网络服务商向数据权人通报己方采集行为,亦应规定服务商必须及时侦听并向目标对象预警第三方利用服务平台的采集行为,尊重和保障数据权人的知情权。同时,“被遗忘权”是促使广大用户安心使用网络服务的重要力量。图片信息发出后最快10秒从接收终端消失的阅后即焚(Snapchat)移动应用系统一经推出即成为美国名列第二的最受欢迎的免费图片和视频应用。匿名分享应用系统思铂(Whisper)的估值在过去半年内翻了一倍多[30],根本原因在于其是不会永久存储用户在线记录的匿名社交系统。适应大数据应用需求的删除标准应当是彻底删除,即原数据库、备份数据库乃至缓存信息与痕迹记录等一并进行不可恢复的销毁;且必须是按规按需并行删除,即不仅依据政策法律规定的一定期限清除数据记录,还按照合法数据持有者的意思表示随时彻底删除。

      3.4 完善公权挖掘监管制度

      虽然公权机关主导和参与的大数据挖掘是保障国家安全、维系社会稳定的重要举措,但其持续开展的未经被采集人同意的海量挖掘是对在线行为数据的集成提炼,数据权人几乎不会意识到挖掘活动的存在,实质上是“恐怖主义下的安全”[12],严重侵害了数据权人的合法利益。美国棱镜项目曝光者爱德华·斯诺登提供的文件显示,美英情报机构的监控计划主要依赖网络邮件、影像交流与社交站点的数据,直接接入谷歌、微软、雅虎等网络巨头的中央服务器挖掘情报,通过智能手机应用软件(如谷歌地图、愤怒的小鸟)等搜集个人信息[31]。用户的地理位置、下载文件记录、社交网站好友名单等透露其性取向、婚姻状况及政治倾向等。披露致使广大用户极度紧张,预估给计算机工业造成1800亿美元损失。“政府不受限制地整合分析数据以揭示对象信息的结果可能是低成本的全球定位系统的零死角监控……在不受约束的特殊时期更应谨慎追踪,才能减轻自由派的敌意。”[16]2014年初,美国政府与高科技企业达成允许对外公布协助搜集情报记录的协议。后者获准披露依法配合情报机构搜集数据的大概次数及受影响用户数。虽然是一个推进改革的积极进步,却只能在收到公权机关协查请求6个月后才能公开。必须及时监管公权机关的巨量数据挖掘活动,确保其仅在得到合法授权且及时通知数据权人的情况下直接采集或通过服务商间接获取数据。这将有效增加公权机关的权威性与公信力,带动大数据健康秩序的形成。

      3.5 建立一体化数据管控模式

      多个文明国家从最高层面整体布局的大数据联动创造了数据服务跨境存储与广域互通的有利条件。全球化的网络服务商基于规避某些政策法律规制、多元备份数据确保安全及降低人力物力资源成本等因素考虑,往往将存储与流动服务器置于不同国家和地区,服务对象亦遍布全球。

      迅速提升的大数据挖掘技术使得分析者有能力突破经营者海内外数据连接的防御体系,在悄然侵入传输信道后有选择地获取散落在全球数据中心的优质信息并进行低成本的关联解析。例如,“谷歌并非给任何政府提供系统接入通道……美国情报机构却似乎可以从我们的光纤网络上拦截数据。”[32]隐蔽的跨国数据采集与分析严重损害数据权人的合法权益。国际性数据产权危机、安全技术障碍与隐私泄露风险等的解决途径不是“各国关停海外数据连接通路,以割裂的碎片式网络取代目前的广域互联”[33],而是推进管控大数据的政策法律统一化与行业规则一体化,鼓励跨国大数据企业合法化与透明化交换信息,推动保障可持续发展的全球复杂网络的健康成长。

      3.6 其他措施

      网络服务商往往通过格式合同隐性确立己方数据挖掘权并摈弃保障责任,有些处于资源与技术劣势的使用者在不知情的情况下予以签署。有必要制定相应法律规范,保障用户知情权与资讯透明度,强化数据安全与知识产权保护责任。同时,大数据预测的过度应用有可能侵害社会主体其他权益。如房屋销售分析者基于大数据预测的针对性促销侵害了广大群众的公平交易权。在我国大数据产业规模化的关键时期,通过保障性政策法律有效制止此类行为,是提高核心竞争力与未来创新力的重要举措。大数据产业的健康发展还需要积极培养大批专门人才与推进关键技术研究,尤其是支持数据加解密、完整性验证等数据安全技术的研发与应用。

      4 结语

      信息爆炸时代中大数据逐步成为新的战略性资源,“通过政府活动、商业交往、学术研究及日常生活等”实现“包罗万象的非同寻常的知识革命”[34]。“设立新兴产业创业创新平台”,寻求“大数据……赶超先进,引领未来产业发展”是“以创新支撑和引领经济结构优化升级”的重要内容[35]。聚合下一代互联网、第四代移动通信、物联网、行业专网与电子政务网的“宽带中国”战略布局亟待通过科学规划与合理运作的大数据联动助力政府决策、商业活动与教育发展等诸多方面的次世代革新。通过完善一系列应对措施,减少大数据应用的负面效应,避免元数据、挖掘技术与分析过程三大环节异化为非法利益链条,有利于迅速驾驭大数据的蓝海市场,形成大数据创新创业生态体系,推动数据主导下整个社会的和谐共进。

标签:;  ;  ;  ;  ;  

大数据联动的负面影响及对策_大数据论文
下载Doc文档

猜你喜欢