大数据时代档案的特点及发展策略_大数据论文

大数据时代档案的特点及发展策略_大数据论文

大数据时代档案馆的特征及发展策略,本文主要内容关键词为:档案馆论文,特征论文,策略论文,时代论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G279.2

大数据是继Web2.0、云计算、物联网之后近两年最为炙热的一个词汇,也引发了信息科技领域越来越多的关注与投身热潮。档案馆也不例外,从上古的结绳记事到如今源源不断的信息流,大数据时代的到来,也给档案馆带来了极大的冲击。档案馆必须利用一切有效手段来分析现状与未来,做出正确的选择。

1.何谓大数据

1.1 大数据概述

目前,大数据并没有形成一个统一的定义。然而通过分析不同概念发现,尽管描述不一,但内涵一致:大数据不是对数据量大小的定量描述,而是一种在种类繁多、数量庞大的多样数据中进行的快速信息获取。①与定义上的分歧不同,业界对于大数据的特征则早已达成共识。大数据的特点一般归纳为4V,即数据体量巨大(Volume)、处理速度快(Velocity)、数据类型繁多(Variety)、数据价值高(Value),目前也有了较多的研究成果,在此不再赘述。

1.2 大数据的认识拓展

作为一个新兴理念与技术,大数据远非如其名称般简单,目前仍有很多人对其认识与理解存在偏差。基于此种现状,我们有必要对相关模糊问题进行阐释。

1.2.1 大数据一定很大?

在大数据的认识上,很多人存在这么一个误区:只有几百TB乃至PB的数据才能称之为大数据。事实上,“大数据并非总是说有数百个TB才算得上,根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看它的第三个维度,也就是速度或时间维度”②。因而可以说,大数据不是对数据量大小的定量描述,而是在信息爆炸时代如何快速地对数据价值进行深层挖掘。

1.2.2 大数据越多越好?

既然是对数据进行深入挖掘,那么是不是数据量越多越好?事实上,解决一个问题的数据规模有一个阈值。“数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决不了的大问题;而数据规模超过这个阈值,对解决问题也没有更多的帮助”。③因此,当我们在做数据分析时,我们的任务不是去获取越来越多的数据,而是对数据去冗分类、去粗取精,把大数据做成小数据,只有这样,我们才能在数据之间游刃有余。

1.2.3 大数据主要是一种技术变革?

本质上,大数据是信息爆炸时代对数据核心价值的再挖掘,其中综合运用到去冗降噪技术、语义引擎、可视化分析等,因此被很多专业人士认为是继云计算、物联网之后IT行业的又一次颠覆性变革。事实上,大数据“不仅仅是技术变革,更实质上的是计算机服务时代的来临,对数据的抽丝剥茧、总结结论更体现了计算机行业正从技术供应型转为服务供应”④。

2.大数据时代的档案馆

2.1 档案馆具有了“大数据”的特征

随着档案馆资源体系建设步伐的加快及用户服务要求的提高,档案馆在大数据时代已经具有了一定的大数据特征。

2.1.1 档案馆的信息资源总量庞大且增长迅速

虽然目前单个档案馆数据资源总量达到PB级的还不多,但各档案馆档案资源总和堪称海量。据统计,2008年,全国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%⑤,而到2011年,各级国家档案馆馆藏已达3.3亿卷,到2020年,各级国家档案馆馆藏将达到6亿多卷⑥。随着数字档案馆建设的不断开展及资源整合的实现,这些海量资源将形成一个巨大的档案资源库。

2.1.2 档案馆的数据资源种类繁多

在档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频数据库等,也有用户利用信息、服务数据等数据资源。这些数据的格式、特征等形式多样,而各馆之间更是差异明显,从而形成了大量的异构数据。更值得注意的是,数据结构也在逐渐发生变化,“Gartner预计,2012年半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右”⑦,这些资源将成为未来馆藏的重要来源。

2.1.3 档案馆的数据资源价值很高

作为国家和社会精心保存的历史记录,毫无疑问,档案这种数据资源具有很高的价值。与图书、网络资源等数据资源相比,“档案是一种最真实、最可靠、最具权威性与凭证性的原生信息资源”⑧,这就使得数据洪流时代档案的价值与作用更加凸显,也必将使之在大数据时代占据重要地位。

2.2 大数据带给档案馆的影响与挑战

毫无疑问,大数据是档案领域无法逃避的未来技术发展形态,也为未来档案馆管理与服务的发展提供了新的思路和解决方案。因此,深刻理解大数据的内涵,联系档案馆发展现状与用户需求,对大数据给档案馆带来的机遇与挑战进行大胆分析与小心求证将显得非常必要。

2.2.1 走向大档案观的馆藏建设

前美国档案工作者协会主席杰拉尔德·汉姆曾言,档案应“广泛地反映人类生活的方方面面”,然而,当前我国档案馆馆藏却透漏着浓厚的“官气”。据上海市虹口区档案馆统计,“在馆藏118521卷档案中,反映政务内容的文书档案占84.6%,反映科技、财务、艺术等内容的只占15.4%”⑨。除了内容上“未见平民史”外,馆藏资源形式上也以纸质文本、光盘资源、数据库资源等结构化信息为主。大数据背景下,档案馆的收集视角将更加广泛,档案馆的馆藏将朝着多样化发展。借助大数据技术与理念,档案馆的收集理念将从传统狭义档案资源观向“大档案观”演变,档案馆将更多地关注一些底层化、碎片化、复杂化的信息,从而构建一幅反映国家与社会变迁的实时全景图。诸如电子邮件、政府网页、社交媒体等价值重大、形式多样的信息资源将成为档案馆馆藏的重要内容,从而真正建立覆盖人民群众的档案资源体系。

2.2.2 由重藏轻用转为注重深度挖掘

当前,我国档案馆的建设仍处于一种“资源中心”模式,档案馆的工作重心是资源接收进馆及数字化工作,档案馆馆藏转化为内容的能力严重不足,这就使得原本步入半衰期的档案资源直接进入休眠期乃至死亡期,进而导致掌握着国家和社会最有价值信息的档案馆却在数字化时代不断边缘化。大数据时代,“数据不再仅仅是‘捕捞’的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题”⑩,而这也恰如涂子沛所言,“大数据之大,不仅仅在于其容量之大,更大的意义在于,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来大知识、大科技、大发展”(11)。因此,从大量数据中分析潜在的价值决定着大数据时代档案馆的发展水平及方向,这也就意味着大数据时代,档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析与处理将成为档案馆的主要业务。

2.2.3 提升档案馆的管理与服务

一方面,大数据的发展推动了档案馆管理的科学化。耶鲁大学教授丹尼尔·埃斯蒂认为,“基于数据驱动的决策方法,政府将更加有效率、更加开放、更加负责,引导政府前进的将是基于实证的事实,而不是意识形态,也不是利益集团在政府决策过程中施加的影响”(12)。在庞大的新数据源的支持下,档案馆的服务将走向量化,从而减少服务过程中的不确定性。此外,对分析结果的可视化展示,也将使用户更好地理解档案馆所提供的服务。另一方面,大数据的发展将实现真正的个性化服务。“大数据的产生,使得一切领域都将进入一个可量化的时代,重中之重,就是人的行为”(13),随之而来的,则是档案馆的个性化服务。与以往点对点的个性化服务不同,大数据背景下的个性化服务不仅提供用户所需要的信息,还通过对用户需求进行分析,提供基于海量分布式资源的精细化知识组织输出,即实现“信息+解决方案”的一站式服务。

2.2.4 信息安全风险及隐私威胁

大数据时代,数据量之大、数据种类之多、对数据处理速度与时间之快,都对传统的档案馆安全体系造成极大冲击。从基础技术角度而言,当前档案馆广泛应用的关系型数据库(SQL)技术,经过长期实践与完善,在维护数据安全方面已经设置了严格的访问控制和隐私管理工具,而大数据依托的基础技术是非关系型数据库(NoSQL),在成熟度和可访问性方面都不如传统数据库技术。从核心价值角度而言,大数据的关键在于信息爆炸时代对数据价值的再挖掘,然而数据分析技术的发展,对国家安全及用户隐私产生了极大威胁。事实上,美国对大数据投入巨资,其目的也是为了应对军事和国家安全中的大数据挑战,提升维护国家安全和信息网络安全的能力。对于用户而言,数据持有人可以从历史数据中推测判断出行为人的下一步动作——个人行动轨迹、行为轨迹,甚至思维轨迹。对此,《纽约时报》曾载文指出,他们(大数据持有方)想知道每一毫秒我们在做什么,找出我们的行为模式,比我们自己更了解我们,从我们已经忘记的随意点击中榨取我们每一分钱。(14)或许这些提法有些危言耸听,但绝非不可能。

3.大数据时代档案馆的发展策略

毫无疑问,大数据时代已经来临,未来档案馆的核心竞争力很大程度上取决于将档案数据转化为信息和知识的速度与能力。档案馆作为社会上存储信息、提供信息服务的信息中心,必须主动利用这些变化来进行战略性创新以满足需求、创造未来。

3.1 转变传统观念,提升馆员综合素质

作为一个档案大国,几千年档案工作的历史积淀在我国形成了丰富多彩的档案文化,也形成了一套独特的档案思维模式。大数据时代,档案工作不再是装装订订、缝缝补补,档案利用工作也不再是你来我找。如果采取无所作为、固守原状的鸵鸟政策,那么档案馆将会失去未来的发展机会,甚至会失去存在的意义。因此,档案人员应从数据的视角看待档案,以大数据理念推动档案馆的管理与服务。

这也对档案人员提出了越来越高的要求,大数据时代,档案馆人员要努力实现从“一把锁”向“数据科学家”的转变,具备三大核心技能,“一是具备数学知识为数据集构模,二是具备过程技能建成数据模型分析系统,三是发现见解,从数据中讲出故事来”(15)。从目前来看,大数据成功的案例无不是特定的项目,因此当前阶段档案馆人员最需要的是懂得用户的需求,因为数据越大,用户的个性需求就越多样,服务切口就越小。毫无疑问,这需要档案人员拥有极强的洞察能力。

3.2 创新服务方式,加快档案开放进程

“数据本身没有价值,通过数据提供服务才具有真正的价值,换言之,数据即服务”(16),档案馆数据资源亦是如此。如何将死档案变成活资源,从传统的资源保障获取到数据支持创造,这就需要档案馆不断创新服务内容。可以预见的是,大数据时代,阅览、咨询、展览等传统服务将得到调整,而以馆藏为基础,为社会机构如政府、企业等做一定的数据分析服务、数据挖掘服务将成为大数据时代档案馆的常态服务内容。

大数据时代,公民对于“数据权”的要求与档案馆面临的激烈的数据竞争将加快档案资源开放的进程,档案资源的开放和流动成为必然。数据开放的意义,不仅在于保障公民的知情权、推动政府透明与工作效率的提高,更在于让大数据时代最重要的档案数据可以自由流动起来,由封闭的内部资源向公开的社会信息转变,以催生创新,从而建立一个前所未有的开放社会与智慧城市。例如,为了积极地公开政府信息、让市民参与政府各种决策过程,NARA出台了《开放政府计划》,通过公民档案员项目、数字化战略、社交媒体战略、在线公共利用检索系统(OPAC)等举措,扩大档案开放力度和公众参与水平(17)。

3.3 促进资源整合,加强多方合作力度

档案馆启动大数据的一个重要挑战,就是档案资源的碎片化。目前,许多档案馆的资源都散落在互不连通的数据库中,如何将这些数据库打通,实现资源共享,将是大数据价值最大化的关键。从目前来看,利用云计算技术,将全国档案资源整合,形成“中国档案云”,或许将有效解决这一问题。

大数据时代,数据的多样性是一种客观真实的存在,没有机构能够在大数据时代置身之外,也没有机构能够实现对所有数据的兼容并包,因此,不同数据拥有者之间的合作将非常必要。从范围上讲,这种合作不仅包括档案系统内部的合作,还包括档案部门与图书馆、博物馆及互联网运营商之间的合作;从内容上讲,既包括资源上的共建共享,也包括技术、人才等方面的合作。

3.4 加大宣传力度,加强信息安全管理

大数据时代,如何避免档案信息被海量繁杂信息所湮没,如何让更多的人享受档案馆的服务成果,这都需要档案部门采取各种措施来加大档案宣传力度。具体而言,在宣传内容上,要积极宣传档案馆的资源体系,重点宣传档案馆的特色馆藏;在宣传手段上,要注重发挥新兴媒体特别是网络媒体的宣传作用,实现全媒体宣传;在宣传对象上,要实现大众传播向分众传播的转变,提升档案宣传效果。

大数据是一把双刃剑,社会因大数据而获益匪浅,但个人隐私也将无处遁形。因此,大数据环境下,档案馆除了要从技术上实现反黑客、反病毒、防盗窃等方式来抵御外来入侵者的威胁外,更需要重点加强在信息安全保障体系、信息资源共享制度、机密信息保护、信息审计等方面的制度建设,从管理上杜绝信息安全风险、切实加强个人隐私保护。(18)

大数据时代的到来,强烈地冲击着档案馆的生存模式与发展空间,如何避免在数字化时代被边缘化,将是档案馆不得不正视的一个问题。历史不会重演,却自有其韵律,如果洞悉其中的规律,那么档案馆的未来,或许就掌握在大数据的手中。

注释:

①韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):38。

②涂兰敬.专家观点:“大数据”与“海量数据”的区别[J].网络与信息,2011(12):37。

③李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):653。

④孟薇薇.信息爆炸时代的新概念——大数据[J].商品与质量,2012(9):9。

⑤“十一五”期间全国档案资源建设与整理鉴定概况[EB/OL].[2013-03-05].http://www.idangan.com/Achievement_info.asp.id=270.

⑥杨冬权.关于随馆藏数量增加而相应增加各级国家档案馆人员编制的提案[N].中国档案报,2013-03-07,第001版。

⑦陈如明.大数据时代的挑战:价值与应对策略[J].移动通信,2012(17):14。

⑧冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2006:11。

⑨冯惠玲.论档案馆的“亲民”战略[J].档案学研究,2005(1):12。

⑩孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):148。

(11)涂子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012(11):57。

(12)李志刚.大数据:大价值、大机遇、大变革[M].北京:电子工业出版社,2012(10):53。

(13)杨吉.涂子沛的“大数据”不是你想的那样[J].中国图书评论,2012(10):120。

(14)官建文等.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012(9):49。

(15)邓爱华.大数据时代来临,你准备好了吗?[J].科技潮,2012(9):55。

(16)陆绮雯,唐烨.解码“大数据”[N].解放日报,2013-03-10,第009版。

(17)李音.透视美国国家档案与文件管理局的“开放政府计划”[J].中国档案,2012(11):55-56。

(18)吴金红,张飞,鞠秀芳.大数据:企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1):8。

标签:;  ;  ;  

大数据时代档案的特点及发展策略_大数据论文
下载Doc文档

猜你喜欢