论大数据背景下的第四代档案建设_大数据论文

论大数据背景下的第四代档案建设_大数据论文

浅谈大数据背景下的第四代档案馆建设,本文主要内容关键词为:档案馆论文,浅谈论文,第四代论文,数据论文,背景下论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

大数据是继云计算之后近年来信息技术领域最热门的话题之一。面对扑面而来的大数据,档案部门的灵感和责任在哪里?出路在哪里?是值得思考和重视的新问题。这里结合工作实际,粗浅谈谈大数据背景下的第四代档案馆建设,仅供参考。

一、大数据是价值观、方法论和通往未来的钥匙

社会已经处于互联网、移动互联网时代,数以百亿计的机器、机关、团体、企业、个人都会随时随地通过网络获取信息,并成为信息的制造者和传播者。在这个时代,不仅数据量呈现爆炸式增长,同时种类繁多。对于这些数据的收集、存储、挖掘,既是时代难题,也是时代机遇。《大数据时代》的作者,英国人维克托·迈尔-舍恩伯格说:“在我看来,大数据是一种价值观、方法论,我们面临的不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这是一场思维的大变革,更是一个互动的过程——你可以用不同的角度不同的方式去做大数据,并得到不一样的好处。”而《爆发》的作者,美国人艾伯特-拉斯洛·巴拉巴西则指出:“建立在相关关系分析法基础上的预测是大数据的核心。大数据时代的来临为这种预测创造了绝佳的机会。正如我在《爆发》一书中所说,我们有充分的证据证明,人类的大部分行为都受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下,可以说,人类行为的93%都是可以预测的。……更重要的是,通过找出一个关联物并监控它,我们就能读懂历史的规律,进而寻找到通往未来的钥匙”。(《寻找通往未来的钥匙》,载《人民日报·国际》2013年2月1日第23版。)

二、大数据时代来临对于档案馆的冲击

“档案馆”顾名思义是管档案、用档案的地方。档案馆的核心是档案载体所承载的信息。如果把档案所承载的信息换算成数据,在大数据时代来临的背景下,值得关注的问题很多,冲击将是不可避免的,也是巨大而全面的。

首先是思想观和思维方式。传统档案馆习惯于大门紧闭、坐等上门、被动服务、档案要少而精,在大数据时代显然不合时宜。大数据的基本特征是“大”。“大”的多维特征对于档案部门的启发是如何做大?这靠传统的自娱自乐、清静无为、静观其变的方式显然是办不到的。大数据时代对于以“守”为主的传统档案思想观和思维方式的敲打将是多角度、深层次的。

其次是目标定位。在大数据时代来临的背景下,社会需要一个什么样的档案馆?档案馆又如何改造升级,达到一个相对契合于时代脉搏的理想境界?在这种情况下,原有的目标定位不能停止不动,而应该水涨船高。区别的分水岭是坐守外部推动,还是主动内部发力。宏观的谋划、微观的切入与主观的态度,都需要有一个精确的算计和考量。力量应该来源于思辨的透彻、实践的提炼与技术的整合应用。

其三是发展路径。建设适应大数据背景下的第四代档案馆,路要一步步走,基础很重要。进入21世纪以后的头十几年,面对社会信息化的浪潮,中国档案部门的思维焦点主要是档案信息化、档案数字化、电子档案管理和数字档案室、数字档案馆建设。其发展的速度快,成绩大,效果显著。十几年的发展轨迹,见证了中国档案人追赶时代步伐的勇敢与执著,思想的敏锐与实践的果断堪称一流。但这一阶段的任务还远远没有完成,工作还要持续不断地抓下去。同时,随着近年来移动互联网、物联网、云计算和下一代信息技术的快速发展,以及鼠标、键盘、语音、手势、触摸等以“自然用户界面”为追求的多模态、多媒体人机对话技术的快速演进,社会面对的已经不是一般意义上的数据,而是巨量数据集,也就是所谓大数据。大数据因为可以从中挖掘出有价值的信息而越来越受到人们的重视,被称为是下一个创新、竞争和生产力提高的前沿。大数据的价值堪比石油,是一种生产资料和新财富。谁抢占了大数据的先机就抢占了新一轮竞争的制高点。与此相适应,档案馆也不能仅仅满足于现有技术条件下的档案信息化、档案数字化和数字档案馆,而应该在新技术的基础上寻找新的出路与航程。

总体上,大数据时代的来临已经和正在对社会方方面面产生深刻而持久的影响,档案部门对此应该保持高度的清醒和警觉,并学习应用大数据的预测工具和方法,及早提出应对的思路和策略,部署新的规划和措施,最大限度地争取主动,避免陷入“猝不及防”的边缘化风险。

三、智慧档案馆是适应大数据时代要求的第四代档案馆

档案馆建设的实践脉路大体可以分为4个不同的阶段。

一是实体档案馆。档案馆作为一种社会实体,存在的历史由来已久。早在公元前11世纪到公元前3世纪的周朝,就设有“柱下”这种机构,主要管理皇家档案资料,实际上就是当时的实体档案馆。老子曾为“柱下史”,换句话说,就是当时的皇家档案馆馆长。老子阅尽人间祸福存亡之道,提出了以全身避害为中心内容的老子哲学,成为中国道教的宗师和鼻祖。中国历朝历代都有实体档案馆。河南殷墟甲骨文档案馆是现在可以考证的存在最早的实体档案馆,设在皇家宗庙的地底下,有专人看管,可见当时的重视程度。西汉初年有石渠阁,清朝有内阁大库,都是封建时代实体档案馆的缩影和标示。中国现代意义的实体档案馆肇始于1959年10月。中央档案馆是其标志。实体档案馆以档案馆建筑实体为标志,侧重于传统档案的实体管理。

二是智能档案馆。20世纪80年代,建筑界提出了智能建筑的新概念。它是现代计算机技术、通信技术、控制技术发展和相互渗透的结晶。所谓智能建筑,是指将计算机、通信、办公自动化、保安监控、防火等技术有机整合在一起的高新技术建筑综合体。只要是按现代管理方式运作的行业,它的建筑都有智能建筑的要求。智能档案馆是现代智能建筑的伴生产物。它的系统构成主要包括3个方面:1.楼宇自动化系统。包括电力、照明、空调、给排水、防火、保安、库房设备、温湿度控制等;2.通信自动化系统。包括电话、传真等;3.办公自动化系统。上述3个基本系统通过综合布线系统与档案馆的数字化有机构成智能档案馆。(《浅谈智能档案馆建设》。作者:浙江大学基建处徐昊、朱坚敏。载《浙江建筑》2005年12月第22卷第6期。)由此可见,所谓智能档案馆,侧重于建筑硬件的智能化、自动化、集成化,是对传统实体档案馆的一种现代化升级。智能档案馆比传统实体档案馆的高明之处在于融入了现代建筑思想,突出了技术进步对于档案馆建筑设计的巨大贡献,但并没有脱离传统实体档案馆的窠臼。

三是数字档案馆。数字档案馆,也可以称为虚拟档案馆,是与实体档案馆的一种对称,以21世纪初国家档案局出台档案信息化纲要为源头,侧重于纸质档案数字化和电子档案管理。实体档案馆的功能强调“五位一体”,即:档案安全保管基地、爱国主义教育基地、档案信息资源利用中心、政府信息查阅中心、电子文件中心。数字档案馆的表述和功能定位完全不同。国家档案局2010年6月发布《数字档案馆指南》,对数字档案馆的表述是:“数字档案馆是指各级各类档案馆为适应信息社会日益增长的对档案信息资源管理、利用需求,运用现代信息技术对数字档案信息进行采集、加工、存储、管理,并通过各种网络平台提供公共档案信息服务和共享利用的档案信息集成管理系统。”其基本功能主要是4个方面,即:数字档案信息的收集、管理、存储和利用。国家档案局正在面向全国征求意见的《数字档案馆评估指标表》确定的初步考评指标体系是6项一级指标25项二级指标,即:1.基础设施。包括中心机房、网络平台、服务器及存储备份设备、终端设备、其他硬件设备、基础软件6个方面。2.系统功能。包括收集、管理、保存、利用和系统管理5个方面。3.档案资源。包括目录数据库、电子档案接收、传统载体数字化、数字资源收集、数字资源管理5个方面。4.保障机制。包括体制机制、管理制度2个方面。5.安全体系。包括安全制度、系统安全、网络安全、数据安全3个方面。6.服务绩效。包括档案管理支撑能力、服务管理支撑能力、服务形式、服务效果4个方面。由此可见,所谓数字档案馆,是指以实体档案馆为基本依托,以智能档案馆为基本支撑,以电子档案为基本对象的一种新型档案馆形式,是基于电子档案产生而带来的档案管理与服务的大变革,是档案馆事业发展一个新时代的跨越与标识。

四是智慧档案馆。智慧档案馆是适应大数据背景下的第四代档案馆,是继数字档案馆之后档案信息化发展的高级形态。智慧档案馆借鉴了智慧地球、智慧城市的理念。智慧城市的目标是伴随网络帝国的崛起、移动技术的融合发展,以及创新的民主化进程、知识社会创新2.0环境,通过物联网、云计算等新一代信息技术,以及维基、社交网络、Fab Lab、Living Lab、综合集成法等工具和方法的应用,实现全面透彻的感知、宽带泛在的互联、智能融合的应用以及以人为本的可持续创新(《互动百科:智慧城市》。)智慧档案馆的目标则是应用新一代信息技术及相关工具和方法,最大限度地提高档案资源的整合建设能力和开发服务能力。

四、智慧档案馆的最好解释与关键节点

智慧档案馆的最好解释是“聪明”。“聪明”的标识是不仅能让机器“说话”,而且能够通过机器的深度学习听懂人的语言,看清人的手势,理解人的意图,并恰如其分地提供令人满意的服务。微软亚洲研究院的语音专家宋謌平说:“有一个比喻,一个最好的餐馆服务员,他会随时注意客人的用餐情况,客人的动作、眼神和意向。他在听、在看,不需要的时候,他不会主动来骚扰你。但当你有需要的时候,他马上就会过来。同时,他了解你的需要和喜好,他一直在积累、分析、组合客人的信息。当客人需要的时候,他马上就知道客人要什么,能实时、实地做出最恰当到位的反应。”(《人与机器沟通:更自然更多元》,作者:余建斌、赵展慧。载《人民日报·科技视野》2013年3月1日第20版。)智慧档案馆的交互方式仍然是人机交互。宋謌平认为,未来最理想的人机交互方式应该是多模态的,是许多不同交互方式无缝的结合,用户在不同的环境下,选择他最喜欢、最习惯并且效果最好的方式,更自然地与机器交互。(《语音,人机交互新热门》,作者:赵展慧、余建斌。载《人民日报·科技视野》2013年3月1日第20版。)

智慧档案馆的关键节点主要包括以下几个方面:

一是大数据的来源。档案馆的大数据从何而来?它与传统的档案收集保持一个什么样的关系?档案馆的责任边界在哪里?用什么办法来落实档案馆的责任?这些都是新的问题与考验。

二是大数据特征的认知。IT业界一般认为,大数据具有4“V”特征,即Volume(容量)、Variety(种类)、Velocity(速度)和Value(价值)。其中,Volume(容量)是指大数据巨大的数据量与数据的完整性。首先是数据量要大,同时要注重数据的完整性。微软亚太研发集团主席张亚勤就认为,尽管业界对于达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。Variety(种类)意味着要从海量、种类繁多的数据间发现其内在关联。张亚勤说:“这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的‘关联性’,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。”Velocity(速度)可以理解为更快地满足实时性需求。张亚勤认为,在如今各种有线和无线网络无处不在的连接的背景下,不可避免地带来数据交换,“而数据交换的关键是降低延迟,以近乎实时——这意味着小于250毫秒——的方式呈献给用户”。更重要的还是Value(价值)。它是大数据的最终意义——获得洞察力和价值。百度相关专家认为,就大数据的价值而言,就像沙子淘金,大数据规模越大,真正有价值的数据相对越少。张亚勤说:“所以真正好的大数据系统,重要的不是越多越好,其实越少越好。”开始数据要多,最好还是要少,把ZB、PB最终变成一个比特,也就是最后的决策。这才是最关键的。(《大数据崛起》,作者:余建斌、赵展慧。载《人民日报·科技视野》2013年2月22日第20版。)对于大数据4“V”特征的深刻认知是实现智慧档案馆建设目标的重要一环。

三是大数据技术的运用。中国工程院院士邬贺全认为,大数据应用的领域非常广阔,前景也十分光明。但目前大数据技术的运用仍存在一些困难与挑战,主要体现在大数据挖掘的四个环节中。首先是大数据的收集。要对来自网络包括物联网和机构信息系统的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。第四是结果的可视化呈现,使结果更直观以便于洞察。现有的数据挖掘算法在不同行业中难以通用。(《大数据时代的机遇与挑战》,作者:邬贺铨。载《求是》杂志2013年第4期第47~49页。)这些困难与挑战在智慧档案馆的建设进程中将会显得更加突出和集中。

四是“数字鸿沟”的跨越。数字鸿沟也称数据鸿沟。张亚勤指出,IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及以前,由于存储、计算和分析工具的技术及成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。几十年前,气象、地质、石油勘探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。(《大数据崛起》,作者:余建斌、赵展慧。载《人民日报·科技视野》2013年2月22日第20版。)中国社科院信息化研究中心秘书长姜奇平强调,我们需要从社会生产力引起生产方式变革的高度,充分认识大数据对提高国家竞争力的战略价值。实物的积累、货币的积累,曾经成为过去时代国力的标志。在信息时代,对数据的积累、加工和利用能力将成为国力的新标志。姜奇平认为,当前中国正处在从“工业化不断加快”到“工业化基本实现”的转变中,同时要完成全面提高信息化水平的历史任务。与发达国家不同,中国面临着同时发展工业时代的生产力与信息时代生产力的双重任务。按照信息时代的现代化指标,中国在社会生产力上存在与美国等发达国家拉大距离,陷入数据鸿沟的现实危险。而要实现从“数据鸿沟”到“数字红利”的跨越,中国一定“要认清发展以大数据为代表的信息生产力的紧迫形势,从顶层建立大数据的国家战略,使我国社会生产力状况适应国际竞争所要求的现代化水平,在此基础上对社会生产关系及其相联系的经济运行体制进行改革。坚持以信息化带动工业化,以工业化促进信息化,实现高水平现代化,才能充分保证中国的国际竞争力”。(《抓住机遇,提高国家竞争力》,作者:姜奇平。载《人民日报·国际》2013年2月1日第23版。)档案馆是记录历史发展轨迹并为社会发展提供智力支持的信息部门,数字鸿沟对于档案部门存在巨大的现实压力,实现从“数字鸿沟”到“数字红利”的跨越,可能需要更多的智慧和毅力。

五是“档案云”的构建。“档案云”也可以称为档案IT基础设施。专家指出,“云计算与大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用”。目前,云计算在IT行业已经普及并成为主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏等存档记录上传到“云”中永久保存,企业客户根据自身需求,可以搭建自己的“私有云”,或托管、或租用“公共云”上的IT资源与服务,这些都已不是新鲜事。可以说,“云是一棵挂满大数据的苹果树”。同时,基于海量数据统计分析出人的行为、习惯等方式,计算机可以更好地学习模拟人类智能,计算机系统正在具备与人类相仿的感知能力,其看见、听懂和理解人类用户的能力不断提高。这种计算机系统不断增强的感知能力,与大数据以及机器学习领域进展相结合,已使得目前的计算机系统开始能够理解人类用户的意图和语境,这使得计算机能够真正帮助我们,甚至代替我们去工作。(《大数据崛起》,作者:余建斌、赵展慧。载《人民日报·科技视野》2013年2月22日第20版。)在这种背景下,档案部门有两件事非做不可:一是要加快构建档案IT基础设施;二是要加快构建能够真正帮助我们,甚至基本代替我们去工作的档案IT基础设施。即在构建智慧档案的进程中,要瞄准高水平,紧盯高层次,尽可能采用代表时代最新技术的适合档案工作需要的成熟的计算机系统。

五、智慧档案馆的宏观架构与基础前提

适应大数据时代需要的智慧档案馆的宏观框架和基础前提是什么?这同样是需要慎重考虑的大问题。

一是宏观架构。按照目前的设想,智慧档案馆的宏观架构用一句话来概括,应该是“五商并举、三力并具、三员分设、二职分开”。“五商”是指情商、智商、能商、体商、美商。这是智慧档案馆的人格化描述。“五商”之中,要突出“情商”。“情商”是灵魂,是控制力。要以“情商”促进其他各“商”完美结合,最佳发挥,恰到好处。通过智能融合技术的应用,实现对海量数据的存储、计算与分析,并引入综合集成法,通过人的“智慧”参与,大幅提升档案工作整体水平。通过基于云计算平台的大成智慧工程,构成智慧档案馆的“大脑”,推动“云”与“端”的结合,实现档案资源整合与档案社会服务的随时、随地、随需、随意应用,进一步彰显个人参与和用户的力量。“三力”是指大数据的综合响应力、云计算的资源供应力和新一代信息技术的现实表现力。“三员”是指基于涉密网络的安全需要,按照“相互独立、相互制约”的权限配置原则配备涉密网络系统管理员、安全保密管理员和安全审计员。“二职”是指保密工作职能和信息化工作职能。在档案馆内部要设置两种机构(或岗位),即保密工作机构和信息化工作机构。前者负责兼管,后者负责建设。二者相互融合、配合,共同打造既能优质服务、又能安全可控的符合大数据时代要求的智慧档案馆。

二是基础前提。智慧档案馆的基础前提有多项内容。首先是数字档案馆的建设水平要达到一定的高度,具备或基本具备智能融合技术应用的基本条件,便于实施基于云计算平台的大成智慧工程建设;其次是馆藏档案数字化的全面完成并接收来自于各方的结构化和非结构化数据,数据总量要达到一定的规模,数据的种类要丰富、完整性要好;其三是面向“自然用户界面”的大数据挖掘技术要成熟、多样并广泛应用到相对普及程度;其四是基于档案馆大数据收集和应用的法律界线要清楚,安全性要可控,档案馆的“私有云”和“公共云”要分开,其内在底线要清晰可辨,标准要统一规范,便于遵循和操作;其五是档案工作者的思想认识要跟上时代步伐,知识水平要先进适用,操作技能要谙熟于心。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

论大数据背景下的第四代档案建设_大数据论文
下载Doc文档

猜你喜欢