非结构化数字档案资源长期保存面临的挑战与对策_非结构化数据论文

非结构化数字档案资源长期保存的挑战及应对策略,本文主要内容关键词为:结构化论文,应对策略论文,档案论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       非结构化数字档案是指未存储在档案数据库中,而是以各种类型的文件或文件夹形式存放的数字档案,其形成有“电脑通用办公软件环境下直接生成”和“档案数字化转换生成”两种方式。①数字档案资源长期保存涉及政策法规、标准规范、管理制度、保存技术、保存格式、保存载体等诸多方面。本文主要以数字化之后形成的非结构化数字档案,包括图片、图像、音频和视频类数字档案为研究对象,对其在长期保存中面临的挑战进行分析,提出应对策略。

       面临的挑战

       1.计算机系统存在不安全因素

       计算机系统是数字档案生成、管理、存储和传输的主要场所,计算机系统的安全性是影响非结构化数字档案长期保存的重要因素。当前,计算机存在的不安全因素主要包括:(1)病毒和黑客的攻击导致数字档案删除、修改、窃取,数字档案的真实性和完整性受到破坏。(2)人为操作不当或是系统故障使文件被误删、误改,增加了数字档案长期保存的风险。(3)计算机系统具有不稳定性,软硬件更迭速度快,非结构化数字档案具有非人工识读性,必须依赖特定的系统软件、支撑软件和应用软件,一旦软件环境改变或过时,数字档案将无法读取甚至变成“死档”。

       2.数字化过程中数据失真

       数字化过程中,可能因为技术参数选择不当、工作失误等原因造成一定的信息损失。以音频、视频档案数字化为例,数字化过程中采样参数的设置、存储格式的选择等对数字化音频、视频档案质量影响都很大。如MPEG、JPEG、WMV、MP3等在压缩的同时就已对音频、视频档案形成了一定的破坏。所以,目前音频、视频档案的数字化都采用采样频率和采样精度。

       3.存储格式的挑战

       2010年6月,国家档案局发布的《数字档案馆建设指南》要求,长久保存格式应当选择符合国家标准的格式,暂时未制订标准的,选择开放格式或主流格式。但据调查显示,2012年,省级、副省级档案馆接收进馆的电子文件格式中,专有格式DOC格式占有率达到了65%,在所有格式中排名第二。②专有格式存在很大的技术过时或软件不兼容等风险。如DOC格式只能使用Microsoft Word软件打开,与其他软件不兼容,且新版的DOCX格式也无法用旧版的Microsoft Word 2003直接打开,必须先安装Microsoft Word 2003-2007兼容包后才能打开。对于使用专用格式且不符合长期保存格式要求的数字档案,需要转换为通用的标准格式。而频繁的格式转换有可能改变数字档案的表现形式或结构,转换后的数字档案的真实性、完整性和可靠性均无法保证。

       4.存储载体的挑战

       2002年颁布的国家标准《电子文件归档与管理规范》推荐采用长期保存载体,按优先顺序依次为只读光盘、一次写光盘、磁带、可擦写光盘、硬磁盘等,不允许将软磁盘作为归档文件长期保存的载体。在实际工作中,数字档案长期保存载体面临以下挑战:(1)非结构化数字档案尤其是图像、视频、音频类非结构化数字档案的规模都比较大,以中国第一历史档案馆和中国第二历史档案馆为例,馆藏档案数字副本均将达到数千TB,这对存储载体的容量提出了更高的要求。③就目前使用的存储载体来看,光盘使用最为广泛,但其存储容量一般在700MB~100GB之间,磁带、磁盘虽然存储容量较大,但磁带对保管环境要求高,且不同公司生产的磁带格式不统一,互不兼容,磁盘阵列成本和维护费用较高。④如何根据实际需求,选择容量大、方便保管且经济实惠的存储载体需要慎重考虑。(2)存储载体都需要相应的驱动器进行读取,一旦脱离驱动器,就不能检测到是否能正确读写数据,虽然上述存储载体物理寿命经验证都已达10年以上,但读取存储载体的相应驱动技术是影响非结构化数字档案长期保存的重要因素。⑤如我国不少广播电台保存的钢丝录音档案,由于缺少相应的播放设备——钢丝录音机,面临无法读取的濒危境地。(3)光盘或是磁性载体材料对保存环境均有较高要求,一旦对环境因素控制不当就会影响存储载体的寿命,适当的环境保护意味着数字保存难度的提高和保存成本的增加。

       5.存储方式的挑战

       关系型数据库是结构化数据长期保存的最常见方式,但对非结构化数字档案不太适用。采用何种数据组织方式对非结构化数字档案进行存储是一项挑战。目前,非结构化数字档案存储的方式主要有3种:(1)关系型数据库中挂接非结构化数字档案信息,关系型数据库中只记录数字档案的大小、路径、位置等元数据,数字档案本身则保存在相应的文件系统中。优点是数据库体积不会增大,数据读取速度较快,缺点是一旦所挂接的档案文件名称和存储路径改变,易造成链接的失效。(2)将非结构化数字档案存储在结构化数据库的Blob(Binary large object)字段中。Blob是数据库中用来存储二进制文件的字段,Access数据库系统的“附件”字段格式、SQL Server 2000中image类型、Oracle中Blob类型等都属于这种类型。优点是档案调用速度快,数据库维护和管理简单,缺点是数据库膨胀,数据库性能下降。⑥(3)将非结构化数字档案通过文件系统直接存储在文件服务器上。缺点是文件系统无法辨别重叠信息并对其进行剔除,会造成大量的数据冗余,同时文件系统保存的数字档案联系性弱,数据共享性较差。⑦

       6.标准建设的挑战

       我国已出台的对纸质档案和缩微胶片档案的数字化标准有《纸质档案数字化技术规范》《缩微胶片档案数字化技术规范》,以及具有一定指导意义的《文献档案资料数字化工作导则》,还发布了《电子文件归档光盘技术要求和应用规范》《基于XML的电子文件封装规范》《CAD电子文件光盘存储、归档与档案管理要求》《电子文件归档与管理规范》《公务电子邮件归档与管理规则》《数码照片归档与管理规范》《版式电子文件长期保存格式需求》《文献管理 长期保存的电子文档文件格式 第1部分:PDF 1.4(PDF/A-1)的使用》《档案关系型数据库转换为XML文件的技术规范》《数字档案信息输出到缩微胶片上的技术规范》《数字档案COM和COLD技术规范》《档案数字化光盘标识规范》《照片类电子档案元数据方案》《文书类电子文件元数据方案》等大量与数字档案长期保存有关的标准规范。但是,还存在以下问题:(1)缺乏对照片、音频和视频档案数字化加工的标准规范。(2)标准建设集中在某些重点领域,标准框架体系尚未建成。从标准内容来看,已颁布的标准集中在数据转换、文件格式、元数据、存储和访问控制几个方面,数字信息资源长期保存系统标准、系统间操作标准等系统层次的标准,摄入过程等业务层次的标准以及信息模型、数据编码等数据层次的标准则较为欠缺,标准框架体系尚未形成,标准建设缺乏系统规划,存在地方规范、行业规范先行,国家、国际标准滞后的现象。(3)对标准的系统性把握不足,标准协调性较差。不同阶段或出于不同目的制定的标准可能存在差异性,同时使用多个标准且相互之间并不兼容时就会出现混乱。如何协调这些标准,使标准之间相互兼容而非相互抵触是亟须解决的问题。(4)对标准的贯彻和执行力度不够。在实际工作中,由于缺乏对标准重要性的认识,或是缺乏相关部门的引导,抑或是因为资金、技术不足等原因,标准的执行力尚显不足。

       应对策略

       1.标准建设策略

       (1)推进数字档案长期保存核心标准的制订

       非结构化数字档案长期保存的核心标准包括非结构化数字档案保存系统设计标准、元数据标准、存储载体标准以及长期保存格式标准等数字保存核心领域标准。目前,我国在数字档案存储载体以及元数据方案设计方面已具备一定的标准基础,但长期保存系统功能需求和设计标准以及音频、视频档案数字化标准与元数据标准还有待制订。

       (2)适时修订标准,提高国际标准采标率

       档案行业标准、档案与其他相关领域标准之间出现不协调情况时,应当根据不同标准所针对的具体问题选择适用的标准,同时应当动态、适时地对标准进行修订,还应当加强对国际标准的跟踪和研究,提高对适合我国非结构化数字档案长期保存实践的国际标准的采标率。

       (3)加大标准的宣传和执行力度

       抽样调查显示,我国只有3.4%的档案部门严格遵守了国际、国家、行业和其他标准。⑧究其原因,主要是目前我国档案工作的标准基本上为推荐性标准,与强制性标准相比,不具有法属性和强制性,采用与否取决于各单位自身。因此,档案部门应当加大对长期保存领域相关标准的宣传力度,同时可以在档案法规中引用相关标准,赋予其法律效力,以提高标准的执行力。⑨

       2.存储策略

       (1)存储格式的选择

       从进馆之初就对非结构化数字档案格式进行限制和规范,可以从源头上保证非结构化数字档案以符合长期保存要求的格式生成、管理和存储。因此,档案部门应限制文件生成格式,引导生成标准格式的数字档案,避免后期不必要的格式转换。

       澳大利亚国家档案馆将进馆的非开放文件格式转换为基于开放标准的文件格式。适合长期保存的数字文件格式有三种:一是首选的开放格式,也是格式转换的目标格式。二是可以转换为首选的开放格式。三是可接受的开放格式。其中,第一种和第三种都是基于开放标准制定的,以这两种格式接收的数字档案应以原格式保存(见表1)。⑩

       档案馆在进行格式转换时应注意:(1)尽量将专有格式转换为标准格式或开放格式。调查显示,2014年我国省级、副省级档案馆中有61%对接收进馆的电子文件进行了格式转换,有不少档案馆继续转换为DOC、CEB等专有格式,这样做会增加转换频率和转换风险。(11)(2)注意格式转换的时机与成本,专有格式存在很大的技术过时或软件不兼容的风险,应注意把握格式转换的最佳时机,同时,对大量档案进行格式转换会大大增加数字保存成本,因此,格式转换前应当对转换成本做出适当的预估与衡量。(3)注意格式转换的适用范围,某些格式转换会改变数字档案的显示和结构,例如对使用了特殊字体的档案进行格式转换时,可能使得转换后的特殊字体被Windows默认的字体所替代。因此,如果格式转换会导致数字对象丢失特征信息,就不能适用。(12)

       (2)存储载体的选择

       光盘是目前使用最广泛的存储载体,但光盘存储容量有限,蓝光光盘和档案级蓝光光盘的出现在一定程度上解决了光盘容量方面的问题,为光盘成为大容量非结构化数字档案长期保存有效载体打下了基础。蓝光光盘的存储容量目前已超过100GB,同时,蓝光光盘记录层采用特殊材料且强化了涂层保护,因而数据记录更加稳定也具有更长的使用寿命。另外,针对数据长期存储要求,主流厂商还设计出档案级BD,对保存环境要求小,抗灾能力强,保存寿命达200年以上,设计容量达500GB以上。(13)

       异质备份也是当前档案馆常用的一种存储策略。调查显示,我国省级、副省级档案馆中有83%采用两种以上的存储载体,采用三种存储载体的档案馆占30%。(14)异质备份可以在总体上降低对技术的依赖性,但应当注意,不同的备份介质适用范围不同,例如,磁带是备份大容量数据的理想介质,光盘则适合为数据量较小、访问频率较高的文件备份。(15)

       (3)数据库的选择

       随着关系型数据库对非结构化档案信息资源存储的失效,以及文件系统无法满足大量非结构化数据存储和管理的要求,非关系型数据库开始出现。目前,常用的非关系型数据库主要有TRIP数据库、MongoDB数据库和iBASE数据库3种,三者与关系型数据的比较(见表2)。三种非关系型数据库中,TRIP数据库具有多维嵌套结构,子字段数量、大小不限,可存储任意二进制格式数据,同时具有严格的数据访问权限控制,并且采用了备份技术、身份验证技术、日志技术来确保系统的安全性,是目前最适合非结构化数字档案存储的数据库。(16)

      

       3.技术策略

       (1)数字化阶段的技术策略

       针对病毒、黑客的攻击,档案部门应当综合运用计算机实体安全防护、软硬件防护、漏洞检测、防火墙、反病毒、入侵检测等计算机安全防护技术,全面提高计算机软硬件系统的安全防护水平。针对人为操作失误等情况,可以通过访问权限设置、身份验证、数字签名、加密、设置安全日志等方式减少因操作不当造成的损失。针对数字化过程中的信息损失,尤其是音频、视频类多媒体数字档案,可以采用A/D转换技术,通过音频档案信号转换的载波分析和恢复、信号提取、数据评估和保存副木,应采用半自动的方式从音频和视频载波中有针对性地获取元数据,通过校准曲线和相似性的可视化得出差异性图表,能够减少A/D转换设备导致的无意识的信息损失和转变。(17)

      

       (2)多种技术策略并用

       每种技术手段都各有优缺点,适用范围、适用时机、使用成本也各有不同,长期保存问题的解决无法依靠单一的技术手段,多种技术手段并用是最好的解决方法。对于数字化形成的非结构化数字档案,迁移与仿真是两种较好的长期保存的技术手段,迁移可以将非结构化数字档案从专有格式转换为通用格式,仿真可以在一定程度上解决非结构化数字档案的长期可读取问题。但是,迁移容易改变数字档案的原貌,造成信息损失,仿真则存在软件兼容性问题。若将两种技术手段并用,先通过迁移将非结构化数字档案格式转换为符合长期保存要求的通用格式,可以减少迁移次数以及最后系统内保存的档案格式,再借助仿真技术对已通过迁移达到长期保存格式要求的数字档案的软硬件系统进行模拟,可以在一定程度上降低技术难度和仿真成本。

       注释:

       ①王志宇,赵淑梅.非结构化电子档案数据管理探析[J].档案学通讯,2014(5).

       ②刘越男,杨程婕,熊瑶,张喜波.我国省级、副省级档案馆电子文件移交进馆及管理情况调查分析[J].档案学通讯,2011(4).

       ③杨重高.数字档案资源的安全存储[J].中国档案,2014(11).

       ④封盛龙.数字档案存储设备的比较及标准规范探析[J].数字与缩微影像,2014(4).

       ⑤唐跃进.数字档案灾难防治研究[J].档案学通讯,2014(3).

       ⑥张志刚,姚玮.海量非结构化数据存储问题初探[J].中国档案,2009(8).

       ⑦王志宇,赵淑梅.非结构化电子档案数据管理探析[J].档案学通讯,2014(5).

       ⑧冯惠玲,赵国俊等.中国电子文件管理:问题与对策[M].中国人民大学出版社,2009.

       ⑨马仁杰,张浩.关于电子文件立法若干问题的思考[J].档案学通讯,2010(5).

       ⑩http://www.naa.gov.au/images/digital-preservation-software-platform_tcm16-60788.pdf.

       (11)刘越男,祁天娇.我国省级、副省级档案馆电子文件接收及管理情况的追踪调查[J].档案学通讯,2014(6).

       (12)肖秋会.电子文件长期保存:理论与实践[M].社会科学文献出版社,2014.

       (13)赵伟东.电子档案蓝光存储应用探究[J].档案学研究,2015(3).

       (14)刘越男,祁天娇.我国省级、副省级档案馆电子文件接收及管理情况的追踪调查[J].档案学通讯,2014(6).

       (15)刘家真.数字信息存储介质的选择[J].档案与建设,2004(3).

       (16)高艳霞,张慎武.电子档案的非结构化存储方案浅议[J].兰台世界,2012(1).

       (17)王萍,郭秋言,宋雪雁.境外近年电子档案技术与应用进展[J].档案学通讯,2014(4).

标签:;  ;  ;  ;  ;  ;  

非结构化数字档案资源长期保存面临的挑战与对策_非结构化数据论文
下载Doc文档

猜你喜欢