对电子文件特点的科学认识_逻辑结构论文

再论对电子文件特性的科学认识,本文主要内容关键词为:特性论文,文件论文,科学论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

对电子文件的特性已有不少文章论述,但往往是通过其与纸质文件的比较,简单地罗列一些特性来进行论述;实际上,电子文件的特性是多维的,从不同维度进行分析,可以有不同的特性,为了更好地实现对电子文件管理的规范化、标准化,我们必须从电子文件的层次维度、结构维度和生命周期流程维度来对其进行科学的认识与分析。

1 基于电子文件层次维度的特性分析

1.1 电子文件的层次性

根据国际档案理事会的定义,所谓的电子文件就是指“电子文件是适合于数字电子计算机操作、传递和处理的文件”。[1]从这个定义中可以看出,电子文件首先是文件,这是电子文件的逻辑层次,因为电子文件所要传达的、供人理解的信息内容主要就是在这一层次上实现的。但是,电子文件除了“文件”这一属性之外,还有适合于“数字电子计算机操作、传递和处理”这一属性,也就是说电子文件必须是能够被机读,要能够被机读,电子文件还必须具有“010101”比特流的数字属性,这是电子文件的物理层次,这个层次是电子文件的底层。电子文件实际上就是由逻辑层次与物理层次这两个层次的统一而构成的一个统一体,相对应地,当在逻辑层次上理解电子文件时,这个文件往往被称之为逻辑文件,而当在物理层次上理解电子文件时,这个电子文件往往被称之为物理文件,所以从这个意义上说,电子文件又是由逻辑文件和物理文件构成的统一体,缺一不可。

1.2 逻辑层次上逻辑文件的特性

电子文件的逻辑文件,其表现形式类似于传统的纸张文件、图像文件,或由模拟信号构成的传统音频、视频文件,主要是供人们直接获取可理解的文件信息内容、声音与视频图像。保存电子文件主要就是保存这方面的信息,因为它既是具体事务活动与事务处理的结果,又为具体事务活动与事务处理提供了凭证,因此,它记录着人类的历史,是人类的重要记忆。逻辑文件具有如下特性:

(1)信息[2]与载体的不对应性

电子文件的逻辑文件,其信息常常可从一种载体上分离出来,移到另一种载体装置,例如将文件从硬盘上拷到磁盘、光盘或磁带上,或者在网络上从一台计算机传到另一台计算机上。所以不像传统纸张文件,电子文件的逻辑文件一旦形成其信息不会永久地依附于一种载体或存贮装置上,而是会经常地变换载体或存贮装置,因此,同一逻辑文件,其载体是不确定的,可以是磁盘,也可以是光盘,还可以是磁带。

(2)结构类型的多样性

电子文件的逻辑文件,其结构类型在大多数情况下与传统纸张文件是对应的、相同的,如与传统的信件、报告、公文、表格等类型,很好确定。而在另一些情况下,其与传统纸张文件的类型则截然不同,如数据库文件、多媒体文件,超文本文件等这样的文件,在传统文件中没有对应的结构类型。这样,就给如何确定逻辑文件类型带来了困难与挑战,这就是逻辑文件结构类型上多样性。

(3)背景信息的不完整性

电子文件的逻辑文件,其背景信息具有不完整性,主要是指逻辑文件在实际创建、办文、利用处理过程中,体现行这些过程的背景信息不那么完整,详细,而不像纸质文件在传递和处理过程中离不开行政部门的实际往来和人工办理的各种手续,体现行政办文过程中的背景信息也就自然地记录在文件上了,如领导的圈阅、首长的批示、文件的收发及运转的情况等。

1.3 物理层次上物理文件的特性

电子文件的物理文件,也称为电子文档或计算机文档,即英文的“Computer File”,就是一种经过命名的、完整的,计算机可以作为一个单位进行操作、处理与传输的文件,通常在计算机中存放在树状结构的文件夹中。在计算机内和存储设备上,物理文件是以“0”、“1”二进制数的形式存储的。这些二进制数保存在磁性或光学载体上时,是以铁氧化物的小颗粒的两个极性或光盘记录层材料的凹凸坑存放,这样只能表示两个数值“0”和“1”,因此,纯粹二进制数还不能使物理文件转化为人可识别的、有意义的信息,即转化为逻辑文件,只有将二进制数按照编码规则进行编码后才能将物理文件转换为逻辑文件。如图所示.

图1 在电子文件的两个层次上物理文件与逻辑文件的转换

从图1可以看出,物理文件是在将“0101”比特流数字经编码后,转换为逻辑文件的,即从计算机存储设备上的二进制比特流转化为人可识别的有意义信息。这样的转化需要经过以下转化过程:

首先,计算机根据电子文件中比特流编码的特征信息,获取二进制编码的方式,将“0”“1”比特流根据二进制编码规则映射为字符、数字、表格、或像素、声音等,也就是形成物理文件的格式。

其次,计算机根据物理文件的格式特征,运行硬件系统、操作软件系统和应用软件系统存取、访问该物理文件。

最后,计算机将物理文件转换为逻辑文件加以显示,成为人可识别的、有意义的逻辑文件。由此,我们可以看出,物理文件具有如下特性:

(1)数据[3]的代码性

物理文件的数据的处理,其最终都表现为“0,1”的代码形式,在这个意义上,所有的逻辑文件实际上都是不同的“0,1”代码序列。这种“0,1”代码构成的字符系统与组成传统纸张文件的汉字的基本笔画或组成英语的26个字母是等同的,只不过组成传统纸张文件的汉字笔画和英语字母通常是在纸张载体上,人们可以一目了然的观察到,而组成物理文件的“0,1”代码是存储在磁盘、光盘上的,必须借助计算机才能读取进行而已。

(2)数据与载体的可分离性

物理文件的数据,其在载体上的存放位置不是固定的,而是可以变化的,甚至可以从一个载体转换到另一个载体上,而其逻辑内容信息可以不发生任何变化。同样还可以通过网络传给远方的一个或多个接收者。在一些对保密有特殊要求的网络中,还可采取把物理文件的数据分解后,分别通过不同的途径传递,存放在不同地点的不同载体上,只是在需要时才把这些数据临时装配起来。

(3)对计算机环境的依赖性

所谓的计算机环境是指计算机的软件环境与硬件环境。物理文件的形成和处理都是在计算机环境下进行的,离开计算机环境,物理文件就无法生成、传递和识别。而特定的物理文件又是依赖特定的计算机环境而生成和处理的。因此,物理文件从技术背景构成上对计算机环境具有极强的依赖性。

1.4 电子文件的逻辑文件与物理文件的关系

正确认识电子文件的逻辑文件特性与物理文件的特性,对正确处理电子文件的逻辑文件与物理文件两者的关系具有重要意义,这个意义表现在质与量两个方面,在质的方面表现为:

(1)物理文件是逻辑文件存在的前提,逻辑文件是由物理文件转化而来,没有物理文件就没有逻辑文件;

(2)逻辑文件是物理文件存在的目的,逻辑文件的内容无意义,物理文件也就失去其存在的必要。

两者之间的相互关系如下图.

图2 逻辑文件与物理文件(文档)的关系

在量的方面,从逻辑文件角度看表现为:

(1)一份逻辑文件对应于一份物理文件,这样的电子文件通常称之为“简单文件”;

(2)一份逻辑文件对应于若干份物理文件,如一份HTML的逻辑文件,其物理文件既有文本文件,又有图像文件,就属于这样的情况,当然,对于一份多媒体的逻辑文件,其所对应的物理文件还可以有音频文件、图像文件及文本文件,也是属于这种情况。一份逻辑文件对应于若干份物理文件的电子文件,这样的电子文件通常称之为“复杂电子文件”。

在量的方面,从物理文件角度看表现为:

(1)一份物理文件对应于一份逻辑文件,这样的电子文件通常亦称之为“简单文件”;

(2)一份物理文件对应于若干份逻辑文件,如一份物理文件,其逻辑文件既包含有正件,又包含有附件,就属于这样的情况,一份物理文件对应于若干份逻辑文件的电子文件,这样的电子文件通常称之为“复合电子文件”。

2 基于电子文件构成维度的特性分析

电子文件,从构成上看,是由内容、结构、背景所构成,又由于电子文件在层次上具有逻辑文件与物理文件之分,所以,电子文件的构成又分为逻辑文件的内容、结构与背景和物理文件的结构、内容与背景,如图所示.

图3 逻辑文件与物理文件的构成示意图

对电子文件的逻辑文件而言,在其各构成部分中,所谓的“内容”,就是文件所要传达的信息;“结构”就是指逻辑文件内容的组织与安排,其含义比较清楚;而“背景”其含义比较广,具体来说包括与逻辑文件相关的文件背景、责任人员背景、事务处置背景、来源背景和法规背景[4],强调的是何人在何种情况下,于何时、何地、为何及如何创建逻辑文件的情况。[5]

对电子文件物理文件而言,在其各构成部分中,所谓“内容”,就主要是指由“0101”所构成的比特流;“结构”,也称存贮结构,是指比特流信息在存贮载体上的存放的方式;而“背景”则是指创建、操作、处理物理文件的技术背景,如计算机硬件环境、软件环境及编码规则等。由此,电子文件的逻辑文件与物理文件的构成又可细化为如下图所示.

图4 逻辑文件与物理文件的构成细分示意图

由此,我们可以看出,电子文件其逻辑文件与物理文件都是由内容、结构与背景信息构成,且背景信息构成类别还很多。

2.1 逻辑文件的构成特性

从图4电子文件的逻辑文件的构成上,可以看出,除内容之外,结构与背景信息是其主要构成部分。对于逻辑文件来说,其确认需要借助于逻辑结构来表达其构成要素,如标题、章节、段落等。显然,为了保证电子文件完整性与真实性,就必须保证逻辑文件的逻辑结构以保证电子文件在从一种存贮装置转到另一种存贮装置时,再能够准确地显示其原有的逻辑结构。否则,电子文件的可靠性和真实性就会受到影响。

而背景对逻辑文件而言,其不但能将文件与创建文件时的行政管理环境与职能活动环境联系起来,如(活动、处理),并能将其与其他文件联系起来。也正是在这样的情况下,逻辑文件才具有记录历史的作用,才具有对现代及未来提供凭证及信息和知识的作用,或通常所说的,所具有的凭证价值和情报价值。背景能够提供完整和充分理解逻辑文件本身所必需的信息,能够提供完整和充分理解与逻辑文件有关的事务处理及活动所必需的信息。为此,国际档案理事会在其2005年4月颁布的《电子文件管理——档案工作者业务指南》(Electronic Records——A workbook for Archivists)中,对逻辑文件的背景所提供的信息作了专门的阐述:背景信息具有证明文件的真实性、可靠性和完整性的作用。并对背景信息的作用具体概括如下:

●对文件提供完整的、充分的理解所必需的信息;

●对与文件相关的活动和事务处理,如职责和责任,提供完整的、充分的理解所必需的信息;

●对与文件相关的处理,如文件的鉴定、文件的迁移、文件的移交等,提供信息;

●为自始至终地实现有效的文件管理和保管提供信息;

●背景信息是有效检索和利用文件所需要的信息。

由此可见,逻辑文件的背景,是逻辑文件极其重要的构成部分。

根据以上对逻辑文件的构成分析,我们可以将逻辑文件的构成特性,概括为如下几点:

对逻辑文件的内容而言,其特性为:

(1)内容的易更改性

逻辑文件在内容构成上,具有信息易更改性,主要表现在两个方面:一是人为的修改,一按键盘就可删除、修改、编辑等,且修改后很难像纸质文件那样确定哪个是原件,哪个是被修改过的文件。二是电子文件非常容易遭到病毒的侵袭,一旦感染上病毒,信息内容就会被破坏得面目全非,部分丧失或全部丧失其应有的作用。

(2)内容的共享性

逻辑文件在内容的构成上,还具有共享性,主要表现为:一是存储起来的信息可以被反复调取、使用;二是对所存储的信息整体进行拆分,或提取信息的属性,并使之与具有某种共同属性的信息建立关联、组配使用;三是通过网络基础和协同系统(集群技术),不同的人或设备可以同时对同一文件进行读取、操作与处理。

对逻辑文件的结构而言,其特性表现为结构的不稳定性。

逻辑文件的结构,具有不稳定性,因为它是与物理文件的结构分离的,而不像传统文件那样,逻辑结构与物理结构是固化在一起的。如一份关于《电子文件归档规定》的电子文件,在创建时,其逻辑文件的结构——题名及各小标题的排列是很有序的,但是在调用该文件时,再显示的结构却是无序的,题名与各小标题之间的关系就可能全乱了,其完整图示如图5与图6.

由于逻辑文件的结构存在着这种不稳定性,所以,为了保证电子文件的真实性与可靠,逻辑文件在创建时的这种结构,在被计算机重新调用时,必须要能保证重新建构这种逻辑结构以供人们直接阅读,如下图所示.

图5 逻辑文件的结构有序

图6 逻辑文件的结构无序

从图5与图6可以看出,逻辑文件的结构只有在“A”有序时,并在“B”仍然有序时,并确保这种结构的稳定性,才能保证电子文件的真实性与可靠性,否则,电子文件也就难以确保其具有凭证价值。对逻辑文件的背景而言,其特性表现为背景的不明确性。

电子文件的逻辑文件,其背景具有不明确性,主要表现在这样两个方面:一是逻辑文件需要哪些背景、需要到什么程度,只有原则上的要求,而在实际操作上又是不明确的;二是背景所提供的信息在确定逻辑文件的真实性、可靠性方面,现有的法律效力尚存在着不明确性,即背景所提供的信息在凭证性还不能从法律上得到明确的认可。

2.2 物理文件的构成特性

从图4电子文件的物理文件的构成上,可以看出,物理文件除内容外,也由结构与背景信息构成。物理文件的结构是指其在在存贮载体上的存放的方式。物理文件的背景,实际上,就是技术环境。在硬件环境方面,可以分为计算机硬件系统与计算机外围设备,而在软件环境方面,可以分为系统软件、应用平台与工具、创作与编辑软件和应用系统,具体如下图所示:

从图7可以看出,物理文件对硬件系统,在第一层的计算机外围设备和第二层的计算机硬件系统上有很高的要求;对软件系统,在第三层的系统软件、第四层的制作平台与工具、第五层的创作、编辑软件以及第六层的应用系统上也有专门的要求,可见,电子文件对技术环境,即在背景上是有很强的技术性的。

图7 物理文件的背景

由此,我们可以将物理文件的构成特性,概括为如下两点:

(1)内容构成的不可直读性

物理文件的内容是二进制编码,即把可识别的文字、表格、图像及音频、视频等作为二进制编码来表示的。当记录在载体上时,也是以二进制编码形式进行存储的,因此,人们不能够直接阅读。而如果要直接阅读,则必须要有相应的计算机环境和设备将载体上的二进制编码读出来转换成人们能够识别逻辑文件,显示在屏幕上或打印在纸上,才能阅读。

(2)内容构成的可压缩性

物理文件的内容——二进制编码流,其数量是巨大的,因此,在其形成过程中如果不对其进行压缩,要想对其进行存储、传送或不失真地播放是难以想象的。如一个中文播音员一分钟约读180个字,其文本数据量为360B,但是对其语音直接采样的数据量却是480KB,是文本数据量的100多倍。再如,一帧640×480,256色的一帧图像,就约为307200字节,若要达到每秒30帧的全动态显示要求,每秒所需的存储量为9.2兆字节,在600兆的光盘上,在不考虑音频信号的情况下,只能存放65秒的图像数据。所以,对于这样一类物理文件在其形成过程中大都对其内容进行了实时压缩。根据不同的编码规则,对二进制编码流的压缩种类可分为有损压缩与无损压缩,通用压缩格式与专用压缩格式,因此,对压缩的物理文件来说,其压缩编码的方法与格式对物理文件的管理就具有十分的重要意义。

对物理文件的结构而言,其特性为:

(1)存储位置的分布性

物理文件的结构是可以根据需要进行逻辑划分的,划分后的物理文件结构可以分散存储在多个独立的存储位置上,而不是存储在一个存储位置上,即物理文件的结构其存储位置是可以分布式的。由于物理文件结构存储位置具有的分布性,又决定了物理文件存储的分布性,并进而决定了电子文件存储的分布性。

(2)存储载体的可变性

物理文件的结构其存储载体,总体上可以分为磁存储载体和光存储载体两大类型,但实际上,在其种类的选择上又是多种多样的,有硬盘、磁盘、磁带、只读光盘、可擦写光盘等,在整个电子文件生命周期中,对于具有永久保存价值的电子文件而言,其所存储的载体必然是多变的。因为,就目前而言,磁存储载体一般每十年就要转存一次,光存储载体一般每四年就要转存一次。

对物理文件的背景而言,其特性为:

(1)编码规则的多样性

在物理文件的背景构成中,编码规则是多种多样,由此产生的物理文件格式也是多种多样的,据统计目前在计算机领域有一万多种编码规则,相应的也就形成了一万多种物理文件格式[6]。在这些格式中其中只有占很小比例的格式可以相互间进行转换,大多数据格式均难以做到相互转换,其中每种格式都被一种或几种软件所垄断,甚至同一个产品的不同版本间都不能实现格式的完全兼容。

(2)背景的系统匹配性

物理文件的背景构成中,其涉及计算机的硬件环境、软件环境及编码规则等许多方面,但是对具体的物理文件而言,其所涉及的硬件环境、软件环境及编码规则必须是构成一个能够生成、或操作、或处理物理文件的一个完整的系统,而不是这些环境的随意叠加与拼凑,也就是说物理文件的背景必须与物理文件相匹配,否则,与物理文件不相匹配的硬件环境、软件环境及编码规则就不能构成物理文件的背景。

(3)基于电子文件生命周期维度的特性分析

电子文件的生命周期,规范的描述最早是在国际档案理事会电子文件委员会1997年出版的标准文献——《电子文件管理指南》中,在这指南中,其将电子文件的生命周期描述为“概念设计阶段、创建阶段、管理(包括保存及使用)阶段”这样三个阶段,电子文件的生命周期这样的表述,在国际档案理事会2004年维也纳召开的第十五次国际档案大会上发布并于2005年正式出版的标准文献——《电子文件:档案工作者指南》7中又得到了再一次的确认。由此,我们可以看出,电子文件从流程上其前端已在原纸张文件“创建阶段”的基础上向前推进至“概念设计”阶段。

在电子文件整个生命周期中,其逻辑文件与物理文件以及其各个构成部分始终是作为一个整体存在的,因此,相应于电子文件生命周期的三个阶段又出现了概念阶段的电子文件、创建阶段的电子文件与管理阶段的电子文件。如图所示:

图8 生命周期各个阶段上的电子文件

从图8可以看出,电子文件在其生命周期的各个阶段上,在空间上,即在电子文件的层次和构成上,都必须保证达到真实性、可靠性、完整性和可利用性的要求,才能进而保证电子文件的凭证性。如下图所示:

图9 电子文件在生命周期各个阶段上与在空间上电子文件层次与构成的关系

从图9可以看出,在生命周期各个阶段上的电子文件特性其本质所反映的是时间上的电子文件所经历的各个阶段的特性,因此,在每一个阶段,都要确保电子文件在其空间维度上所应具有的整体性,并保证其具有凭证价值,但很显然每个阶段又具有不同于其他各阶段的特性。这些特性就是:

(1)电子文件前端控制的捕获性

所谓捕获,刚开始出现时是对电子文件进行前端控制的一种形象的说法,但是,现在已成电子文件现代管理中的一个专门术语,有其特定的含义,即指对当电子文件一经创建,就立即对其电子文件进行登记,确定其所属的类别,封装元数据并将其存储于电子文件管理系统的过程。在各种业务过程中生成或接收到的电子文件时,即被捕获进入了电子文件管理系统时就成为电子文件。电子文件前端控制的捕获性具体具有如下重要的意义:

1)在对电子文件进行捕获时,首先需要对捕获对象进行选择,即决定哪些电子文件应该被捕获,于是就涉及电子文件的鉴定,也就说要对电子文件是否具保存价值进行鉴定,有保存价值的电子文件才对其进行捕获,这样电子文件鉴定的起始点就由原来传统的“后端”提前到了现代的“前端”。

2)当电子文件被捕获时,要对电子文件进行登记与分类时,实际上是在做对电子文件所进行的收集与整理的工作,这样传统的电子文件的收集与整理的起始点又由原来传统的“后端”提前到了现代的“前端”。

3)在捕获电子文件时,要对电子文件进行元数据封装,元数据最一般的理解就是类似于传统档案著录中的著录信息,这样在对电子文件进行元数据封装时,实际上也就是电子文件的著录也由原来传统的“后端”提前到了现代的“前端”。

4)从更广的范围上看,电子文件的前端控制的捕获性,其应该具有什么样的捕获功能以及如何实现这些捕获功能,这又取决于电子文件管理系统的对电子文件管理的设计规定,所以从这个意义上说,电子文件其前端控制管理又起始于电子文件的生命周期的概念设计阶段。因此,没有电子文件的捕获功能,就没有电子文件的前端控制管理。

(2)电子文件数据后端的易流失性

在纸张文件的整个流程中,保管纸张文件意味着将其物理载体保管在最可能好的条件下以避免其损坏。但是电子文件在其整个管理阶阶段,虽然也必须将电子文件载体放在最可能好的条件下进行保管,但是就目前而言,不管如何好的保管条件,电子文件的数据在相当短的时间内(约30年,主要取决于载体类型)就会流失。此外,计算机技术发展的摩尔定律表明计算机技术将继续按这一规律迅速发展,如英特尔新一代45纳米技术已在2007年下半年投入生产。这一45纳米的产品,仅有300mm2大小,却能够达到每秒万亿次浮点计算的性能。与此相比,11年前,英特尔开发出世界上第一台每秒万亿次浮点运算的超级计算机,而它却是由近一万个“奔腾Pro”处理器驱动,装在超过85个大柜子里,占地约2000平方英尺的庞然大物[8]。因此,计算机技术的飞速发展又造成了电子文件原有的技术背景发生变化,使在原有技术背景中生成的物理文件无法在新的技术背景中被读取与识别,由于技术背景的变化,物理文件为适应新的环境就要进行转换与迁移,而在进行转换与迁移中,数据流失的可能性也就增大。

(3)电子文件后端原生性判断的困难性

原生性是档案的本质属性,但是电子文件在其整个生命周期过程中,电子计算机软硬件技术的不断更新换代,迫使电子文件必须不断地适应新的“生存环境”,因此,电子文件很可能与最初形成的大不相同。同时,电子文件由于各种使用与管理上的因素,被不断转换与迁移,以至于到后来就难以区别哪个是“原件”,哪个是“复制件”,而但电子文件又确确实实是具有原生性的文件,这就给电子文件原生性的判断与认定带来了困难。

标签:;  ;  ;  ;  ;  ;  ;  ;  

对电子文件特点的科学认识_逻辑结构论文
下载Doc文档

猜你喜欢