网络信息资源组织模式分析_元数据论文

网络信息资源组织模式分析_元数据论文

网络信息资源组织方式探析,本文主要内容关键词为:探析论文,信息资源论文,组织论文,方式论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络信息环境下,信息资源多以数据库、信息库的形式存在,数字化信息占主导地位,信息资源组织的对象逐渐多样化,范围也随之扩大。我们不能再停留在对文献特征的描述,而应深入到对知识单元、信息单元的揭示。这一背景给人类的信息交流和利用提出了两个问题:其一,知识和信息的海量性和无限性与人类的精力的有限性形成尖锐的矛盾;其二,知识和信息的无序性和污染性与人类使用的选择性形成了尖锐的对立。解决这一问题的根本方法就是对信息资源进行有效的组织。信息组织,即信息序化或信息整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容的描述和序化,实现无序信息向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。信息组织是一个信息增值过程,在这个过程中,杂乱无章的原始信息变成了一个有序精良的信息系统,一个相对“粗放”型的信息贫集转化为一个“集约”型的信息富集,并为信息的进一步增值和利用打下了基础。网络信息资源组织即为网络信息资源提供有序化的结构,使之成为一个有机化的整体,以便于对网络信息资源的存取和利用。

1 现行网络信息资源组织方式评析

网络信息资源是指通过计算机网络可以传输、组织、利用和编目的各种信息资源的总和。按其加工方式分为一次网络信息资源和二次网络信息资源。一次网络信息资源是指网上传输的原始信息资源,是未经过加工处理的第一手信息资源。二次网络信息资源是指将一次网络信息资源进行描述、揭示、分析和存储后,形成了有序化、系统化的网络信息资源。所以对它们的组织方式我们也分成两类来介绍:

1.1 一次网络信息资源的组织方式

(1)文件方式。以文件系统来管理和组织网络信息资源简单方便。如FIP文件传输协议就是用来帮助用户利用那些以文件形式保存和组织的信息资源,这些信息资源可以是程序、图形、图像、音频、视频等非结构化信息。但是文件方式对结构化信息的管理则显得力不从心,文件系统只涉及信息的简单逻辑结构,当信息结构较为复杂时就难以实现有效的控制和管理。因此文件只能是网络信息资源管理辅助形式,或者是作为信息单位成为其它信息组织方式的管理对象。

(2)超文本方式。超文本是一种管理文本的技术,是网络信息资源组织的基础,它将文本信息存储在许多节点上,用链接将这些节点连成网状结构。逻辑上,节点便是信息单元、片段,链表示节点之间的关系。超文本技术的特征是信息的非线性排列,它以结点为基本单位,结点间以链接点相连,将信息组织为某种网状结构。使用户可以从任一结点开始,根据网络中信息间的链接,从不同角度浏览和查询信息。超文本组织方法所提供的顺序性的浏览功能,比传统的信息组织方式更加灵活方便,且符合人们的联想思维方式。超文本技术的另一大特征是信息表达形式的多样性。除了文本之间的链接外,图像、声音、视频、电影、动画等多媒体信息逐步进入超文本中,使得超文本扩展为超媒体。因此,超媒体是将超文本和多媒体有机地结合在一起形成的一个复杂的万维网系统。

(3)自由文本方式。该方法主要用于全文数据的信息组织,是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织,无需前控,不必用规范化语言对信息进行复杂的前处理。它不是对文献特征的格式化描述,而是用自然语言深入揭示全文数据的信息单元、知识单元,根据全文数据的自然状况直接设置检索点。它能够完整地反映出一次文献的全貌,通过计算机自动进行全文信息处理和组织。基于全数据库的全文检索可以将任意字符作为检索标识,这样,用户用自然语言即可直接检索未经标引的一次文献。

(4)数据库方式。即将所有获得的信息资源按照固定的记录格式存储组织,用户通过关键词及组配查询就可以找到所需的信息线索,再通过信息线索找到相应的网络信息资源。利用数据库技术进行网络信息资源的管理具有强大的优势:能高速处理大量结构化的数据,从而大大提高了信息管理的效率;数据库以信息项作为数据的最小单位,可根据用户需求灵活地改变查询结果集的大小,从而大大降低网络数据传输的负载。但数据库方式也存在不足之处:对非结构化信息的处理困难较大;不能提供数据信息之间的知识关联;无法有效处理结构日益复杂的信息单位;缺乏直观性和人机交互性。

(5)主页方式。它类似于档案全宗的组织方式,它将有关某机构或个人的各种信息集中组织在一起,是对某机构或人物等各类对象的全面介绍。

1.2 二次网络信息资源的组织方式

(1)搜索引擎方式。搜索引擎是指Internet上专门提供查询服务的一类网站,它利用被称作Robot、Spider、Worm等名称的自动代理软件(又称网络搜索机器人),定期或不定期地在网上爬行,通过访问网络中公开区域的每一个站点,对网络信息资源进行收集,经过加工处理而建库,然后利用索引软件对收集的信息进行自动标引,创建一个详尽的可供用户进一步按关键词查询的Web页索引数据库。这种数据库的内容一般有标题、摘要、简短描述、关键词、URL地址、文件大小、语种以及词出现的频率和位置。搜索引擎方法是目前Internet上对二次信息进行组织的主要方式之一,当今网上有成百上千种这类搜索引擎,较著名的有Alta、Vista、Opentext、Excite、Webcrawler、Lycos等。用搜索引擎方式组织网络信息资源,亦是优势与不足并存。它可以向用户展示立体、多维的网络信息空间,这一点是无与伦比的;不过也存在不少问题,如同一资源重复出现、结果显示过于简单、资源命名方式不统一和组织资源变化频繁等。此种方式所收集的信息虽然在一定历史条件下广博,但良莠不齐,因而查准率低。

(2)主题指南方式。主题指南是一种可供检索和查询的等级式主题目录。以超文本链接的方式将不同学科、专业、行业和区域的信息按照某种事先确定的概念体系(分类或主题目录)分门别类地逐层加以组织。这些主题目录一般在大类目下分成若干小类目,类目之间按照等级系统排列,形成一个树型结构,因此又叫“目录树”。然后将人工或巡视软件搜集的网址、主页与主题链接起来,用户通过主题指南中链接的指引,逐层浏览,直到找到他所需要的信息线索,再通过信息线索连接到相应的网络信息资源。网上许多著名的网络检索工具如Yahoo、Sohu等都是采用这种方式组织信息资源。利用主题指南方式组织信息资源的优点主要有:①主题指南屏闭了网络信息资源系统相对于用户的复杂性,提供了一个基于主题树浏览的简单、易用的网络信息资源检索与利用界面。②信息检索由用户按照规定的范畴分类体系,逐级查看,按图索骥,目的性强,查准率高。③采用树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性。

当然,该方法也存在一些缺点,其中最突出的一点就是必须事先建立一套完整的主题范畴体系。另外,为了保证“主题树”的可用性和结构的清晰性,范畴体系的类目不宜过多,每一类目下的信息索引条目也不宜过多,这就大大限制了一个“主题树”体系所能容纳的信息资源数量。

(3)元数据(metadata)方式。鉴于上述几种组织方式都未能较好地解决网络信息资源的组织问题。一种全新的信息资源描述工具“元数据”(metadata)方式开始越来越引起了大家的注意,并已经在网络信息资源组织中发挥明显的优势。说它是全新的,是指它在组织网络信息资源上具有的新功能、新模式、新特点;其实就其内涵而言,元数据早已存在。图书馆的书目就是一种元数据。只是没有使用“元数据”这个名称而已。

“元数据”是关于数据的数据(data about data),是描述和限定其它数据的数据(data that describes data)。这个术语逐渐发展成为指代用于帮助识别、描述和定位网络信息资源的任意数据。元数据往往被用于描述关于资源的信息,提供资源的索引或指南。它可以作为标题存在于资源中,或通过其它方式与资源链接。它为用户提供一个发现资源是否存在和资源如何被得到或存取的方式。元数据可包含许多方面的因素,诸如主题内容、制作者、出版商、质量、结构、历史、存放地点、存取权和限制、与其它作品或特殊读者之间的关系等。能够比较全而地反映所描述的信息的各方面情况,立足于知识单元的挖掘。不象前几种方式那样只立足于信息表面特征的描述。不同类型的元数据有各自不同的描述框架。当前常见的元数据类型有MARC、GILS、TEI、FGDC、DC、IAFA等。

在网络信息资源组织中,元数据所发挥的作用主要体现在以下几个方面:①定位:提供有关所需资源的储存位置的信息。②探索:提供有关如何找到所需资源的信息。③文件记录:描述并记录文件的性质与内涵。④评估:协助使用者判断资源对其之价值。⑤选择:帮助信息用户决定是否取用该资源。

此外,元数据在网络信息资源检索方面也起着至关重要的作用:①管理大量低网络带宽的数据。②支持有效的网络信息资源的发现和检索。③分享和集成异构的信息资源。④控制限定检索的信息资源。

然而,由于元数据发展还不成熟,处在刚刚起步的阶段。它们虽然能达到一定的查准率,但在数据加工标引工作上费时费力,并且需要专业人员从事,因此对于充斥网上的海量信息还有心无力。还不能全面解决当今“信息爆炸”时代如何有效组织利用信息资源的棘手问题。

2 未来网络信息资源组织方式探析

从以上对现行网络信息资源组织方式的分析,我们发现至此还没有任何一种信息组织方式能充分满足网络信息资源组织的客观需要,真正解决网上信息的海量性和无序性问题。但是,通过上述一系列的分析论述,我们似乎看到了网络信息资源组织方式的未来发展走向。那就是数据库、元数据、超媒体技术的结合,即以数据库为基础,以超媒体为链接方式,以元数据为导航系统,构建一个数字化的多媒体信息集。达到对网络信息资源的充分有效的组织。它们的结合将是网络信息资源组织技术的发展趋势。具体结合方法如下:

(1)给数据库及数据库内的网络信息资源编制元数据,给数据库作全而描述,作为数据库检索利用的导航系统,并尽量提供全方位的检索入口。

(2)把经过元数据描述的数据库作为超媒体系统上的一个独立的节点,以元数据为导航系统,由特殊的链接(某种转换机制)将数据库节点和其他超媒体节点相联。超媒体系统的其他节点若要访问数据库中的信息,需将访问请求转换成数据库的查询语言,其结果也需要转换成超媒体所规定的格式。当前WWW与数据库的联接大多采用此方法。

(3)给数据库附加链接服务。这种方式是将数据库模式存贮的数据信息资源根据需要重新组合,构造成超媒体的虚拟节点,在此基础上根据信息之间的内存联系建立节点间的链接。这样,超媒体系统就能够以更自然的方式与数据库中的信息建立链接,而不再需要特殊的转换机制。

(4)建立超媒体结构的数据库系统。这是一种全新的方法,以超媒体模型代替传统的关系模型或面向对象模型来构造数据库系统。超媒体模型是采用超文本技术组织多媒体信息的数据模型,以此模型为基础建立数据库系统,可以充分体现各种类型媒体数据之间的自然联系,从根本上克服超媒体系统与数据库系统在结构和功能上的差异。

收稿日期:2003-03-26

标签:;  ;  ;  ;  ;  ;  

网络信息资源组织模式分析_元数据论文
下载Doc文档

猜你喜欢