论网络信息组织_数字图书馆论文

论网络信息组织,本文主要内容关键词为:组织论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G202 [文献标识码]A

[文章编号]1003-2797(2002)03-0002-04

1 网络信息组织的方式

网络信息的组织方式,一般可分为网络一次信息组织、网络二次信息组织和网络三次信息组织三种。

1.1 网络一次信息的组织

网络一次信息是指因特网上存在的没有被加工的原始信息,包括WWW信息、电子邮件信息、FTP信息、Telnet信息、USENET/Newsgroups信息、Gopher信息、WAIS信息及各种数据库。其组织方法及主要特征如下:

(1)WWW信息的组织。WWW 信息依靠超级链接将信息单元按其之间的内在联系组织成一个有机统一体,它表现为网状的非线性结构。WWW信息组织的创作工具是指各种网页制作软件。常用的有FRONTPAGE、PAGEMAKER、COMPOSER、ASP和多媒体制作工具AUTHORWARE等。优点是快速、方便,缺点是缺乏灵活性,难以制作出特殊需要的网页。WWW信息组织的语言工具正好弥补了其创作工具的不足,可充分运用各种编程技术对网页信息进行更精确的组织,并可实现网页信息的动态组织。常用的语言工具有HTML、XML、JAVASCRIPT、VBSCRIPT等。

(2)电子邮件信息的组织。就其组织的文件方式来讲,有HTML、 HTM及EML格式;就其内容组织而言,一封标准的电子邮件信息由信头、正文和附件三部分组成。

(3)FTP信息的组织。由于FTP 所传输的文件可以是任何类型(目前主要是程序软件和多媒体文件),因而其信息的组织方式取决于所存储的文件类型。

(4)Telnet信息的组织。这类信息的组织方式一般是数据库方式。

(5)USENET/Newsgroups信息的组织。 这类信息也称新闻组或电子论坛信息,其组织方式一般为网页方式。

(6)Gopher信息的组织。Gopher 服务站将网上的信息组织成联机的菜单系统,其组织方式是树形结构的菜单分类索引。

(7)WAIS信息的组织。WAIS 是用户查询因特网上各类数据库的一个通用接口,利用它可获得因特网上的有关信息。从本质上讲,WAIS不是一种信息。

(8)数据库。因特网上有大量的数据库,有些是免费的, 搜索引擎可对其索引。但有相当一部分是商业性的,搜索引擎无法对其索引,如数字图书馆中的一次和二次信息数据库等。

1.2 网络二次信息的组织

所谓网络二次信息组织,是对上述八大类型的网络一次信息进行再次组织而构建的各种检索工具。根据因特网的现状,这些工具有搜索引擎、面向公众服务的数字图书馆、虚拟图书馆和个人数字图书馆等。

(1)搜索引擎。 这是因特网上出现最早的网络二次信息组织的工具。从其构建过程来看,其信息组织的主要特征有:①关键词自动标引法。其特点有四:一是自动标引,由程序自动实现;二是标引素材的特殊性,均为带标记的网页,而不是传统的纯文本;三是标引算法的复杂性,由于网页制作者的目的和制作方法不同,使得采用标记符号来赋予权值更为复杂;四是准确度较低。②人工分类方法。大多数搜索引擎都有分类索引库供用户分类检索之用,由于分类索引库一般由人工建立,其规模要远远小于关键词索引库,但其检准率要大大高于关键词检索。③数据库方法。搜索引擎中将元数据均以数据库的方式进行组织。有些大型数据库,为了提高检索速度,还采用多级索引的结构。

(2)面向公众服务的数字图书馆。 数字图书馆是因特网发展到一定阶段的产物,其信息组织的主要特征有:①信息存储的分布式。数字图书馆的信息资源存储在不同的数据服务器上,借助于分布式数据库技术、通讯技术和计算机网络技术,使得信息传播不受空间位置的限制。②信息组织的非线形。数字图书馆将信息组织为一个网状结构,信息节点之间互相链接和调用。③信息组织结构的特殊性。数字图书馆中的信息组织结构由指针、元数据和数据组成。指针是在网上对数字化信息进行存取的唯一标识,目前有URNs和PURL两种。元数据是用来描述数据本身的内容特征和其他特征的数据,对应于传统图书馆中各种目录卡片和自动化图书馆中的MARC。数据则是数字图书馆的信息实体。④采用人工主题词标引方法和人工分类方法。

(3)虚拟图书馆。 有学者认为:“虚拟图书馆是因特网上组织信息资源的一种有效而又经济的形式。具体说来,虚拟图书馆就是根据特定的目标,选定信息资源的学科领域,对有关的网站网页进行搜索和收集,加以鉴定核实,并对核实后的网址进行合理组织,使之能够提供检索、浏览和链接的信息集合。”[1 ]其信息组织的主要特征有:①学科专业性或专题性。目前因特网上存在的数以万计的虚拟图书馆大都是学科专业性的或专题性的,这是与综合性的一般搜索引擎和面向公众服务的数字图书馆的主要区别之一。②采用人工关键词标引法。虚拟图书馆中对搜集来的网页网站大都进行人工关键词标引,其标引质量较高。③采用自动或/和人工分类方法。虚拟图书馆中对收集来的网页网站,按照学科专业或专题的各个学科分支及方面进行聚类,这种聚类可由人工进行,也可自动实现。④采用数据库方法。在虚拟图书馆中,顺排档和各种倒排档是以数据库的方式存储的。⑤采用超级链接。与一般的搜索引擎一样,在检索结果中可通过记录中的URL 字段调出原始的网页网站。

(4)个人数字图书馆。 有学者认为:“个人数字图书馆是数字图书馆的一种类型。它是最贴近用户个性化需求的数字图书馆。可以说,个人数字图书馆就是‘e’时代的私人藏书楼。”[2]在目前的因特网上,用于构建个人数字图书馆的软件大都是全文数据库的管理软件。其信息组织的主要特征有:①采用数据库方式。个人数字图书馆中对采集来的因特网上的信息和个人自产的数字信息,大都以数据库的方式进行组织。②采用文件夹方式。③进行独立存库。信息一旦导入后,便脱离原文件而独立存储在个人数字图书馆中。④采用索引方式。对导入的文件和抓取的网页自动建立索引。

1.3 网络三次信息的组织

到目前为止,网络信息的三次组织工具只有元搜索引擎。元搜索引擎的主要功能,是将用户查找要求递交给其他搜索引擎,并过滤从其他搜索引擎传递来的检索结果,包括消除重复信息等。元搜索引擎设计简单,但网络的负载太大。

2 网络二次信息组织工具的比较研究

网络二次信息组织工具在构建目的、信息组织方法、服务对象等方面既有相同的地方,也有很多不同之处,现列表比较(见下页)。

3 网络二次信息组织的发展趋势

(1)搜索引擎中加入联机数据库和数字化馆藏信息数据库。 目前,网络数据库很多,有的是免费的,有的是收费的。有很多网络数据库是以前联机和光盘数据库的网络版,大都经过图书情报工作人员的标引,检索效率较高,是因特网上非常宝贵的高质量信息资源。这类数据库应该对搜索引擎开放,允许被搜索引擎索引和检索。但当调出商业性数据库的全文信息时,系统要设置一个过滤,仅对通过身份验证的用户开放其全文信息。也可采用上述同样的方法,将目前数字图书馆中的数据库加入到搜索引擎中,这样可实现搜索引擎与面向公众服务的数字图书馆在一定程度上的联合。

网络二次信息组织工具比较表

(2)信息分类组织的自动化。在各种检索工具中, 分类检索是最有效的检索途径之一,其重要性与关键词检索或主题词检索可以平起平坐。但遗憾的是手工分类工作量太大,无法实现对收集到的所有网页进行分类,致使搜索引擎中的分类索引库要远远小于关键词索引库。对电子文本的自动分类研究已有三四十年的历史,对网页的自动分类研究也已有近十年的历史。随着计算机技术、人工智能技术、自然语言理解技术的发展,对电子文档和网站网页的自动分类将最终可以实现。到那时,这四种网络二次信息组织工具均可实现对所收集的电子文档自动分类。

(3)关键词检索、概念检索和分类检索一体化[4]。目前的搜索引擎和虚拟图书馆均提供关键词和分类两种检索途径,有的还提供概念检索。概念检索实际上就是在自然语言检索系统中加入后控词表以提高检索效率的一种检索方法。目前这三种检索都是单独建库、分别实施。因此,关键词检索、概念检索和分类检索的一体化,将是对现有网络二次信息组织工具的构建模式在更高层面上的改进。实现三种检索一体化的核心技术是编制关键词、概念词与类名的对应表,这将是一项规模较大的工程。该对应表不仅在搜索引擎、虚拟图书馆中有着广泛的用途,而且也将在面向公众服务的数字图书馆及个人数字图书馆的信息组织中起着重要作用。

(4)网络一次信息自动采集的质量控制。 目前的搜索引擎在采集网络一次信息时是自动进行的,大都采用一种称之为机器人的软件,这种软件不能辨别网络信息的质量。搜索引擎不仅收集到了质量较高的信息,而且也将垃圾信息和质量很低的信息纳入到了索引库中,这样不仅造成搜索引擎的负担过重,而且导致检准率严重下降。解决这个问题的关键,是将网上垃圾信息和质量很低的信息排除在搜索引擎的索引库之外。一种方法是改进现有的网络一次信息的搜索软件,使之具备识别网站网页质量的能力。但对网站网页质量的评价是一个难题。另一种方法是在现行的模式中加入一个人工甄别过程,即对搜索软件收集来的信息进行人工质量辨别后,仅对质量较高的信息再进行索引。这种方法的缺点是大大增加了成本,延迟了提供信息的时间,索引库的覆盖面也将大大缩小。

(5)虚拟图书馆中信息的自动收集和自动维护。 目前的虚拟图书馆对网页网站的收集大都是由人工进行的,这种方法的效率较低。实现自动收集是一个发展方向,但要解决两个难题:其一是对虚拟图书馆的学科专业或专题界定的描述,且这种描述要能被计算机自动识别。其二是网页网站与学科专业或专题界定的自动匹配,这种匹配的结果将决定某一网页网站是否可被该虚拟图书馆所收录。此外,虚拟图书馆的维护是一项长期的工作,目前的维护都是由人工进行的。发展方向是自动维护,但同样涉及到上述两个难题。

(6)个人数字图书馆将会有长足的发展[5]。个人数字图书馆有着广泛的需求。目前可用于构建个人数字图书馆的软件大都为免费的全文数据库管理软件,但这些软件在用于个人数字图书馆的构建时并非完美无缺。随着信息技术的发展,功能齐全的软件将会出现。有了广泛的需求,又有了可供管理的众多的电子信息,再加上功能完善的软件支持,个人数字图书馆的长足发展将是一个必然的趋势。

(7)网络信息语种间的自动翻译。 因特网中信息的语种除了常用的英语外,还涉及到现有的众多自然语言语种。目前,网络二次信息组织的现状是,绝大多数仅处理某一特定语种的网络信息,致使用户在检索网络信息时,为了提高检全率,需要采用多种检索工具对不同语种的网络信息进行检索。也有一些搜索引擎推出了不同语种的版本,但其收录的网络一次信息仍然是分别建库的。因此,要解决自动翻译问题。网络信息语种间的自动翻译应包括三个方面的含义:其一是检索工具收录信息的语种的多样性,其二是检索提问式中检索词的自动翻译,其三是检索结果显示中显示文本的自动翻译。这样不仅使检索工具覆盖多语种,扩大收录范围,提高检全率,而且也免去了众多网络用户的语言障碍。该功能的实现,将依赖于自然语言间自动翻译技术的完善。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

论网络信息组织_数字图书馆论文
下载Doc文档

猜你喜欢