数字图书馆与电子科学信息资源管理_数字图书馆论文

数字图书馆与电子科学信息资源管理_数字图书馆论文

数字图书馆与e-Science信息资源管理,本文主要内容关键词为:信息资源论文,数字图书馆论文,Science论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

e-Science概念的提出为未来研究高度协作与资源高度共享的“大科学”时代描绘了美丽蓝图。发展中的e-Science实践工作也正努力向着这一目标靠近。多样、复杂的信息资源的管理是e-Science得以发展的基础,也是e-Science目前面临的主要问题之一。

从1994年第一个数字图书馆项目——美国的数字图书馆先导计划(Digital Library Tnitiative,DLI)启动至今,数字图书馆的理论与实践已经历了10余年的发展和演变,在数字资源的组织与管理上积累了丰富的经验。本文试图将这些经验应用于e-Science复杂的信息资源的管理上,在促进e-Science发展的同时也为数字图书馆未来的发展提出新的要求和目标。

1 e-Science信息资源的特点

e-Science的构想就是,大规模的科学研究是通过以因特网为依托的分布式全球合作来逐渐实现。 e-Science将改变人们从事科学研究的方式和方法,为科研人员提供一个信息化的科学研究环境,极大地促进科学研究的发展,并有力地推动社会的信息化与进步。[1]在这样的科学研究大环境中,其信息资源呈现出以下特点:

1.1 高度共享性

科学研究中各种资源共享程度的极大提高是 e-Science的一个主要特点。[2]而这种共享包括了信息化环境中的各种资源,信息资源是这些资源中不可或缺的一部分。e-Science信息资源的共享是基于网络的,克服了时间和空间的障碍,并能够最大限度地发挥效率。

1.2 高度开放性

e-Science信息资源的开放性主要表现在以下两个方面:第一,信息资源对科研人员的开放性,科研人员不仅是信息资源的使用者,更是信息资源的生产者和维护者。e-Science环境下科研人员可以随时随地向系统提供最新的研究进展、更新原有的实验数据、删除当前被认为是错误的内容。第二,信息资源对e- Science环境下的其他资源如计算资源、实验数据、仪器设备的开放性,即具体科研人员得到的是经过整合的资源。

1.3 高度分布性

在e-Science的环境中,科学研究活动本身就是分布的。相互协作的科学家、各种计算资源、设备等都分布在全球各地,信息资源更是以分布的形式存在。

2 数字图书馆与e-Science信息资源的比较

2.1 信息的来源

从与科学研究的关系上看,数字图书馆的信息主要来自科学研究的结果。通常科学研究成果在正式发表后经文献机构收藏,从而成为数字图书馆资源的重要组成部分。

e-Science环境中的信息则源于科学研究的全过程。在e-Science环境下,研究人员共享的不仅是学术研究的最终结果,还有整个研究过程。他们不仅与同伴共同分享研究的内容,还允许添加注释,共同研究进行下一步的工作。[3]而在这些活动中会产生出大规模的复杂的信息资源,而这些信息都是e-Science应该组织和管理的对象。

2.2 信息的类型

从资源上看,当前的数字图书馆还保留着现实图书馆的深深烙印。数字图书馆内的信息资源多为比较正式的信息,特别是以期刊、图书、会议录、学位论文等为主。

而e-Science环境下除了会产生多种正式的信息资源外,还会有大量的附加类型的信息单元,如原始数据、模拟、非正式研究成果、注释等等。这些信息并非成型的研究成果,学术上不成熟、形式上不正式、内容上不完善,但对于促进科学合作和科学发展来说,其作用同样重要。

2.3 信息的服务对象

服务于科学研究工作,是数字图书馆的主要工作目标。越来越多的机构建立数字图书馆就是为了能让他们的科学家和学生方便、容易、快速地获取学术资料,促进学术工作。数字图书馆已经成为这些用户日常工作必不可少的工具。[4]

e-Science中的信息资源也是服务于科研工作的。其发展热潮的出现,根源就在于数代科研人员一直追求的大科学梦想。e-Science是关键科学领域的全球化合作以及支持这一过程的下一代基础设施,[5]而信息资源就是这一基础设施的重要组成部分。

2.4 信息的专业范围

数字图书馆的建设需要有特定的用户群。数字图书馆是根据用户的需要收集、整理、加工信息以提供用户使用的。但由于其用户群一般都比较广泛,数字图书馆收录的信息资源也相对宽泛。或者是面对全社会的科学技术研究,或者是面向某几个专业领域。如 CSDL(中国科学院国家科学数字图书馆)就是面向中国科学院全院网络共享的科技信息保障环境,其内容涉及数学、物理、化学、生命科学、资源环境、工程技术等。[6]科研工作者在数字图书馆中查找信息的时候,还不得不面对大量的与自身研究无关的信息内容,需要在其中艰难地搜索。

从学科专业角度看,e-Science环境下的信息资源依然是涉及多学科的。跨学科、跨领域的资源共享和协同工作是e-Science发展的意义所在。[7]但对于 e-Science环境下具体的某一项目研究来说,系统可以只将与具体研究内容相关的信息提供给项目组的研究人员,而不需要每个人都在海量的信息中搜索,避免重复劳动,加速科学研究的进程。

2.5 信息的形态

数字图书馆内的信息是静态的。数字图书馆中的资源是一次加工多次使用,以一次著录满足用户的万变需求。[8]一旦将收录的信息加工好并存储,其文献集中便不会有什么变化,不同的时间,对于不同的用户提供的这部分内容都是相同的。

而e-Science支持的虚拟研究组织(virtual research organization)需要通过动态使用现有资源为合作、共享和开发数据创建强有力的环境。在e-Science环境下,用户可以将自己的研究内容,包括实验数据、课题进展、初步研究结果等内容提交到信息系统中,还可以对这些信息进行修改、更新和删除等操作,整个系统的信息是动态的。

2.6 信息组织的核心技术

数字图书馆信息组织的核心技术是元数据,元数据的应用在图书馆界尤其是关注的焦点。目前图书馆界主要从两个角度来定义元数据:一是强调结构化的数据。元数据是关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。二是突出其功能。元数据是用于描述信息资源或数据本身的特征和属性的数据,是用来规定数字化信息的组织的一种数据结构标准,具有定位、发现、证明、评价、选择等功能。[9]

e-Science的实现需要大量的新技术,其中最具代表性的就是网格技术。正是通过网格才有可能将 e-Science所需的众多技术与资源,如分布式计算技术、网络安全技术、协同工作技术、资源管理技术等等集成一体,构成并实现了e-Science。[10]网格技术将打破信息资源原有的信息“孤岛”局面,有一定关系(包括语义和逻辑)的数据从逻辑上连接在一起,在不考虑安全限制的前提下,从一个信息源可以到达连通的其他任何信息源。虽然这些信息可能存储在不同的位置,但对访问者来说,它们就像是存储在同一位置,访问者不必关心它们的实际存储位置。[11]

2.7 与其他资源的关系

对科学研究来说,除了信息资源以外,计算资源、数据资源、网络通信资源以及科学仪器仪表设备资源都是必不可少的部分。

数字图书馆内的信息资源是封闭的、独立的,数字图书馆并不为其中的信息资源建立与上述各种资源的关联,提供给用户的也只是单纯的信息。用户需要根据自身的研究要求分别对这些资源进行挑选、整合、使用。

而e-Science要求的则不只是各种资源的共享,更要求这些资源的整合,特别是数据资源与信息资源的整合。数据资源是e-Science中的灵魂,往往也是最难得的资源。大量宝贵的数据不仅是许多科研活动的基础,往往也是科研的成果体现。随着数字化手段在科研中的应用越来越多,科研活动中产生出海量的数据资源,这些数据资源构成了e-Science中的一个重要组成部分。[12]对于e-Science环境下的科研人员来说,所有这些资源应被整合在同一个平台上,能够为他们方便地获取和使用。

2.8 比较分析小结

经过以上几个方面的比较分析可以得出以下内容:

(1)对科学研究来说,数字图书馆中的信息只是 e-Science需要组织的信息的一部分。因此,有必要将这部分信息的组织经验和技术,甚至使原有的一些系统仍在e-Science环境下应用,避免重复建设和开发。

(2)e-Science环境下需要将数字图书馆中的正式的信息与科学研究过程中产生的多种非正式信息结合起来,对于e-Science下的科学研究来说它们具有同等重要的地位。

(3)需要改变数字图书馆原有的静态管理方式,要紧密结合整个科学研究过程,对信息资源进行动态的管理。

(4)建立数字图书馆信息资源与e-Science环境下其他资源如计算资源、数据资源、设备资源等的关联,促进多种资源的整合。

3 数字图书馆在e-Science信息资源管理上的延续

3.1 元数据的应用及开发

元数据是数字图书馆信息组织的核心技术。目前已经开发出多种应用于不同领域的元数据方案以及提供了不同种元数据的关联,元数据开发技术已基本成熟。e-Science环境下的信息组织仍需要元数据,但原有的元数据方案已经不能满足研究人员高度专业化的需要和特定领域信息组织的需要。因此,关键是要开发出能支持多领域的元数据方案。另外,对于e- Science环境下产生的多种非正式信息,如原始数据、模拟、非正式研究成果、注释等等也将成为元数据管理与描述的对象,这就不仅要开发出针对这些信息组织的元数据,还要对日益复杂的元数据系统进行管理。

3.2 数据库集成管理——从传统数据库到网格数据库[13]

在e-Science出现之前,各类数据库基本都由各家数字图书馆单独进行管理。在e-Science出现后,为了提供联合服务,多数数字图书馆会依托网格技术建立可供网格技术进行全局调度的数据库,这就是网格数据库,而将多个网格数据库联合起来共同提供服务则是网格数据库的集成。它将提供一个平台,支持系统化的身份鉴别和授权、资源发现、数据传输、进程创建和调度以及跨异构平台的动态绑定,进而构造安全可靠具有自主计算能力的高性能网格数据库资源系统。

目前有三种网格数据库集成策略:

(1)虚拟数据库。虚拟数据库只有一个数据库模式,用户不会觉察到多个独立的数据库存在。

(2)定制集成。即由应用程序完成数据库集成。例如在科学应用程序中,开发人员找到相关数据源,然后将集成任务划分为查询、执行程序、中间数据源的构建、传输和数据变换,以及存储等等。

(3)增量集成。虚拟数据库是一个理想目标,定制集成又过于注重细节,增量集成居于二者之间。在增量集成中,开发人员无须完成集成的每一个细节,高级的数据存取和集成组建可以自动完成一些后期的集成步骤。

3.3 从信息提供到知识服务

数字图书馆提供给用户的还只是信息资源本身,而e-Science将要提供给科研人员的将是文献、信息等资源中蕴含的知识、概念、信息元之间的关系等深层次的对象。因此,需要深化数字图书馆的信息资源的开发,扩展信息资源与e-Science中其他资源的关联,变信息提供为知识服务。具体包括两个方面的内容:[14]

知识提供服务。包括:①直接知识提供,即按照科研人员的需求,从大量原始资源中挖掘、萃取知识,代替科研人员完成一部分知识准备和预研工作。②间接知识提供,即对资源进行分解、链接,形成知识元,向用户提供知识元及其链接、组织方法,使用户可以按照自己的需求动态生成知识。简言之,知识提供服务是利用我们能够获取的各种资源为用户提供服务。

知识积累与交流服务。e-Science环境中,科研活动将面向问题和任务形成跨地区、跨行业、跨机构的虚拟组织,这种目标团队的广泛性、虚拟性、动态性、临时性将使其产生的知识和诀窍比以往更难以保存、传递和再利用。因此,需要通过开放获取等方式拓宽交流渠道,帮助科研人员捕获在科研过程中产生的各种隐性知识并使之显性化,规范并加速知识的发布和传播,实现隐性知识的转化、积累和再利用。这种服务是利用我们所掌握的各种知识组织和管理技能,以用户在知识创造过程中生产的知识作为资源为用户服务。

收稿日期:2007-07-09

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆与电子科学信息资源管理_数字图书馆论文
下载Doc文档

猜你喜欢