元数据在数字图书馆中的应用_数字图书馆论文

元数据在数字图书馆中的应用_数字图书馆论文

元数据在数字图书馆中的应用,本文主要内容关键词为:数字图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆的收藏(collection)数量庞大、种类繁多,既有普通的电子文本,也有图像、声音、软件、网页,甚至拓片、时装、建筑、家具等各类特藏,要做到综合有效地利用这些收藏必须依靠元数据。元数据,简单地说就是描述数据的数据。它能帮助数字图书馆的设计者和管理者更好地管理数据,能帮助用户更好地利用数据。

1 元数据在数字图书馆中的应用

1.1 用于信息资源的组织与检索

要能有效地利用数字图书馆的数字收藏(digital collection),必须对其进行著录和标引,得到揭示其内外部特征的元数据,科学地将其组织起来, 以便用户快速、 准确地找到所需信息。 除了传统的USMARC格式外,目前用来进行网上数字资源著录和标引的元数据格式还有都柏林核心数据(Dublin

Core )、 VRA 核心类目(VRA

CoreCategory)、艺术作品著录类目(Categories for the Descriptionof Works of Arts,CDWA)、REACH著录单元集合(REACH element set)等。这几种元数据格式有各自的优势,也有不足。USMARC格式较适用于纸型出版物、图像、缩微资料、视听资料、 软件、 数据库等; VRACore、 CDWA、REACH著录单元集合则更适用于美术作品、拓片、瓷器、陶器、家具、服装、建筑等三维实体;Dubin Core则介乎它们之间,对于一些计算机软件、数据库等较适用。在实际工作中可根据具体情况采用其中一种或几种。

在网络信息环境中,用来进行信息检索的主要工具是搜索引擎,而搜索引擎性能的高低与信息著录和标引的科学性是密切相关的。信息的元数据中包含了搜索引擎可以查询的属性信息,将这些属性生成索引的规则以及系统可以接受的查询类型等,有了元数据的帮助,搜索引擎才能快速准确地检索到所需的信息。

1.2 作为设计与维护数据库的工具

在进行数字图书馆的数据库设计时,设计人员须查看每个可能成为数据来源的系统的物理结构、逻辑模型和业务规则等,这个过程就是元数据的搜集过程。将这些包含有来源系统有关信息的元数据记录下来并编成文档,对于设计与维护数据库是有很大帮助的。一方面,它可供设计者随时查阅;另一方面,它还有利于数据库的管理者掌握数据库的全貌以及数据的变更情况,有利于提高数据的完整性和准确性。

1.3 作为用户使用数字图书馆的向导

数字图书馆在其网页上提供馆藏资源的介绍是必要的,它有利于用户了解该馆的收藏范围与主要特色。但是,简单介绍有哪些数据库或光盘可供检索是不够的,因为它不足以让用户了解从数据库或光盘中他们究竟能得到什么信息以及该如何正确解释他们所找到的信息。因此有必要将描述数据库的元数据公布出来,以帮助用户更加深入地了解馆藏并制定出更加科学的检索策略。同时,数字图书馆还应该注意收集信息的使用情况及有价值的检索策略,并将这些元数据提供给用户,使用户不必费时间去弄清如何编制一个新的检索策略,而只要检索出一个能满足他要求的已有策略并执行它即可(或只对其作简单的修改)。这类元数据将大大提高数字图书馆的用户友好程度,节约用户的时间。

2 元数据的收集

2.1 收藏元数据(collection metadata)

如果我们把数字图书馆所拥有的信息资源统一称作收藏(collection),那些对这些信息资源进行著录和标引所得到的元数据便是收藏元数据(collection metadata)。收藏元数据有4点作用:第一是能把收藏注册到检索软件和客户软件中去,使用户能找到它;第二是能将有关收藏的信息提供给网上检索代理,使收藏并入网络信息资源之中;第三是便于用户了解该收藏的有关情况;第四是便于管理收藏。可以说,收藏元数据是打开数字图书馆知识宝库的钥匙,它将不同类型的收藏规范化并统一起来,使其能同时用于计算机处理和手工操作。

广义地讲, 收藏元数据可分为两类:内部(特征)元数据(inherent metadata)和外部(特征)元数据(contextual metadata)。内部(特征)元数据应包括收藏的时间跨度(temporal coverage )、收藏中各个单元的类型和类型的编号、各单元的格式和格式的编号,以及元数据内容的示例等信息。外部(特征)元数据应包括收藏题名、责任者、所属领域(scope)、目的、类型、创作或更新时间、 更新频率、元数据纲要、使用情况、联系方式、检索符号等。

2.2 有关数据库的元数据

有关数据库的元数据指的是面向数据库设计人员和管理人员的元数据。数据库是数字图书馆的知识仓库,是数字图书馆的物质基础。数据库的规模和质量直接关系到数字图书馆的信息服务能力,因此应充分重视数据库的建设与维护,确保数据的完整性与准确性。

有关数据库的元数据可分为3种:关于潜在数据来源的元数据; 关于数据模型的元数据;关于数据库映射的元数据。

关于潜在数据来源的元数据包括现有业务系统、可得到的外部数据和目前手工维护的信息,现有业务系统中的信息可以是数字图书馆的馆藏信息,也可以是业务活动信息,如正在进行的编目信息、采编部门的资料采购信息、流通部门的读者情况信息等。可得到的外部数据包括向信息提供商购买的数据或从其它馆套录的数据等。手工维护的信息可以是尚未数字化的文献的著录信息,也可以是读者填写的登记卡等。为了保证较高的准确性,元数据的收集应尽可能实现自动化,可利用扫描仪来扫描和分析数据结构,也可建立一个半自动化的扫描或分析过程,编写一些程序来分析数据库的结构并生成标准化的可读文档。

数字图书馆的数据可能来自不同的平台、不同的系统、不同类型的数据库,在设计时必须收集关于这些不同来源的数据模型的元数据。以这些数据模型为起点,对其进行修改和变换,生成适合于现行系统的数据模型。

关于数据库映射的元数据能够说明数据库中的数据元是从哪个特定的数据来源中填充的,这些数据元从数据源中提取出来并被转移、变换和加载到数据库中时发生了哪些变化。对这类元数据的收集有助于数据库管理者对数据进行维护。为便于理解这些元数据,应该以一种简单明了的形式记录下来,一张电子报表或简单的关系数据库都可以用于记录这些映射元数据。

2.3 信息使用情况的元数据

数字图书馆中信息的使用情况也应作为重要的信息进行收集。收集这类元数据有助于了解哪些用户会使用数字图书馆提供的信息以及他们如何使用这些信息。了解什么人以什么样的频率访问什么信息可以帮助我们调整信息的采集策略,更好地满足最终用户的需求;收集已经写好的有价值的检索策略能够促进检索策略的再次利用使最终用户可以利用别人的智力成果,提高检索效率;了解数字图书馆中的信息如何用于解决用户的问题,并对这些信息(元数据)进行分析和整理,能达到这样的效果:用户在使用数字图书馆之前不必先想好他要问的具体问题,而是先查一查其他人在解决同类问题时使用了怎样的检索方法和策略,只要重新将这些方法用在适当的地方就可以解决自己的问题了。要了解信息是如何用于解决实际问题的,不仅要收集谁编写了检索策略、哪些检索策略做些什么以及它们的编写者如何描述它们等,还要了解当用户编写这个检索策略时他要解决的问题的性质。显然这种元数据不可能自动获得,但如果能够制定一些标准来生成和维护这类信息,那么数字图书馆的服务能力将会得到大大增强。我们可以设想一下,如果一个用户能访问到的元数据中描述了在以前对数字图书馆的查询中解决了的问题,那么他就能检索到一张清单,列出了其他人为解决类似问题而编写的检索策略。用户可以执行其中一个已有的检索策略或把它作为一个新的检索过程的基础,这样,依靠大家的集体智慧解决问题便成为可能。虽然手工收集和维护这类元数据要投入巨大的精力,但其潜在利益却是非常大的。

3 元数据的维护

元数据在收集之初就要对其进行维护。与其它维护过程一样,维护高质量信息的关键是自动化。

对于收藏元数据而言,由于每天都可能有新的收藏进入数字图书馆,因此它的数据量是较大的,维护也较困难。要实现完全自动化不太可能,但可以编制一些程序对收藏的内外部特征进行分析,采取自动与手工相结合的方式进行。这样做既可以提高工作效率又可以降低出错率。

对于有关数据库元数据的维护,其自动化的程度就比较高了。可以执行一些自动程序来感知数据库物理结构的变化、数据结构的变化以及数据库映射的变化。有关数据模型的元数据则很可能要靠手工维护,但由于它的数据量比较小,因此维护起来也不会太困难。

对于信息使用情况元数据的维护,由于这类信息是变化的、动态的,因此应该定期追加。收集各类信息访问情况的元数据可以实现自动化,可以编制一些程序来感知某网页的点击率、某数据库或光盘系统的访问量等,实现起来并不难。收集用户写好的检索策略则最好采取手工与自动相结合的方式,因为有些检索策略可能是不太科学甚至是失败的,这就需要检索专业人员对其进行分析和评价,将编写科学、具有代表性的检索策略收集起来提供给用户参考,而不是将未经筛选的各种策略全都呈现给用户。对于描述每一个检索策略用途的元数据的收集则必须采用纯手工的方式进行。用户每次创建或大幅修改一个检索策略后,应更新相应的描述元数据,同时还应根据检索策略涉及的问题的类型将其分类。

4 元数据的利用

需要利用元数据的人员大致分为:技术人员、数字图书馆的管理人员和最终用户。技术人员所需要的元数据主要是有关数据库的各种信息的元数据,有了这类元数据的帮助,他们可以更准确、更高效地进行数据库建设,可以掌握数据库中数据的变动、更新情况,以保证数据库稳定运行。管理人员需要的主要是反映信息使用情况的元数据,通过分析这类元数据他们可以了解到哪些信息(或收藏)经常使用,哪些信息(或收藏)少有人问津。他们可以以此为基础调整信息的采集策略,提供用户需要的信息。最终用户作为元数据最重要的利用者,对元数据的需求是很简单的,但提供给他们的元数据必须是易于访问和理解的,复杂的访问方式或太多细节会吓住用户,妨碍用户使用元数据。最终用户要使用的元数据有:①关于数据库的数据结构及来源的元数据。通过这些元数据他们可以了解数据库的内容以及内容的来源,以确定他们是否要使用这个数据库,使用数据库的哪些部分。②收藏元数据。它们可以帮助用户理解所找到的信息,了解该收藏的有关情况。③有关已有的可重复利用的检索策略的元数据。有了这类元数据,用户就可以利用别人的智力成果,轻松完成其信息查找工作。

为了使元数据能较好利用,需要把它与检索工具集成在一起。目前这种集成有4 个层次:①第一个层次的集成是同时访问元数据和实际数据,即在一个工具中显示最终用户元数据,同时在另一个工具中显示实际查询和数据。用户可以浏览元数据,了解数据库的内容,也可以利用元数据工具的帮助来理解获得的内容。②第二个层次的集成是用元数据来填充检索工具的帮助文本,这样,当用户想了解某一特定表格或某一列的含义时,检索工具便能提供与此相关的帮助。③第三个层次的集成是提供真正的检索工具,即命令检索工具直接、动态地访问元数据,为最终用户提供与环境有关的帮助。这一层次的集成与第二层次的集成不同的是减少了必须刷新帮助数据的问题,使用户一直能看到及时的元数据。④第四个层次的集成是在元数据工具和检索工具间建立完全的互联,即用户可以在元数据工具中开始浏览元数据,当他找到一张想访问的表格或一个想执行的检索策略时,可以直接与所选的检索工具连接,元数据浏览程序将激活用户选择的检索工具,调出所选的表或检索策略。反之,用户也可以先利用检索工具,并通过检索工具与元数据浏览器的连接,透明地查看与所查询的信息有关的元数据。

就目前国内的情况而言,元数据和检索工具的集成还处在第一个层次上,这显然不能充分发挥元数据的作用。因此在设计与建立数字图书馆时应该注意研究这个问题,努力探索元数据与检索工具间较为优化和可行的集成方式,使元数据的访问更加方便。

5 结束语

数字图书馆作为一种新型、虚拟、网络化的图书馆,其真正实现是需要很多关键技术来支持的。其中元数据及其管理技术是数字图书馆相关技术中不可缺少的一部分。有了元数据的帮助,数字图书馆中信息的管理将会更趋科学化,信息的利用率将会大大提高。因此在建立数字图书馆之初就应该制定一个详细而全面的元数据计划,将庞大的信息和数据处在严格的控制之下,为数字图书馆的规模化发展奠定良好的基础。

收稿日期:2000—06—19

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

元数据在数字图书馆中的应用_数字图书馆论文
下载Doc文档

猜你喜欢