图书馆信息门户中的非结构化数据管理_图书馆论文

图书馆信息门户中的非结构化数据管理_图书馆论文

图书馆信息门户中非结构化数据的管理,本文主要内容关键词为:中非论文,结构化论文,图书馆论文,数据论文,门户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 非结构化数据概述

关系型数据库与数据仓库的出现,使得图书馆收集、组织,查询与管理关于读者、产品、市场与财务的信息的能力有了质的飞跃。不过,关系型数据库与数据仓库管理的仅仅是结构化数据。图书馆仍有大量的非结构化数据没有得到有效的管理。

图书馆信息门户为解决非结构化数据的管理问题带来了曙光。图书馆门户是一个平台,用以集成既有系统、又有管理图书馆内容,并以个性化的方式将内容提交给读者、馆员、合作伙伴等。图书馆信息门户可以使图书馆迅速适应快速变化的业务需求与规则,提供图书馆系统集成的平台,以及跨图书馆系统的自动化工作流处理/控制/管理,还可以将分布式系统扩展到移动、嵌入式设备。简而言之,图书馆信息门户提供了进入整个图书馆信息资源、系统和业务处理的窗口。

本文主要讨论在图书馆信息门户中,如何利用内容目录与分类法对非结构化数据予以管理、组织、提交、索引与检索。

1.1 非结构化数据的定义

非结构化数据是指包含有一定数量的、有意义的、以自由文本的形式存在的,并存在于结构化数据库之外的数据。非结构化数据传统上是以单个文件的方式存储在本地硬盘或文件服务器中,或存在于电子邮件服务器中。从体例上区分,非结构化数据包括备忘录、报告、信函、白皮书、研究报告、会议记录,等等。[1]

1.2 对非结构化数据予以组织的必要性

如果图书馆根据一个定义良好的内容管理程序将所有的非结构化数据组织在一个统一的目录体系之中,至少会带来下列好处:

(1)有利于信息查询。如果不对非结构化数据进行整合,馆员会浪费大量的时间与精力查找信息。这是对非结构化数据进行组织的主要原因。

(2)减少重复劳动。图书馆信息门户系统对非结构化数据进行了整合,实际上可以令各有关人员具备了使用图书馆绝大部分重要数据的能力,因而会令重复劳动基本上不会发生。

(3)避免人去岗空。每次一有馆员离职,馆员的知识与专长也会随之而去。图书馆多年在人员培训方面的投资也就打了水漂。通过对非结构化数据进行组织,图书馆信息门户系统的知识捕获系统可以帮助其他工作人员迅速总结出离职者一点一滴积累下来的知识细节,有助于新人大幅缩短进入状态前的准备时间。

(4)有助于降低办公开支,并有助于迅速更新信息。图书馆许多部门会不时向读者与合作伙伴邮寄出大量的印刷品,像图书信息、报价单、催缺函,等等。之所以要邮寄此类纸质文件,是因为收信方无法从图书馆获得该文件的电子版本。通过对非结构化数据的组织,图书馆信息门户可以有效地令此类信息既易于查找,又易于更新。

(5)改善与读者和合作伙伴的关系。通过图书馆信息门户,图书馆可以将部分有价值的非结构化数据组织起来并提供给读者和合作伙伴,从而可以与他们建立起更深层次的联系。

(6)给图书馆员工带来利益。通过对非结构化数据的管理,图书馆信息门户网站可以有效地管理图书馆员工信息交流活动,从而使员工能及时获得关于图书馆产品、人事、政策方面的最新消息。

非结构化数据管理的目的是在组织现有的分散应用环境下,把原来分散的部门和组织,通过系统的集成使其相互关联,形成广泛的、相互关联的组织应用环境。它在组织系统的构架层次上,为组织的信息流建立了一个跨越多种分散的、内部和外部的信息处理过程的系统链,完全淡化传统的内外部数据分界。

1.3 对非结构化数据进行组织所面临的问题

既然对非结构化数据进行组织会带来这么多的好处,那么为什么许多图书馆在组织非结构化数据方面没有取得大的进展呢?

(1)非结构化数据是以多种物理的和逻辑的格式存储的,而且储存地点具有分散性。结构化数据库可以将大量信息存储在一个物理文件之中。与此不同,非结构化内容可能存储于图书馆内部以千计的不同设备之中——文件服务器、电子邮件服务器、个人台式电脑,图书馆内部网的网络服务器以及图书馆外部。此外,非结构化内容具有多种不同的格式,这也给数据整合工作带来了很大难度。

(2)非结构化的数据格式令数据的内容组织十分困难。很难给非结构化数据的内容划定范畴。这是因为,一般情况下非结构化内容没有相伴随的有效元数据。

(3)有些情况下,信息是存储于人的头脑中的,并非以电子格式存在。

(4)内容分类活动需要耗费一定的人力物力。

1.4 图书馆信息门户中的内容目录

图书馆信息门户是借助内容管理技术对非结构化数据进行组织的。图书馆内容管理是技术也是策略。从产品方面讲,图书馆内容管理是技术、工具以及方法,以实现在图书馆范围对内容的捕获、管理、存储、保护、发布;图书馆内容管理同时也是策略,负责管理图书馆或组织所有的非结构化信息。在最基础的层面,图书馆内容管理工具支持图书馆或组织有序管理并利用非结构化信息,而无论信息身处何处。[2]

对于“内容目录”,一个较好的理解方式是将其看作频道或文件夹的结合。每个频道都是底层数据的一个逻辑视图,可以包含有非结构化内容和子频道。

如果用户经常使用雅虎一类的互联网搜索工具,用户就自然而然地熟悉了图书馆信息门户所采用的分类法。雅虎就是利用分类体系对互联网内容进行组织的。许多图书馆信息门户拥有一个与雅虎分类表相似的分类体系,当然它们的深度与广度各有不同。[3]

2 分类法:对非结构化内容予以组织的工具

许多图书馆信息门户系统常用分类的方法来组织、管理与发布非结构化数据。简单地说,可以把分类法看作经过整理的图书馆内容列表和内容目录。图书馆信息门户可以利用体系分类来组织其信息资源。体系分类提供了一个层次化的分类系统,它基于一个已经定义好的范围和背景。在内容管理过程中,可采用体系分类的标准术语来统一分类及标记信息资源。在内容管理工作流中,内容管理员通过提供一个层次化的类别列表以推行分类结构。

最终的结果就是,图书馆或图书馆范围内的所有信息都存储到一个内容管理系统中,而且每项信息都与一个或多个类别相关联。之后就可通过一个视图分类或者搜索引擎,在网上更有效地检索这些分类信息资源,这和传统的图书馆检索并没有多大的区别。内容管理系统最终的目标就是使图书馆的内容达到最大的可用性。因此将结构分类集成到内容管理过程中,就能改进内容管理系统的可用性。

自动分类就是用计算机系统代替人工对文献等对象进行分类,一般包括自动聚类和自动归类。自动聚类指的是由计算机系统按照被考察对象的内部或者外部特征,按照一定的要求)如类别的数量限制,同类对象的亲近程度等等),将相近、相似或者相同特征的对象聚合在一起的过程。自动归类是指计算机系统按照一定的分类标准或者分类参考,将被考察对象划归到不同类目的过程。

图书馆的非结构化数据呈飞速增长态势。为了方便及时地对图书馆的非结构化数据进行组织,图书馆信息门户的分类法也应当是动态的,以便正确反映图书馆非结构化数据的动态性。许多研究人员开始讨论自动生成分类法的可能性。一些研究人员已经在这一领域取得了一定进展。在这一领域比较成功的有Autonomy、Semio、Kotus和80/20几种软件。

在海量非结构化数据的组织,以及将手工编制的分类法所无法包容的内容整合入分类法两方面,分类法自动化生成以及自动化分类技术都是极为有益的。不过,在目前情况下,自动化分类技术只能起到辅助作用,手工分类仍是不可或缺的。伴随着图书馆信息门户智能化水平的不断提高,自动化分类技术在非结构化数据分类工作中将发挥更大的作用。

3 在图书馆信息门户中构造分类法

3.1 内容管理过程的重要性

图书馆信息门户应用的一个最重要方面是为门户建立内容管理程序。对于图书馆信息门户的读者来说,为读者提供对于各种信息资源——既包括结构化数据又包括非结构化数据的管理方法,是门户的首要功能。如果门户不具备高效持续地收集、组织与发布内容的能力,门户的价值就会大打折扣。[4]

在建立内容管理程序的过程中,从非结构化数据管理的角度考虑,主要应当关注的几个因素有:

(1)内容分段与存取管理。谁有权添加、阅读与删除文件?谁有权新建文件夹以及修改分类法?谁有权建立与管理内容浏览器并对远程内容资源进行索引?谁有权对文件夹添加声明与说明?

(2)档案处理。如何处理过期内容?在内容已经过期的情况下,谁有权确定数据的价值?

(3)提交与认证过程。如何保证其业的知识工作者提交的内容能令他人分享?对于分类体系中缺乏具体资料的类目,如何鼓励图书馆员提交有关内容?

(4)分散化与中心化。既可以由一个核心团队对整个图书馆的非结构化数据进行集中管理,也可以将这一职能分散到图书馆的各个部门之中。图书馆应当选择哪个方案?

(5)手动与自动。可以在多大程度上依赖图书馆信息门户对图书馆内容进行自动分类?在对内容进行分类的过程中,最佳的人工分类方法是怎样的?

3.2构建分类法的步骤

构建分类法的活动有可能很简单,也可能比较复杂,每个步骤都需要图书馆信息门户管理者一定程度上的主观投入。

步骤如下:

(1)创建关于图书馆现有内容来源的列表。对列表中内容资源进行排序,对现存重要内容资源进行详细分析,特别是对于现存元数据与图书馆员对信息资源的使用情况进行分析。

(2)创建分类表简表。

(3)定义内容管理程序。

(4)对分类表简表中各类目进行扩充。

(5)测试并改进内容获取引擎。

(6)测试并改进检索策略。

(7)基于上面最后两个步骤的结果,改进分类

(8)以分布式/集中式的方法对分类表各文件夹中的内容予以动态管理。

3.3 分类法构建指南:应当避免的失误

(1)无战略、无计划。对于图书馆内部的非结构化数据进行组织,需要周密的计划。尽管图书馆信息门户提供了图书馆所需的绝大部分基础设备与行动框架,对于特定图书馆而言,如何具体应用各种因素,以达至最大效率,只能具体问题具体分析。

(2)避免目标过分远大。由小规模开始,逐渐做大。想要一步到位、将整个图书馆的非结构化数据都管理起来的努力往往归于失败。要按照事物的发展规律,由小及大,由近及远,由部分及整体,采用反复迭代的方法来解决问题。

(3)不要认为存在可以解决所有问题的非结构化数据组织方案。对于同一批非结构化数据资源,可以有多种分类方法。行业特征、图书馆组织机构、地理因素、文化因素都有可能对分类活动有所影响。因此,假定存在某种分类法或内容管理方法,而且该方法会适用于所有的图书馆活动的想法无疑是错误的。即使同一个部门中的员工也可能因工作领域与目的不同而需要不同的分类体系。

(4)过分地使用了分散管理方法。对于大中型图书馆而言,对非结构化数据进行分散管理无疑是一种可行的办法。在将构建分类体系、组织非结构化数据的权限分配给分馆和下属各部门的同时,一定要保证各分馆与部门负责非结构化数据组织的人员有机会通过图书馆信息门户彼此交流经验、分享知识、协调立场。

(5)过分依赖自动化解决方案。尽管有些技术上先进的图书馆信息门户解决方案声称可以在只需极少人工干预或完全不需人工干预的情况下建构分类法,对于绝大部分图书馆来说,完全自动化的解决方案仍是不适宜的。这类方案很少能令图书馆的分类体系达到最优。图书馆往往还要再次投入人力,对自动生成的分类体系进行手工修改。到目前为止,构建分类法还不能脱离人工。

(6)停止对于分类法进行维护。许多图书馆花大力气构造了一个供图书馆信息门户使用的分类法,然后就认为这个分类体系是可以在比较长的一段时间内无需改变的。事实上,通过图书馆信息门户对非结构化数据的组织是一个动态的过程,如果不对分类体系进行持续的管理,图书馆信息门户分类法的价值会逐渐降低。

(7)缺乏有效的时效管理。非结构化数据是有时效限制的。应当对过期内容进行更新,对失效数据予以剔除。有许多途径决定非结构化数据是否失效,在处理这个问题时,格外应当注意根据非结构化内容的类型及有关业务活动方式做出判断。

(8)对效费比分析的重要性认识不足。尽管制订了获取图书馆非结构化资源中有用数据的计划与策略,也不应忽视效费比分析的重要性。效费比分析有助于计划与投资,也有助于说明应用图书馆信息门户给非结构化数据管理带来的好处。

收稿日期:2004-12-11

标签:;  ;  ;  ;  

图书馆信息门户中的非结构化数据管理_图书馆论文
下载Doc文档

猜你喜欢