数字环境与信息组织的重大变革_xml语言论文

数字环境与信息组织的重大变革_xml语言论文

数字环境与信息组织的主要变化,本文主要内容关键词为:组织论文,环境论文,数字论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 从文献组织到信息组织的主要变化

传统文献组织着眼于文献在收藏空间中的物理位置,以分类法和主题法为代表的文献组织方法,非常重视学科系统和词语系统在空间中的物理排序。从整体上看,文献组织的各种排序都很关注以文本为单位的知识体的组织问题,而信息组织的关注重点则从文本整体转向文本中的知识单元,甚至文本中语句水平上的知识点。这是一个重大的变化,本文将在后面分析这些变化的重要影响。

当代信息组织变化的一般特征是:

(1)当代信息组织的基本单位从文本单元转向知识单元,信息组织基本单位已经深入到文本内部的知识元素,向微观层次发展。元数据、机读目录、关系数据库对文本与实体的字段描述表明:所有的方法都非常重视文本内部的知识单元的相对独立性,一般的搜索软件已经能够轻易地从文本内寻找含有某种特征的知识元,中国知网数据库还设立了专门的知识元链接[1]。

(2)语义网(Semantic Web)、本体论(Ontology)和网络本体语言(Web Ontology Language OWL)等,更进一步追求建立在一般语义基础上的知识组织。这种方法的特点是通过词汇的语义关系建立知识体系,在文本描述阶段建立某种推理机制,在检索阶段形成知识元素链接,这已经成为一种普遍使用的、处理电子文本的新型信息组织技术[2]。

(3)XML等网页描述语言及其相关工具,把文本内部的知识单元作为描述与存储的基本单位,用标签(Tags)把文本分割为不同的显示与处理结构。分析XML的软件如DOM(Document Object Model)把XML文本中的元素划分为结点树,可以实现结点间的自由连接组织和查询,也可以按结点内容形成的字段存入Web数据库中,实现对XML文件的组织与管理[3]。

(4)资源描述对象由单纯文本转向所有实体(包括文本本身)。传统资源描述对象是以纸本文献为代表的文字符号的再描述,一般以文摘、索引等形式作为原文件的替代物参与信息组织;数据库技术尤其是 Web数据库在90年代以来成为网络资源管理的主要技术之一,数据库对实体描述的特点是把资源描述对象从文本描述转向所有对象的描述。数据模型技术使物理世界的所有实体,都可以建立模型进行管理。同时,文件描述内容从浓缩信息的文摘式概略描述到对实体内容或文本字句水平的详细描述。

(5)信息存储的结构对检索与重用数据具有至关重要的作用,在索引数据库和数据仓库中,数据对象按需要重组或对数据挖掘,要求数据存储具有可供分析的新结构。所以存储技术对信息组织和重用具有关键作用。

(6)对文本对象和实体的描述以字段(属性)为主,字段(属性)反映了事物的特征与联系。对象-属性-联系成为信息组织中对象描述的基本方法,因而 RDF(Resource Description Form)用“主词(表示一个资源对象)-谓词(表示一个陈述)-宾词(表示一个或若干地址或联系)”表示资源对象,元数据与机读目录都增加了关系元素或字段。这种方法的目的是要增加知识体之间的组织关联,形成语义网并在机器环境中进行知识重组需要的推理语义和语法结构。

(7)信息组织从线性向结构化组织体系变化,以提供满足检索的多维化需求、数据分析和挖掘时的多维分析和重组要求。数据模型从多个角度揭示对象,形成了网状结构、层次结构和关系结构三种基本的模式;大型信息组织体系如网络分类体系都重视对资源的多元揭示。多维化资源体系强调事物联系的多样性,是一种适应用户需求的多样性组织技术。这种方法从组织角度讲,是事物或知识之间的多样联系,可以从不同角度观察与利用信息资源;从检索角度讲是强调查询的不同视角,强调从不同角度使用、分析和联系基本数据。由于数字环境中的虚拟技术从根本上改变了资源存放的物理限制,多维方法对信息组织和用户的意义更为重要[4]。

2 信息组织实践领域的变化

2.1 信息组织“社会化”与个性化两种趋势互相纠结,推动信息组织向深度与广度发展。

(1)信息组织由面向一般用户变为面向具体用户的具体需求。传统信息组织的默认对象是所有用户,由于技术限制,手工式组织不可能考虑每个用户在不同时间的特殊需求,用户只能在具有普遍特征的信息组织系统里,寻找满足自己特殊需要的信息。网络链接技术、用户知识捕获与建模技术,使用户可以相对轻易地获取个性化的资源。

(2)信息组织的资源、方法和技术共享程度越来越高,由个别组织为单位的信息组织向社会化或全球化的信息组织演变,大型集成系统、分布式数据库系统、联机事务处理(OLTP)与联机分析处理(OLAP)、开放数据库连接(ODBC与JDBC)等等,使信息资源组织成为社会性的活动。另一方面,资源最终在用户的电脑上以某种方式显示,又使之成为个性化的活动。信息组织的社会化与个性化相得益彰,互为条件。“社会化”使用户面对越来越丰富的未知资源,在共享技术的支持下,用户几乎可以利用任何愿意开放的资源;这样信息组织就改变了以单位为基点的信息组织模式。个性化可以使每个用户在某种语义相关的推理方法支持下,在海量资源中获取自己需要的资源。

2.2 信息组织活动的主体和活动领域的变化

(1)信息组织的活动主体由图书情报界为主,变为商业网站、互联网组织、学术机构、政府机构、图书情报界等为中心的主体。信息组织的主体由专门机构的文献组织活动,变为普遍性信息资源组织活动,商业、企业、社会机构、教育机构等普遍拥有自己的信息资源和组织方法(主要以网站和数据库形式组织资源);与之相联系,信息检索活动也由学术精英的知识检索变为大众化的信息检索活动。

(2)信息组织对象由传统纸质文献为主转向以电子(数字)信息为主,数字化的文字、声音、图像、多媒体等各种媒介都成为信息组织的对象。目前,电子文本以网络为依托,成为普遍性的信息组织对象,数字信息组织方式是目前最具活力的方式。

(3)信息组织活动领域由图书馆等的个别物理空间转向虚拟的网络领域,电子资源和网页组织成为大众化的信息获取领域。

(4)互联网组织(如W3C)和信息技术大公司在信息组织中的作用越来越重要,它们成为信息组织技术和规范的主要制订者和推动者。

(5)信息组织的资源有无限扩大的趋势,由过去一个单位的有限资源面向广阔的网络资源、联机资源等虚拟资源。

2.3 资源描述规范已成为信息组织的坚实基础

近10余年来,信息组织出现的一个明显迹象是对文本描述规范的重视,结构明晰、关系明确、含义清楚的新的描述规范,成为电子文件和网页处理的“宪法”,有力地推动信息组织从传统方式向现代方式的转变,为现代信息组织奠定了坚实基础。

(1)各种描述规范的国际化、本地化与专业化的倾向越来越明显,表明信息描述一方面重视对信息资源的国际共享,另一方面又重视对本地资源的描述;对本地用户方便地利用国际与本地资源创造了良好条件。专业化倾向则表现在知识本体(Ootology)在各个专业领域的发展,各专业领域对通用规范的适应性修改,如DC-Lib把DC的15个元素增加到18个(新增读者对象、版本和馆藏位置三个元素)。这些现象表明:全球性资源共享需要国际性规范,同时也不排斥在国际规范基础上的本地描述规范和专业描述规范。这些变化既推动了资源的跨国共享,又有利于妥当地描述本地和专业资源。这将为资源间的转换奠定基础,并推动资源在全球范围内流动。

(2)HTML、XML、元数据等成为最流行的信息描述语言和信息组织的研究对象,也成为数据开发和查询软件开发的对象。

(3)各种语言之间具有越来越相似的特征,越来越多的检索语言和描述语言形成了结构化描述格式,具有越来越规范的描述形式和类似的描述能力。如RDF、数据库的数据模型、本体论、OWL等都采用了实体-属性的描述框架,这对于机器理解和规范化地解析文件、快速处理文件和组织文件元素是非常有利的。

(4)不少描述语言对文本资源的描述采用字段化的文本处理方法,如MARC的字段化描述、数据库的字段描述、DC的类似字段描述等(DC直接用词语作为字段)。

(5)等级描述语言具有越来越流行的趋势,并越来越强调结构严谨,含义明确。大型的知识框架语言如本体论、主题网关等都采用了父类-子类的等级描述手段。并注意对各类术语的实体、含义与关系进行明晰的定义。

(6)各种描述语言都强调通用性和互操作性,其共享程度越来越高,在个性化组织中,用户对资源组织的控制能力越来越大。传统文献著录格式、DC格式、XML格式、数据库等,使用相关的应用软件都能够较好地进行转换。如用MODS(Metadata Object Description Schema元数据对象描述模式,是LCC和 MARC标准机构研制的采用XML模式的书目记录元素集),可以把MARC文件转换为XML文件。

2.4 各种查询语言、接口技术和链接方式从根本上影响了信息组织的发展

各种查询语言的特点是既是工作语言,也是检索语言,是信息管理者和用户的共享语言或工具;如关系数据库和数据仓库中使用的SQL查询语言,可以用“SELECT-FROM-WHERE”这样的组合查询模块查找数据库中的数据;利用ODBC(Open Data Base Connection)和JDBC(Java Data Base Connection)等软件,可以查询不同的数据库系统。此外, JAVA Script和VBScript等这些常用的脚本语言也可以嵌套查询语句,把查询结果显示在屏面上。链接语言如HTML中的〈A href〉和XML中的〈XLink〉,均是最常见的链接语句。在XML中还有专门的链接语言,如在Xpath(XML Path Language)基础上制定的、在XML内部各组成部分进行定位的 XPointer(XML Pointer Language)指针语言,以及 XLink(XML Linking Language)扩展语言,可以在两个事物间建立关联。XPointer是以Xpath为基础语言,给XML文件片断提供定义标识符的语言,这些标识符可以指示XML文档的URI,在文档内部结构中进行寻址,通过各种特征(元素类型、属性值、字符内容和相对位置等)实现对XML文档树的遍历,并选定文档内部的各个部分。

在XML文档中,应用程序接口DOM(Document Object Model)和SAX(Simple API for XML)是XML分析器提供的两个接口软件。DOM可以把XML文档转换成对象模型集合-DOM树,它是一个由根结点和子节点组成的等级树。通过这个结构,应用程序可以对XML文档中的数据进行互操作,可以在任何时候访问任何一部分数据,所以DOM接口是一个随机访问机制。DOM接口还允许应用程序对XML文档中的数据进行修改、移动、删除、插入等操作。 SAX是一个XML文档的分析器,可以按顺序检查 XML文档的字节流,判断被分析的字节是XML语法的哪一部分,是否符合XML语法,并触发相应的事件,应用程序可以通过事件处理函数实现对XML文档的访问。由于事件是时序性的,所以SAX的访问是非随机的顺序访问机制[5]。

上面的情况表明了信息组织发展的一些重要现象:

(1)各种访问(Access)、链接和接口软件实现了对文档之间、文档内部各元素的随机组合。

(2)信息集合越来越成为随机的组织机制;随机组织使信息组织成为随检索需要而变化的机制,允许检索者(用户)对信息组织体系进行操作、控制,并根据需要进行再组织。

(3)接口技术、链接方式形成了与传统信息组织完全不同的组织方式或组织机制,即一种即时的、隐含的、随用户需要改变的组织体系。

2.5 资源描述和页面显示技术将改变信息组织的发展方向

(1)资源描述形式化是现代信息组织的基础,字段描述、元素分割、明确定义、结构规范是资源描述的基本趋势,这些发展直接影响到信息组织的发展方向。

(2)描述形式化不仅是机器可读、可解的需要,更重要的是为了实现资源共享、信息分析和知识挖掘,文档内的各种元素可以随时组成用户需要的某种次序,实现个性化的信息组织。

(3)页面显示技术能够把一件资源内部的各要素组织成为可视的结构,而且能够把许多资源组织在一个页面内,更重要的是在搜索引擎、脚本语言、接口技术的支持下,能够快速、随机的组织和检索各种不可知的资源。

3 信息组织变化的主要影响

信息组织的变化从观念、性质、功能与方法上改变了我们对它的传统理解:

(1)信息组织不再仅仅是图书情报界的事情,而是一个社会性的信息资源组织和再组织活动,是个人、组织和社会谋求使各自的资源在有序状态中有效地分析、利用的普遍性信息资源控制活动。

(2)与之相联系,信息组织的研究领域应该更为广泛:它包括传统的分类、主题组织,也包括浏览器上临时的资源组合与搜索结果的显示,包括由链接形成的两个或多个资源间的组合。因为这些组织形式,已成为用户最普遍的资源获取方法。所以不能把信息组织仅仅理解为利用大型体系组织起来的信息组合方式,从而忽略链接、搜索结果排序、数据和文件中的知识元素之间基于某种应用的临时性组织。从使用的普遍性和有用性来看,基于某种应用的临时性信息组织,正成为越来越重要的、经常性的资源组织形式,其地位和作用越来越重要。这种组织形式经常与用户基于某种目的的检索活动结合在一起,成为一种最能满足用户需要的重要组织形式。目前的信息描述,实际上正越来越倾向于基于用户查询的临时个性化组织。描述规范力图把每个资源的知识元素和属性关系形式化、结构化,以便于用户在检索时按某种目的排列和组合数据或知识。

(3)知识元素表达是在描述阶段完成的,基于词汇和其他符号的知识元素描述,已成为信息组织的核心问题。

由于数字环境中大多数资源在存储、链接与屏幕显示等过程中,出于不同分析和使用需要,被不断地以各种不同的方式重组,更由于这些重组成为普遍性的资源获取方式,因而以知识点与规范描述方式为手段的各种知识表达,成为信息组织的奠基性工作。近年流行的本体论、语义网等方法,都在追求一种宏观的知识网络布局,而资源描述框架(RDF)、XML、OWL、元数据、数据库技术等,则在微观上规划每个对象(一个实体、一个文本、一个图像等)的知识元素的分布与连接问题[6]。这些方法将成为信息组织研究的基本内容,也是信息组织现在与未来的研究热点。

(4)综上所述,信息组织研究的未来趋势集中在技术方法上。技术方法的核心问题是知识表达问题,知识表达的关键是代表知识点的符号(词汇和其他符号)之间的关系(从属、并列、相关、应用等逻辑关系)处理、再现与意义组合和应用组合。最重要的是所有这些符号能够被灵活地反复处理、快速地实现不同目标的组合。尤其是这些方法能够被用户快速掌握和操纵,实现信息组织的互操作。

4 信息组织的变化与图书情报界的任务

面临巨大的变化,图书情报界的信息组织研究的重要任务是:

(1)重新审视和研究数字环境的信息组织新方法,重视网页等电子资源的组织,改进更具有动态链接能力的资源描述格式与规范。

(2)改进分类法与叙词表的结构、词汇定义方式,重视词间关系的处理和知识表达能力的提高,尽可能用各领域的共享词汇(术语与自然语言)作为类目和叙词。

(3)编制各个专业的领域本体,创建更有力地知识表达手段。情报工作还要重视咨询工作面临的各种应用本体的编制,作为表达知识的工作语言。

(4)在动态、个性化组织成为普遍的资源形式的今天,要更强调组织工具的共享转换和兼容。使描述和标引规则更具有灵活性、重用性与互操作性;各种检索语言要具有形式化的特征以适应机器理解、阅读和处理,为用户提供强大的个性化查询工具;个性化与面向复杂应用的临时性信息组织,正在电子环境中更加有用的组织形式。

标签:;  ;  ;  ;  ;  ;  

数字环境与信息组织的重大变革_xml语言论文
下载Doc文档

猜你喜欢