国内外知识组织体系互操作模式与方法研究_中图法论文

国内外知识组织系统互操作模式及方法研究,本文主要内容关键词为:国内外论文,模式论文,操作论文,组织论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着计算机技术和网络技术的发展,信息资源的内容、载体形式、处理方式、存储媒介、传递渠道以及利用方式等均发生重大的变化,联机数据库和网络信息资源已成为人们获取信息的主要渠道。目前,研究人员已开发了各种各样网络版和数据库版的叙词表、分类表及相应的检索系统,以便用户有效便捷的查询检索所需要的信息。然而,在网络环境下,各种检索系统由于收集信息的范围和原则不同,以及使用检索语言不同等现象,使其跨库、跨域检索遇到很大障碍。可见,知识组织系统互操作已成为情报检索语言研究中亟待解决的问题之一。目前,知识组织系统互操作已成为网络环境中不可回避的重要议题,以及在国内外信息领域仍是研究热点。本文介绍了近年来国内外知识组织系统互操作研究计划,重点介绍了几个国内外具体互操作研究项目,总结了知识组织系统互操作的模式和采用的方法,并对国内知识组织系统的互操作研究提出建议。

2 国内外知识组织系统互操作研究计划及模式

知识组织系统间的互操作研究一直受到国内外学术界的重视,其中国外信息领域一直致力于多种主题法、分类法及自然语言之间的互操作研究,并在这方面实施了很多积极有效的研究计划,且在实践过程中一些研究成果已得到了很好的应用,如美国国家医学图书馆(NLM)研制的UMLS(Unified Medical Language System,即一体化医学语言系统);欧洲四国(英、法、德、瑞士)国家图书馆共同完成的MACS(Multilingual Access to Subject,即多语言存取主题)项目;哥伦比亚大学与肯特州立大学主持的CAMed(Complementary and Alternative Medicine)项目等。目前,国内外已开展的互操作研究计划如表1所示。

通过对表1中43项互操作研究计划分析可看出,知识组织系统互操作研究多由信息资源丰富的欧美等国家进行完成,并主要有以下几种模式:跨语言的互操作、异构知识组织系统间的互操作、跨领域知识组织系统的互操作。

2.1 跨语言知识组织系统互操作

由表1可知,在43项互操作研究计划中,涉及两种语言以上的互操作研究项目有19项,占互操作研究项目的44.2%。由此可见,跨语言知识组织系统互操作在学术界很受重视。尤其在欧洲,源于它的多语言和多文化背景,其涉及相关的跨语言知识组织系统互操作研究项目很多,如CARMEN、HEREIN、AGROVOC、MACS、Polish Project等。

The European Information Network on Cultural Heritage Policies,简称HEREIN项目,是从欧洲关于文化遗产政策的报告中抽词创建的一部国际语言的叙词表。该词表的创建没有直接参照任何已存在词表的结构或语词。首先,该项目由西班牙、法国、英国3个小组分别负责建立它们自己语言的叙词表,然后通过比较3个小组的语词,确定语词间的关系,从而建立三种语言的叙词表。该叙词表可以使用户更好地了解文化遗产领域的术语,有助于用户阅读专业报告及进行相关跨语言的检索。

AGROVOC(即多语种农业术语汇编)是由联合国粮农组织(FAO)和欧洲共同体委员会合作开发的多语言叙词表,其涉及16种语言之多。AGROVOC涵盖了农业、林业、渔业、食品及其他相关学科领域,被全世界各国许多相关机构和学术团体用于索引和编目。我国的CAT/AGROVOC互操作项目就是将《中国农业叙词表》(CAT)和FAO的AGROVOC进行映射。AGROVOC由术语构成,并按照术语的相关性予以组织,即“广义”、“狭义”和“相关的”。目前,AGROVOC共含有39000以上的叙词与非叙词,其每一个叙词在其他语种上均有与之对应的叙词,AGROVOC并通过Web服务技术在网络上提供跨语言检索与词汇服务。

我国也有一些跨语言知识组织系统互操作研究,如CLC4/DDC21项目、CAT/AGROVOC项目等,但相对较少。随着计算机技术的发展和网络的普及,利用跨语言知识组织系统互操作来解决多语言和跨语言网络信息检索已成为一种趋势。

2.2 异构知识组织系统间的互操作

异构知识组织系统互操作是为了实现不同结构知识系统(分类表、叙词表、标题表等)间的知识相互转换、共享和复制。由表1可看出,异构知识组织系统间的互操作主要分为不同主题语言、不同分类语言及分类和主题语言之间实现的互操作等。

2.2.1 不同主题语言的互操作

不同主题语言的互操作主要是以叙词表和标题表之间的互操作为主,国外许多研究机构已在主题语言互操作方面做了大量研究与实践。

OCLC(Online Computer Library Center,Inc.,联机计算机图书馆中心)通过人工和统计方法建立了基于MARC21权威数据格式的互操作模式——ERIC/LCSH间的直接映射,以实现ERIC(美国教育资源信息叙词表)与LCSH(国会图书馆标题表)的互操作,为用户跨库浏览与检索提供条件。

MACS项目是多语言标题表互操作的典型项目,由欧洲英、法、德、瑞士四国国家图书馆主办及赞助。该项目通过分析SWD(德语)、RAMEAU(法语)、LCSH(英语)三种标题表之间的匹配关系,建立三者间的等同连接,通过创建链接管理系统与查询系统实现图书馆目录的多语言主题检索。

由哥伦比亚大学和肯特州立大学共同主持的一项国际合作项目——CAMed项目。该项目主要是对医学资源的补充和选择,包括一个集合词表管理和跨词表检索系统。CAMed项目将医学领域的四种词表经过规范化处理并存储到一个词表知识库中,并允许数据库管理者在自己的国家通过网络界面来管理和编辑自己的词表,然后提交到肯特州立大学的总服务器存储与管理。该系统的跨词表检索机制允许用户输入一个检索词,可同时检索到知识库中所有或任何一个词表,经过与词表中的词匹配,然后反馈给用户一些“全部匹配”或“部分匹配”的叙词款目,使用户得到想要的结果,并可以看到检索词在词表中的详细资料,最终实现在知识库的直接检索[5]。目前,这种检索机制已扩展到网上信息资源的全文检索。

2.2.2 不同分类语言的互操作

不同分类语言互操作一般通过不同分类法之间的相互映射来实现,使得不同分类法中具有相同语义类目之间的相互映射与调用。在国外许多不同分类语言互操作项目中,均选择国际范围内使用最为广泛的通用分类法《杜威十进制分类法》(DDC)进行映射,其互操作项目一般分为通用分类法与国家分类法、学科分类法分别映射的互操作,以通用分类法作为中介词典或转换中心的互操作。

OCLC在不同分类语言互操作方面做了大量研究。其中,DDC/LCC项目采用直接映射方法实现了DDC与国家分类法LCC(《美国国会图书馆分类法》)之间的互操作。DDC/NLMC项目也采用直接映射方法实现了DDC与学科分类法NLMC(《国家医学图书馆分类法》)之间的互操作。

Renardus项目是欧盟主持由芬兰、丹麦、德国、法国、瑞典、英国等7个国家的国家图书馆、研究中心及主题网关等机构参与共同合作有关词表映射的跨域项目。该项目使用多种欧洲语言,其试图建立一个基于WEB集成式网络信息资源的服务门户,实现跨库跨主题网关的网络信息资源的浏览和检索。参与项目的10多个主题网关采用的分类体系不尽相同,主要有通用分类法(如DDC、UDC(《国际十进制分类法》))、学科分类法(如EI、NLM分类法)以及本地网关自编的分类法(如荷兰基础分类法BC)等。具体来说,该项目选用DDC作为一个全局分类法和实现互操作的转换中心,将各个本地对象网关的分类法作为局部分类法映射到DDC上,实现了全局分类法到各个局部分类体系的单向映射,从而将各个网关的局部分类体系及信息资源转换到全局分类体系的相应类目下,并按DDC的等级显示出来,通过浏览检索DDC类目,就可同时浏览检索相应的主题网关内容,即实现了基于DDC的跨库浏览。

2.2.3 分类语言和主题语言的互操作

分类语言和主题语言的互操作是实现多语言检索、跨越语言障碍最有效的手段。目前,欧美国家在分类语言和主题语言互操作上进行了大量的研究,并实施了很多积极有效的研究计划,且一些研究成果已得到了很好的应用。

德国数字图书馆主持完成的CARMEN(Content Analysis,Retrieval,Metadata:Effective Networking)项目是分类语言和主题语言的互操作项目的代表之一,其涉及数学、物理、社会科学等跨学科领域。该项目由多种德国叙词表与通用分类法DDC,及学科分类法(即美国数学学会数学主题分类法、美国物理学会物理及天文学分类法等)进行映射,以实现词表与分类法之间的互操作,从而为用户提供方便的跨库浏览与检索。

加利福尼亚伯克莱大学SIMS学院所主持的UC Berkeley DARPA Unfamiliar Metadata Project项目主要是研究数字图书馆项目中如何将用户的自然语言转换成受控语言。该项目旨在帮助用户将自然语言或检索词转换成正式的标引和分类语言。首先创建一个词汇入口模块(Entry Vocabulary Modules,EVM),用来存放题名、作者、文摘中出现的词汇(如自然语言词汇)和元数据词汇(如分类号、叙词、标题词等受控语言)之间的关系,而这种关系是采用最大似然估计法(LogL)计算而来。然后在这部词典的基础上将用户输入的自然语言词汇转换为最有可能的受控语言,如DDC分类号、LCSH中的标题词等。

我国在分类语言和主题语言的互操作方面也做了一些研究。最典型的代表是《中国分类主题词表》。《中国分类主题词表》是在《中国图书馆图书分类法》编委会的领导与支持下,以国家图书馆为核心的40个单位和160位专家学者和编辑人员共同完成。《中国分类主题词表》(第二版)是我国目前规模最大的分类主题一体化情报检索语言,通过《中国图书馆图书分类法》(简称《中图法》)(含《中国图书资料分类法》)和《汉语主题词表》之间的映射编制而成,共收录分类法类目5万余多,主题词及词串21万余条,涉及哲学、社会科学和自然科学所有领域学科和主题概念,其目的主要将分类标引和主题标引结合起来,为文献的标引创造良好的条件[6-7]。在2005年,《中国分类主题词表》出版了电子版。

2.3 跨领域知识组织系统的互操作

由表1可知,在43项互操作研究计划中,涉及跨领域知识组织系统的互操作研究项目有22项,占项目的51.2%。可见,传统的知识组织系统经过小型化、专业化发展,已不能满足交叉学科、新兴学科及研究热点信息检索和加工的需求,而跨领域知识组织系统互操作研究成为知识组织系统研究和发展的主流。最为典型的是UMLS和HILT项目。

一体化医学语言系统(UMLS)是由美国国立医学图书馆(NLM)自1986年开始主持和开发的一项长期研究计划。该研究计划是计算机化的受控词表集成系统,它不仅克服了不同语言和不同数据库所造成的诸多检索问题,而且是语言翻译、自然语言处理及语言规范化的工具,实现了跨数据库检索的词汇转换。UMLS知识资源由超级叙词表、语义网络、情报源图谱和专家词典四个部分组成。其中,超级叙词表是UMLS的核心部分,广泛集成了生物医学概念、术语、词汇及其等级范畴等,收录有100多万个生物医学概念和500多万个概念名称。这些概念来源于多种语言的100多部生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,进而形成一部超级词表。语义网络是为建立概念和术语间相互错综复杂关系而设计的,用以标引超级叙词表的每一个概念,或表达概念之间可能存在的相互关系,并为超级叙词表中的所有概念提供了语义类型、语义关系和语义结构。其中有135种语义类型用来描述不同的概念,54种语义关系用来连接不同种类之间的概念。UMLS兼容了140多个知识组织系统,分别通过三级模式表达概念及相关形式和语义网络建立概念及术语间的关系,将不同的知识组织系统的概念兼容、集成、整合在一起,实现了生物医学领域的叙词表、分类系统、编码系统、受控术语列表之间的互操作。

英国高层叙词表项目(High-Level Thesaurus Project,简称HILT)是由英国高教基金理事会下属RSLG(Research Support Libraries Group)和JISC(Joint Information Systems Committee)两个组织共同资助创建的项目,该项目研究领域包括图书馆、档案馆、博物馆及其他电子服务和馆藏等。HILT项目主要是解决分类表和叙词表之间的映射问题,如何在网络环境下利用现有的主题表、叙词表、分类法等通过相互之间的映射建立一个转换中心将它们联系起来,从而实现跨库、跨领域的信息检索与浏览。HILT项目基于Wordmap taxonomy系统,以DDC作为映射转换中心,将现有的叙词表、标题表、分类法以及一些本地的词表与其映射,从而实现分类表与各词表及叙词表之间的互操作,最终达到资源共享的目的[8]。其中,各词表及叙词表与DDC之间的映射类型主要有8种,分别为精确匹配(EXM)、精确互参照匹配(ECM)、进一步澄清匹配(FCM)、按语义因素匹配(SFM)、上位类匹配(SPM)、下位类匹配(SBM)、拼写变化匹配(SVM)和概念匹配(CM)。

3 知识组织系统互操作方法

随着计算机技术的发展,知识组织系统互操作的方法也得到了改进。综合国内外研究和试验,实现互操作主要通过以下几种模式和方法来实现,见表2。

由表2可知,人们在实践过程中探索和试验了许多知识组织系统互操作方法。一般来说,映射、集成词表与链接是实现知识组织系统互操作的主要方式,但各种互操作方式都有各自的特点和适用范围。其中,映射和链接是现代知识组织系统互操作常用的两种技术。

映射包括直接映射和同现映射是知识组织系统互操作常用的两种方式。直接映射是指在不同的受控词表之间或词表与分类号之间建立对等关系,其是基于不同知识组织系统自身体系结构建立的映射。这种映射方法最初主要依赖智力劳动,由人工判断类目间的映射关系。近年来,计算机辅助直接映射成为研究热点。如OCLC的LCSH/ERIC映射、DDC/LCC映射都是直接映射的典型例子。同现映射则是通过统计在同一元数据或目录中表达不同主题的语词或分类号的同现频次,计算语词或分类号之间的相关度,对来自不同词表而同时出现的词建立映射。这种方法主要基于统计方法和计算机辅助来完成。OCLC的LCSH到LCC之间的映射就是采用这种方式。

连接分为临时列表连接和协议连接。在检索过程中,临时列表是通过检索词与各个词表中的语词进行匹配,将完全相关的或部分相关的词都显示在临时联合列表中。这个临时联合列表相当于各个词表的一个临时索引,互操作的效率不是很高,不会被保存下来供以后使用,但实现起来比较简单。协议连接则是通过建立词表服务协议供其他应用程序访问,创建连接环境,实现词表间的互操作。其中,欧洲国家图书馆员会议(CENL)主办及赞助的MACS计划就是通过创建连接管理系统与查寻系统来实现图书馆目录的多语言主题检索。

在具体的信息资源共享活动中,知识组织系统互操作并不是采用单一种方法来实现,而是采用多种方法,如美国加州大学与美国国家生物信息基础(NBII)完成的CERES/BRD研究计划就采用了推导/建模和卫星子表法。在实践过程中,知识组织系统互操作要从实际出发选择合适的模式和方法。

4 对我国知识组织系统互操作的建议

知识组织系统互操作研究一直是图书情报界研究的热点。与国外相比,我国知识组织系统互操作研究起步较晚,发展相对滞后,还未引起足够重视,实现互操作的方法基本限于系列化、翻译与映射等。虽然我国对国内各分类法、主题法之间的互操作研究取得了一些进展,如《中国分类主题词表》(第二版)和装备科技信息分类主题一体化词表编制等,但对一些较为先进的互操作技术和检索语言兼容互换系统研究方面还远远不够。总体来说,我国知识组织系统的建设存在众多问题,如电子程度低、资源共享性差、自动化建设水平低等。为了更好实现跨库检索与浏览、提供“一站式”服务,国外知识组织系统互操作研究给了诸多启示,也为我们提供了很多可借鉴的方法和成功的经验,就我国知识组织系统间的互操作问题,我们应从以下几方面进行努力。

4.1 在不同语言间的互操作方面

在不同语言间的互操作方面,我国应引进国外成熟的知识组织系统,将其或国际上某一领域较有影响的知识组织系统译成中文,或将我国知识组织系统(如《中图法》、《汉语主题词表》等)进行改造编译为多种检索语言。如《国防科学技术主题词表》的主表为英汉对照,词汇完全取自国外相关的词表,且可与国外词表兼容映射,方便知识组织系统的互操作[11]。我们还可以借鉴我国CAT/AGROVOC互操作项目,即《中国农业叙词表》(CAT)和AGROVOC的映射方式,将我国各专业领域发展的各自领域知识组织系统与国外知识组织系统相映射,从而实现某一具体专业领域中外叙词表的互操作。

4.2 在中外分类法的兼容与互操作方面

《中图法》是我国目前使用最广泛的综合性分类法,应以《中图法》电子版为核心建立中外分类法兼容系统,通过MARC21规范文档或中介词典等作为中介进行转换,将中外其他分类法通过《中图法》这一中介词典进行集成映射,实现中外分类法相互兼容转换,用户可通过一种分类法的分类号快捷地转换为其他分类法的分类号,同时又可通过《中图法》的类目体系,将各种分类法集成在一起。建立以《中图法》电子版为核心的中外分类法兼容系统的方法及步骤是利用现有《中图法》电子版的数据,对原CLCMARC格式进行修改,将国内外分类法的相应类号映射到《中图法》电子版的每一条数据中,并调整、修改目前《中图法》电子版的窗口,实现国内外分类法的互操作[12]。另外,也可采用同现映射技术来实现中外分类法间的互操作。同现映射技术主要基于统计方法和计算机辅助完成,通过查找不同系统,统计同一图书采用多种分类法对应不同分类号同现频次,计算分类号之间的相关度,来确定类目的兼容关系建立映射,实现中外部分分类法到《中图法》的互操作。

4.3 在多种主题词表及跨领域知识组织系统的互操作方面

不论传统文献资源,还是现代网络信息资源,分类法和主题法都是我国主要的信息组织方式。其中,《中图法》是我国目前使用最广泛的综合性分类法,《汉语主题词表》是目前国内规模最大的主题词表。其他的一些知识组织系统互操作研究也主要以《中图法》和《汉语主题词表》两部综合性知识系统为中心,各专业领域发展各自的领域知识组织系统。如我国《计算机文献标引对照系统》,实现了《中图法》、《科图法》、《人大法》三种分类法分类号之间的映射,以及三者与《汉语主题词表》的主题词相对应,既具有联机标引功能,又可用于检索选词选号,如果将其再与DDC、UDC等进行映射,可能将会产生更大的作用与影响。随着中文资源的日益丰富和需求的日益膨胀,我国知识组织系统的互操作也不能仅局限于专业领域知识组织的系列化、翻译与映射等,而应该借鉴国外知识组织互操作的成功经验,采用和学习国外一些先进的互操作技术,如映射、集成词表、链接及多种互操作方法并用的技术等,将国内现有的各种叙词表、标题表、分类表等进行更深层次研究实现它们之间的映射互操作,建立综合化多种叙词表及跨领域多来源知识组织系统互操作,以满足不同类型、不同层次用户的检索需求[13]。

5 结语

综上所述,我国虽然在分类语言和主题语言互操作方面做了一些研究,并取得了一些进展,但与国外相比,我国在知识组织系统互操作研究方面较为单一,发展相对滞后,应用还远远不够,尤其在网络中的应用现状还是不令人满意,远远落后于欧美一些国家。因此,为了更好实现跨库检索与浏览、提供“一站式”服务,我们应该借鉴国外知识组织互操作的成功经验,采用和学习国外一些先进的互操作技术,将其应用于我国知识组织系统互操作研究中,并采用多种模式和方法,使我国在跨语言互操作,中外文分类法兼容及分类语言和主题语言之间互操作,以及跨词表和跨领域知识组织系统互操作研究方面取得很大的进展。另外,我们应该充分利用愈来愈丰富的网络信息资源,并通过互联网络,将我国的信息资源与国外进行传递交流与共享。只有这样,我国在知识组织系统互操作研究上才能适应当前快速发展的计算机和网络时代,为人们更好地服务。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

国内外知识组织体系互操作模式与方法研究_中图法论文
下载Doc文档

猜你喜欢