实用分类系统与语义网:发展现状与研究课题_语义分析论文

实用分类系统与语义网:发展现状和研究课题,本文主要内容关键词为:语义论文,研究课题论文,发展现状论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G202 G250.76

1 什么是语义网和实用分类系统

语义网(Semantic Web)最早是由Bernard-Lee在1998年提出来的(Bernard-Lee,1998)。简单说来,语义网就是机器可理解的信息,是数据网或全球性的数据库。因特网联盟(World Wide Web Consortium,简称W3C)把语义网定义为因特网上数据的表述,是当前因特网的延伸,因为信息有了清晰明了的含义,人与计算机便能够更好的合作(W3C,2001)。

因特网技术发展到今天,人们一方面认识到它带来的无限机会,以及各种分散的自主各异的数据库互操作的需要,同时也认识到在利用这些机会的过程中需要做大量的艰巨工作。举一个例子,因特网上有千万个数据库,但是目前缺乏一个基本标准,或正式协议,或任何关于在这些系统里的信息含义的基础知识,这个问题对那些有兴趣使用但从来没有参与这些系统的设计的用户更是突出。解决这个问题需要理解、规范、管理信息的含义(semantics)(Meerman,2002)。因特网联盟作为“控制”因特网的机构,两年前开展了语义网的一系列研究开发工作(见http://www.w3c.org/2001/sw/),其重点在于开发以可扩展置标语言(Extensible Markup Language,简称XML)和资源描述框架(Resource Description Framework,简称RDF)为基础的实施技术方面。以语义网理论和技术为支持的实施技术中最令人瞩目的是实用分类系统(Ontologies)的出现及其与计算语言学的结合,实用分类系统成为应用领域里关于数据含义的聚集库,为实现语义网创造条件。

那么什么是实用分类系统呢?它与我们所熟悉的图书馆分类、主题词表、及其它类型的知识分类工具有什么不同呢?实用分类系统的主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,并且应用面向对象(Object-Oriented)的方法按需要给一些类目加以更细的定义(如特性、限制、推纳规则等)。实用分类系统与传统知识分类工具的一个根本区别就是系统中的概念、特性、限制条件等内容都是计算机可读(懂)的,因而实用分类表中的知识定义可以被再利用。例如,“主题”是“元数据框架”中的一个元素,在《元数据》的实用分类系统中,“主题”可以单独成为一个类目。与此同时,“资源”也是一个类目。资源这个类目除了“标题”、“作者”等特性之外,还有“主题”的特性。因为“主题”作为一个类目已经在系统中被定义过了,于是在定义“资源”的特性时,只需在系统中表明使用“主题”类目的定义即可。再举一个例子,图1是一个《数字化教育资源》的实用分类系统,(用Protégé编制),左边的框内是系统中的类别,这些类目是按一定等级体系建立和显示的,其中有一类为“Content_type(内容类型)”,还有一类为learning_objective(学习目标)”。右边的各个栏目是对每一个类目的进一步定义,包括类目的名称、定义、限定条件、类型、以及特性。特性(右下框)又包括特性的名称、类型、发生次数、特性赋值。特性赋值可以是预先定好的词或类目。图中右边所有栏目所展示的都是有关“Content_type(内容类型)”类的定义和内容,右下方的框内是“Content_type(内容类型)”类的特性,在特性框中可以看到“learning_objective(学习目标)”类被再利用成为特性”learning_objective(学习目标)”的赋值。

图1 《数字化教育资源》的实用分类系统(部分)(Qin,2003)

表1 以资源描述结构语言表述的数字化教育资源实用分类系统(部分)(Qin,2003)

利用实用分类系统的编制软件,图1中的分类系统可以用RDF结构语言表达出来(见表1),从表1中我们可以看到,每一个类(概念)、概念的特性、特性的赋值以及它们之间的关系(如上、下位类,类目的特性、或特例)都在这个表述语言中得到清楚的规定。

表2 图书馆分类法、可扩展置标语言文献类型定义、实用分类系统比较(Qin,2002)

注:RDF(S)=Resource Description Framework(Schema)=资源描述框架结构;DAML=DARPA Agent Markup Language=(美国)国防高级研究项目部网络智能代理置标语言;OIL=Ontology Interchange Layer=实用分类系统交换层。

表2将实用分类系统与传统的图书馆分类法和可扩展置标语言文献类型定义进行了一个比较,在概念定义方面,实用分类系统与其它两种知识结构基本上采用相同的方法,即对概念结构采用等级制,但并不是象纯粹的等级分类法那么严格,三者的主要区别在于概念之间关系的表达方面。总的说来,实用分类系统中概念之间关系的表达比其它两者要广而且深,这是由于实用分类系统主要是为机器增加“智能”进而实现自动处理信息,知识分享,和再利用而建立,所以在数据模型和表述语言方面,它的结构与数据库很接近,通过简单的处理即可以将整个分类系统转成数据库而直接实施到信息系统的开发和建设当中,并且可以为知识采集、知识库的建立提供框架平台,这是传统图书馆分类法所不能及的。这些特点在Smith&Zeng(2003)的文中也有详细的讨论。

实用分类系统的应用随着因特网的进化而变得日益广泛和重要,任何需要分享交流信息的领域,如医学研究、工具制作、房地产、汽车修理、金融财务管理、电子商务等等,都需要用到实用分类系统。这种应用不只是传统意义上的对图书信息的分类,更重要的是,实用分类系统在信息系统和数据库的设计中起着规范数据含义的作用,从而为语义网的实现提供一个必不可少的语义基础。

2 发展现状

语义网的发展目前主要侧重于制定编创实用分类表的标准、开发利用过程中所需的软件工具、探索性的试验项目。

2.1 有关标准

总的说来,语义网的整套标准和技术可以划分为一个从基础的国际码(Unicode)和统一资源标识(URI)到最高的信任层(Trust)的层式结构,每往上走一层的标准和技术就要变得更复杂一些,也更高级一些(见图2)。

图2 语义网的标准与技术(Berners-Lee,2000)

可以说,国际码、统一资源标识、可扩展置标语言及其相关技术如名域(Namespace)和可扩展置标结构语言(XML,Schema Language,简称XMI Schema)构成语义网的原始物理基础,这一层奠定数据的格式和语法,但并不能赋予数据以语义,即数据的含义和各种数据之间的联系。资源描述结构及其语言(RDF Schema Language,简称RDF Schema)通过定义概念之间的关系使数据能够自我描述,这项标准建立了“计算机可读(懂)数据”的环境。但是这还不够,因为计算机不能象人那样聪明地判断“电脑”就是“计算机”,而且“掌上电脑”是电脑中的一个类型,可以具有记事、日历、上网的多种功能。要让信息系统能够处理并懂得这些数据(不同的名称)和它们之间的关系,就必须设计实用分类系统(ontology vocabulary)来定义这些概念,统一用词,建立参照系统将有关的概念联系在一起。逻辑推理(logic)、证明(proof)、和信任(trust)这些最高层次的技术必须依赖于实用分类系统的建立。在图2中从下往上看来,目前国际码、统一资源标识、置标语言、资源描述结构及其语言均已趋于稳定,逻辑证明也有成熟的数学理论作基础,但是关于实用分类系统、可信度高的标准和技术仍然在讨论和探索之中。

因特网联盟提出的网络实用分类系统语言(Web Ontology Language,简称OWL)是语义网发展过程中的一个重要里程碑,这个实用分类系统的标准最近升级到候选级(Candidate Recommendation(CR)),表明它已经经过广泛的讨论并得到比较一致的认可。OWL包括6个组成部分:

·综述:介绍OWL的特点;

·指南:通过实例来演示OWL的使用;

·参考:给所有OWL的单元概念提供系统而简单的描述;

·语义和句法:OWL成分的正式名称和定义;

·试验项目:应用OWL的试验项目和范例;

·使用案例和要求:根据典型的使用案例说明应用OWL编制实用分类系统的一整套要求。

OWL标准的核心是一整套对描述实用分类系统的语言的要求。这些要求体现出实用分类系统在方法上是集知识模型构造(Knowledge Modeling)、数据库技术、置标语言为一体的产物,它的具体内容包括:

(1)每个实用分类系统本身是一个目标实体(distinct object),因而该语言必须提供独特的标识,如URI(统一资源标识);

(2)实用分类系统中的每个词必须要有独特的URI来参照;

(3)该语言必须能够清楚无误地扩展其它实用分类系统,如系统A对系统B进行扩展,系统B对系统C进行扩展,那么系统A也能对系统C进行扩展,这个性能在通过再利用已经定义的概念和特性来加入新概念的时候特别重要;

(4)实用分类系统中概念的定义是由特定条件和应用范围来决定的,所以对这些条件和范围必须有清晰明了的定义;

(5)每个实用分类系统必须伴有元数据来说明谁制作的,什么时候出版的等等;

(6)提供版本信息(Versioning);

(7)概念定义基本单元要具有能够表达复杂概念定义的能力;

(8)特性定义,包括特性、领域、范畴限制、传递性及反向特性;

(9)该语言要提供标准的数据类型;

(10)要能够表达同级类的等同关系和个别类的等同关系;

(11)具有表达其它关于概念的类型、复杂数据类型、最大值和最小值的限制的能力;

(12)支持多语种的字符模型如国际码(W3C,2001)。

2.2 软件工具的开发

语义网软件工具的开发主要有两大类,一是实用分类系统软件工具,另一类是为开发语义网应用的软件工具(Dean & Hendler,2003)。从语义网的生命周期(表3)来看,实用分类系统软件主要具有编辑、图示、自动转换置标语言、自动将系统内容转换成数据库、可以附加软件插件(plug-ins)等等功能。主要的实用分类系统和语义网软件列在表4。

表3语义网的生命周期

表4 主要实用分类系统和语义网软件

如果以现在的“混沌网”和缺乏互操作性的相互联结却又各自为阵的信息系统为起点,这些现象可以归结于一个相同的根本问题:缺乏语义。解决这些问题的办法是建立计算机可理解的实用分类系统来作为数据含义的聚集库,为数据含义、文件、协议和设计提供一个标准的参考点,包括这样一些方法和步骤:

(1)收集和编制实用分类系统

a.有结构的来源:数据库结构、某些叙词表、术语分类表;

b.半结构的来源:网页(特别是XML标记的网页)、词汇、字典;

c.无结构的来源:任何其它的文件集合。

(2)发掘、抽取或建造实用分类系统

a.有结构的来源:设计和开发逆转工程算法;

b.半结构和无结构的来源:开发利用简单的及各种其它类型的自然语言处理软件;

c.开发和试验由各个领域专家编制实用分类系统的方法;

d.设计和开发整合不同实用分类系统的方法。

2.3 探索性的实验项目

自上世纪90年代中期以来,因特网的兴起及其存在的问题促使人们不断探索新的技术和解决问题的办法。特别是在1998年语义网的概念提出来以后,研究开发如何建立语义网的方法和技术成为信息技术领域里的一个热门课题。目前计算机硬件技术(如处理速度、数据存贮、网络通讯设备的能力等)已经有了长足的发展,但是由于大多数字化信息的表述还停留在“机读”的水平,缺乏应有的“智能”去“读懂”数字化信息,因此这一点成为最大限度利用计算机技术建立语义网的一个瓶颈问题。因而语义网研究开发的活动很大程度上是集中在如何为数字化信息加上“智能”和加什么样的智能方面。

要为数字化信息加上“智能”,首先要有智能库。就象人的大脑是人体中的智能库,所有的信息处理都是通过一个极端复杂的神经网络来进行,而在这个复杂的神经网络里,每个神经元都有自己的专门职责。实用分类系统里的概念、特性、关系和规则就象神经网络里的神经单元,统管着自己那个小领域里的知识内容、特征、方法。建造实用分类系统相当于建造信息处理所需要的智能单元,是开发语义网的第一步。实用分类系统按领域知识的不同,有语言实用分类系统、医学实用分类系统等;按构造目的的不同,有通用和专用之分。但是在建造方法上,大体有两种主要方向:一是利用已有的叙词表或分类表来改造成实用分类系统,二是利用现有文献和领域专家从头做起。

利用叙词表来建实用分类系统的例子有Wielinga等(2001)将美国的《Art and Architecture Thesaurus(艺术和建筑叙词表)》中的西方家具部分进行改造,建成一个为西方古董家具知识管理所用的实用分类系统。他们首先把描述一件家具所用到的25个叙词加入一些描述特性的词,例如,功能范围的特性包括宗教、家居等,颜色下包括单色,多色,颜色类型包括主色和次色,等等。列出这些有关叙词后,再根据需要把这些词分成四大类:与生产过程有关的(如制作、式样、时期、技术)叙词,外观特征(如尺寸、颜色、材料)方面的叙词,功能特征的叙词,及管理方面的叙词。实用分类系统的建立并没有到此结束,该项目还将事例(Instances)输入到系统中,如英国安妮女皇风格的家具是与1702—1714这个时期联系在一起的。这个项目给我们的提示在于,为大的知识领域建立实用分类系统是一件费时费力费钱的工作,但是在这些领域里往往已经存在着建好的叙词表或分类表,这些工具里的概念等级结构可以用来作为基础,往上扩充概念特性、关系等这些在传统的叙词表中部存在的成分,可以达到事半功倍的效果。

医学领域里的实用分类系统有很多,比较著名的有美国的Unified Medical Language System Metathesaurus(联合医学语言系统元词表)和英国曼彻斯特大学的OpenGalen项目。OpenGalen是一个大型的医学实用分类系统,包括有2万个手术程序,近1万个解剖学的概念,1万多种药物及其有关的概念。这个系统是以分类表如《International Classification of Diseases(疾病国际分类表)》为基础,经过与领域专家和知识工程师的合作,历经十年努力而建成。纯粹的分类表如术语分类(Taxonomy)只有上位类和下位类的关系,这种等级结构把种类、部分、功能、使用等概念混在一起,虽然用来查词很方便,但是无法进行逻辑推理和演绎。OpenGalen中的概念、特性、关系等均使用第一逻辑式来表达,弥补了传统分类表的这一缺点。表5是一个OpenGalen中的概念表述例子,通过这个例子,我们可以看到概念的逻辑表述可以自动产生自然语言的表述。

表5 OpenGalen实用分类系统的概念表述实例(Rector等,2001)

实用分类系统的方法还被用于制作数字化教学资源。美国加州大学圣巴巴拉分校的亚历山大数字地球模型系统(Alexandria Digital Earth Prototype Project(ADEPT))项目为了将其资源用于教学,组织计算机、图书馆信息学、以及地理科学专家共同建立了一个用于表达科学概念的实用分类系统,该系统结合叙词表、数据库、可扩展置标语言的技术,把地理科学中的概念、关系、特性、实例等建造了一个知识库,使教师能够直接利用知识库中的成分来动态地编制教学资料(Smith & Zeng,2003)。

实用分类系统应用非常广泛,在图书馆学和信息学领域主要体现在两个方面。首先是数字化文献的处理,例如把实用分类系统作为文献写作(Document composition)软件的语义支持,使语义标记在文献写作的过程中同时产生(Tallis et al,2001)。Klein等人提出把实用分类系统作为以可扩展置标语言为基础的文献的框架(Klein et al,2001),也有人做过尝试用实用分类系统把关键词、目标(Object)和关系条件、数据库结构配合在一起,从无一定结构的文献中抽取结构信息从而使其变成有结构的文献(Embley et al,1998),或者用实用分类系统来做元数据的框架以便从半结构的文献中直接抽取元数据(Stuckenschmidt & van Harmelen,2001)。另一个实用分类系统在图书馆信息学领域的应用是检索,例如文献归类(Text Categorization)(Zhu et al,1999),利用语言实用分类系统如WordNet(http://www.cogsci.princeton.edu/~wn/)来给文献中的用词阐明含义,以提高处理检索提问的精确性(Guarino etal,1999),利用领域实用分类系统来提供概念浏览和检索(Fonseca & Egenhofer,1999;Crampes &Ranwez,2000)。

3 语义网与数字化图书馆

因特网技术的发展为数字化图书馆提供了基础,同时也提出了新的要求和课题。有人这样描述下一代数字化图书馆的特征:

·不断调整并适应不同用户群体的需要,如一般公众、科学家、专业技术人员、决策者、有个人爱好者等;

·利用方便及时的插件为不同用户群体专门编制分类查找的结构与内容;

·动态的“自注释”、“自分类”、“自整合”、“自组织”的数字化图书馆,这些依赖于不断更新的分类系统和元数据标准,也依赖于自描述的数字化内容;

·新的数字化图书馆内容类型,除文字图像外,还有试验计划、生物医学临床规则等;

·“社会通报”数字化图书馆,对舆论、社会群体网、信任网进行分析(Kashyap,2002见图3)。

图3 语义网的运行图(Kashyap,2002)

新一代数字化图书馆的许多功能都要依赖于实用分类系统,而实用分类系统的产生构造则与图书馆的传统知识管理工具有着密切的联系。图3是一个粗略的示意图,从中可见实用分类系统在语义网中起着核心的作用,而传统的图书馆知识管理工具(分类表、叙词表)可以作为一个重要的资源,经过加工处理再用到实用分类系统中。实用分类系统在数字化图书馆上的应用表现在可以为自动从信息来源中抽取元数据提供知识库和规则,也可以提供智能信息服务。

那么,从现有的数字化图书馆向语义网发展,有哪些方向值得我们开展研究和探讨的呢?从数字化图书馆的使用来看,在已经达到的功能的基础上,需要进一步做的工作有:

·从文献到事实的查询:数字化图书馆提供用结构比的查询语言查询数字化图书馆,还要为数字化图书馆用户新手提供问题回答式的服务。

·从文献到事实到知道事实的人(专家):领域专家(domain experts)在编制领域实用分类系统和智能信息服务中起着重要的作用,但是如何将专家知识转化为简单方便、能为普通用户所使用的工具是一个要先行解决的课题。

·从信息到元数据:解决如何直接从信息抽取元数据、哪里有用户所需的信息、和谁拥有这些信息的问题。

·从一般信息到具体情况和过程的信息:现在的搜索引擎还不能将查找结果进行区分,例如,从“Semantic Web”的查找结果中,搜索引擎不能辨别一条检索结果是关于语义网的定义还是关于某个公司试图通过语义网来盈利的信息。场景(context)和过程(process)信息可以帮助机器“理解”数据,从而提高查找的精确性和效率。

4 对我国发展语义网研究和应用的启示

从语义网的提出到一系列标准和相关技术的发展,我们可以看到下一代网络的发展趋势。过去十年的网络发展经验表明,当一项新技术兴起的时候,如果不投入一定的研究力量进行系统的研究和预试,那么一个企业、一个地区甚至一个国家就会在技术上错失领先、占据市场的有利地位。因此,对语义网的研究和应用对未来科技和经济的长期发展有着极其重要的意义。总的说来,建立语义网需要做扎实的基础工作,这些基础工作包括:

(1)按照当前的实用分类系统与有关技术的标准建立中文的实用分类系统,建系统的过程可以先选择几个重要而又常用的应用领域(如数字化图书馆元数据自动抽取、电子培训、灾难应急系统等)作为试验,积累一套方法、程序和工具,再推广到其它领域;

(2)对已建成的外文实用分类系统进行翻译和语义匹配,作为可互操作性的前提;

(3)对应用领域(domain)的结构、词和术语、用户的习惯进行调研,为编制领域实用分类系统(domain ontologies)提供可靠的一手资料。

从语义网开发建设的角度来看,这些基础工作很大程度上要利用图书馆已有的知识组织工具(叙词表和分类法)和技术(叙词表和分类法的编制),同时结合实用分类系统、数据库、方法论方面的研究,结合情报检索技术和方法,以及语义网服务涉及方法与信息模型构造方面的研究。从语义网用户的角度来看,要做的基础工作包括实用分类系统的内容(即专业领域,如医学、财政、制造业等),企业的知识管理系统要与现有的信息系统实践相结合,实施语义网应用的企业网站要与语义网服务整合。

标签:;  ;  ;  ;  

实用分类系统与语义网:发展现状与研究课题_语义分析论文
下载Doc文档

猜你喜欢