基于本体的知识组织与知识检索_本体论论文

基于本体论的知识组织与知识检索,本文主要内容关键词为:本体论论文,知识论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 关于本体论

本体是一个源于哲学的概念,原意指关于存在及其本质和规律的学说,后来被计算机科学领域引入,在计算机科学中扮演着越来越重要的角色。本体能够将某个领域中的各种概念及概念之间的关系显性地、形式化地表达出来,从而将概念中包含的语义表达出来。它强调领域中的本质概念,也强调这些本质概念之间的关联。然而到目前为止,在计算机界还很难为本体论下一个确切的定义。其中,斯坦福大学的Gruber给出的定义得到了多数同行的认可,即本体论是对概念化的精确描述,本体论的最终目标是精确地表示那些隐含的信息,使它们可被软件系统重用和共享。具体地说,一个本体论是对概念化的精确描述,它刻画了概念之间的内在联系。从形式上,一个本体论可以用语义网格来表示。在语义网格中,每个结点表示一个概念而结点之间的联系表示概念之间的关系。在实现上,可以用关系数据库来存放和管理一个本体论。本体是一种技术,它可以在许多涉及知识表示与共享的环境下应用。

作为一种有效表示概念层次结构和语义的理论和方法,本体已经被广泛应用于计算机科学和信息管理领域,并且被成功应用于构建新的智能信息组织和检索系统。由于本体具有良好的概念层次和对逻辑推理的支持,基于本题的知识组织和检索是基于知识的、语义的匹配,在查全率和查准率上有更好的保证。近年来,本体理论的发展和逐步成熟为信息组织和信息检索技术的发展带来了新的动力。

2 基于本体论的知识组织

2.1 资源组织

资源组织体系包括数据组织、信息组织和知识组织三个层次,知识组织是数据组织、信息组织发展的必然。数据组织仅解决了异构数据库中信息实体的合并问题,无法反映信息实体间客观存在着的多种联系。如何在异构资源系统集成的基础上,揭示客观存在于不同资源系统中的信息实体之间的关系,便成为信息组织要完成的任务。但信息组织的深度仅信息实体和文献层面。没有揭示信息试题内部的概念和语义,因而从信息组织系统中所获取的还是文献(信息)的集合,而不是知识的集合。实现知识的有效获取,满足用户的知识需求,便成为知识组织要完成的任务。

2.2 知识组织

所谓知识组织,是以知识组织方法为指导,以数据组织、信息组织为基础,以知识组织体系为支撑,组织资源结构中概念及概念关系的一种组织方式。任何领域的知识成果,都要以概念的形式固定下来,概念是知识的基本单元。概念间存在着多种复杂关系,通过各种逻辑关系联系起来的概念集合,就形成概念系统,有它特有的、不同于其他知识体系的概念集合。知识组织的主要对象是内在于知识体系中的知识结构和概念及关系。知识体系不是各种知识内容的汇集,而是相互间具有逻辑关系,具有一定层次结构,结构性是知识体系的基本本质。知识组织的本质,就是通过一定的技术手段,通过本体、主题图等知识组织体系,将内在于知识体系中反映知识结构的概念体系组织成一个能够有效获取知识的知识网络。

知识组织的重点和精髓在于知识及知识的关联进行有效描述、处理和表示。围绕知识组织的精髓,产生了主题图、本体等新型知识组织体系。其中本体正是由于其有知识组织体系的功能,能够实现对知识结构的描述与揭示,从而成为知识组织的主流技术。

在该领域专家的帮助下,建立相关领域的本体;收集信息源中的数据,参考本体论对异构信息进行标引,并参照已建立的本体把收集来的数据规定格式存储在元数据库中,实现异构信息的组织。

2.3 基于本体论的知识组织的特点

我们认为基于本体论的知识组织应具有以下特点:(1)关系稳定。本体论在概念选择上没有严格约束,但一般应选择本质性概念,一旦概念确定,则概念的相互关系也就稳定下来。(2)网型结构。本体论各级概念间可以相互渗透,因而其概念关系一般都是网型结构。(3)主观性。本体论源于哲学,哲学与主观认识的不可分离性决定了基于本体论的知识组织具有主观性,每个人对某领域的本体认识可能不同,可以导致不同的本体论体系。

3 基于本体论的知识组织实现

基于本体论的知识组织首先要构建一个形式本体,也就是能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法。这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。

3.1 第一段:概念化

所谓概念化就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属中关系、交叉关系、全异关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。元概念选择可以根据需要增减,以这些元概念为核心,再根据信息学内容和表现形式进一步分类,就很容易与实际存在的信息或知识相连通。那么,建立本体论概念应采取如下的方法:(1)确立本体应用的目的和范围。这是建立本体的第一步,也就是所研究的领域任务或任务。在建立相应的领域本体论或过程本体时,领域越大,所建本体就越大,因此需限制研究的范围。(2)本体分析。定义本体所有术语的意义及其之间的关系,该步骤需要领域专家的参与,专家对该领域了解越深入,所建本体就越完善。(3)本体表示。一般用语义模型表示本体。(4)本体体验。建立本体的基本标准是清晰性、一致行、完整性、可扩展性。清晰性,就是本体中的术语无歧义的定义;一致性,就是术语之间关系逻辑上应一致;完整性,是指本体中的概念及其关系应是完整的,应包含该领域内所有概念,但往往很难达到,需不断完善;而可扩展性,即本体应该能够扩展到该领域不断发展时能加入新的概念。(5)本体的检验与建立。对所建立本体应按以上标准进行体验,符合要求的可以文件形式存放,否则转回本体分析(如图1所示)。

图1 本体的体验

3.2 第二段:模型化

在本体概念确定后,所谓模型化就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型,用网络联络。与普通树型数据结构的元数据不同的是,形式本体论容许各级概念的交叉渗透(如图2所示)。

图2 本体的模型

3.3 第三段:软件化

所谓软件化就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面接可以将世界所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。

4 基于本体论的知识检索

4.1 传统信息检索机制的局限性

传统检索技术实现的方法多采用词切分、单汉字以及词切分和单汉字相结合,检索主要借助与目录、索引和关键词等方法来实现。此技术的优点是简单、快捷,但缺点是无法挖掘信息之间的内在联系,无法理解用户的需求,无法有效地处理互联网上的海量异构信息。

传统的基于关键词匹配是基于学科分类的检索工具,之所以不能令人满意,最主要的原因之一就是由于在信息资源的组织和查询中,没有考虑到信息资源所蕴含的语义关系,无法挖掘概念之间的内在联系,搜索出更深层的信息联系。那些没有被文字直接表达出来但隐含在文本内容中的一些重要的信息也无法被检索,导致了信息检索效果的查全率和查准率比较低。

4.2 基于本体的信息资源检索

有什么样的组织方式就有什么样的检索方式。搜索信息本身并不是目的,当人们带着某些目的搜索信息时,希望搜索到的信息能够帮助人们达到这个目的。信息加上用户的目的,实际构成了知识。因此,在检索的过程中,用户的搜索目的是知识,而不是毫不相干的信息。基于信息组织的关键词匹配的信息检索技术无法达到对知识的检索和利用。

针对当前信息检索工具难以满足知识获取的需求状况,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索。由于本体具有良好的概念层次结构,并且支持逻辑推理,这就使得本体在信息检索,特别是知识检索中得到了更加广泛的应用。借助于本体论的信息检索技术能够挖掘出信息之间的内在联系,使得信息检索的结果能更准确、更全面地反映用户的要求,可以实现知识检索的目的。

借助与本体和语义词典对关键词语义的刻画,系统能够自动寻找另一条合理的路径,进一步查找。假设要检索有关“本体轮在信息集成方面应用”的相关论文,先根据用户的检索要求,提取检索原始关键词,即“本体论”和“信息集成”。由于论文数据库中没有“精确”包含这两个关键词的相关论文,因此,基于传统信息检索技术的查询结果则为空。但根据语义词典,可知“本体论”和“信息集成”与其他关键词之间存在有丰富的语义联系,如“本体论”和“本体”、“本体理论”、“信息知识本体论”、“元数据”、“语义网络”之间存在同义关系等,因此,系统则根据关键词的语义关系(等价关系、上下位关系),自动更改查询条件,做进一步的查询。

下面以查询学生信息为例子,介绍一种基于本体论的检索方法(见图3)。

图3 查询学生下棋技能例图

要想实现查询学生信息的目的,传统的做法是在建立好的学生信息管理数据库系统中使用按关键词匹配的查询功能。然而,基于关键词的查询有时是不能满足人们的要求的。例如,挑选一些会“下棋”的同学去参加一个校际棋类比赛。假如在建立的能力查询系统中找不到一个人懂得下棋,系统只能返回空记录给用户。然而,事实上存在某些同学会下“象棋”或“围棋”,按常识,这些人也应该符合查询要求,他们可作为候选人提交用户。但传统的数据库做不到这一点。当然我们可以通过进一步输入关键词达到目的,但我们不能保证用户对“棋类”所有的子域都了解,这样就使得查询的结果可能会有遗漏。而借助本体论,则可以避免这样的情况发生。假使我们已经为其建立了一个本体论,其中的某一部分如图3。现在要查询懂得下棋的学生。假设不能得到结果,那么由图3可以看到,小刚具有“下象棋”的能力。按常理,他也同时具备“下棋”的能力。一般认为,具备某领域的子领域能力的人,同样具备该领域的知识。我们把问题进一步推广,现要查询具备“下围棋”能力的同学,以“下围棋”作为关键词同样没有结果。然而从图3可以知道小名属于围棋协会的会员,而围棋协会使用了“围棋”作为协会的成员所拥有的技能。因此,小明可以作为候选人输出。

5 基于本体论的知识检索实现

针对当前信息检索工具难以满足知识获取的需求,在检索机制中引入本体,使检索系统能对查询请求和信息源进行语义分析,实现基于语义理解的知识检索。检索时,可以借助本体论将用户的需求转换成规定的格式,并在元数据库中进行匹配,然后通过符合要求的元数据来从异构信息源中查找到原始信息,并将结果返回用户,这样用户与信息系统的沟通效率便得到了很大的改善。

另一方面,本体论可以在用户检索的过程中为其提供多个检索入口。由于本体论是对概念之间关系的深层次揭示,可以形成庞大而有效的本体网络。因此,它能够为用户提供更多的检索点,比如可以提供某一事物在分类法、中图法、科图法、叙词表和不同语种的表示,这样,用户只需从自己最熟悉的检索点进入,而且还可以检索到所有相关信息,而不用去熟悉各种不同的异构信息库及其检索策略。此外,我们还可以提供某一概念的上位词、下位词、同义词、反义词等来方便用户扩大或缩小检索范围,提高检索效率。基于本体的Wed信息检索系统的一般模型(见图4)。

图4 基于本体的Web信息检索系统模型

6 元数据在基于本体论的知识组织中的运用

元数据是对网络信息标引发展起来的,它以Web页作背景,通过元数据将Web信息组织起来,构成基于元数据的有序信息系统。元数据的产生和发展,为网络信息资源的组织提供了重要手段。基于元数据的信息组织具有元素恒定、树型结构和客观性的特点,在文献信息处理中,元数据主要关系文献的外在形式特征,其主要学术意义和应用价值在于组织信息。

本体论则是针对特定领域的知识处理发展起来的,它以特定的知识资源作背景,帮助我们在特色数据库建设中把该领域文献的内在内容特征,按照一定的知识结构,通过某领域的形式本体论组织起来,构成基于本体论的知识研究系统,因而在知识组织与知识处理中具有特别的学术意义和广泛的应用价值。

知识组织和信息组织有特色数据库相互通融、二者具体各自不同的发展前景,但可以在信息和知识的集成处理中获得统一。从知识组织的角度来开,本体论的确更适用于网络环境下的知识表达,而知识表达最终的结果仍是为了信息资源的检索做准备。因此,在对与知识相关的信息资源进行组织时,需要利用元数据来关注文献资源的外在形式特征的描述,应用元数据实现对信息的组织管理。

在基于本体论原理组建的知识数据库中,在本体论关系模型和内容组织构架的基础上,有关信息的处理,可以依靠元数据来为各种形态的数字化信息单元和资源集合进行规范的著录描述、确认、监管保护和长期有序保护,以及制定描述资源的相关著录细则,进行资源外部特征的标引,组织信息层面的信息组织和信息检索。通过元数据的标引实现对各种信息资源的检索和利用功能。这些数据库的建设,无疑是充分利用本体论和元数据的各自优势的一种很好的结合。

7 结语

本体论的构建和应用在国外已成为研究热点,但在国内还处于研究的起步阶段,特别是本体论在信息管理领域中的应用还没有形成完整的体系。本文对基于本体论的知识组织和检索进行探讨,希望有助于本体论应用于知识组织和检索的实现,希望不久能将其应用于数字图书馆的知识组织和检索中。

收稿日期:2008-08-18

标签:;  ;  ;  ;  

基于本体的知识组织与知识检索_本体论论文
下载Doc文档

猜你喜欢