基于本体的知识检索模型及呈现技术研究,本文主要内容关键词为:本体论文,技术研究论文,模型论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G250.73
修回日期:2008-09-22
知识检索的产生与发展一方面来源于用户对知识检索的需求;另一方面来源于信息检索理论与实践的发展与完善。知识检索模型和知识检索呈现方法[1]是知识检索的重要研究方面,以本体作为知识组织的方法,能实现基于语义的知识检索。
1 知识检索技术的研究与发展
在W3CHINA.ORG讨论区[2]中呈现了如下的关于知识检索的介绍:①知识检索的基本思想就是模拟扩展人类关于知识处理与利用的智能行为和认识思维方法;②知识检索通过挖掘其深层含义,充分精确地表达知识资源和用户需求,进而在各类异构的数据库、数据仓库、知识库中进行检索,返回最相关的结果的检索机制;③基于Ontology的知识检索可以阐述为:在领域专家帮助下建立领域Ontology,把收集来的数据按规定格式存储在关系数据库、知识库等的元数据库中;④查询转换器按照Ontology把查询请求转换成规定的格式,从元数据库中匹配出符合条件的数据集合,检索的结果经过定制处理后返回给用户;⑤知识检索的基本特征有:支持自然语言检索;支持语词、语义内容的处理,实现同义词扩展检索和关联检索;具有概念推理和学习功能;具有强大人机交互接口。
知识检索是一种全新的信息检索方式,是在现有的信息检索技术以及模型上发展而来的。搜索引擎是当前检索信息的主要方式,它们能在短时间内反馈给用户大量的信息,但反馈信息中的信息噪音过大,其中包含了太多的无用信息;目录分类的数据库规模较小,以致某些主题下收录的范围不够全面,检索到的信息数量有限。可以看出,传统的信息检索缺点在于没有从语义层次上对信息进行标引,不能够满足用户在语义和知识上的需求。而知识检索是综合运用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理与多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取文本、图像、视频、声音等媒体类型的知识源,并能准确精选用户需要的结果[3]。知识检索是将信息或知识按照一定的方式组织、存储,并根据用户的需求找出相关信息和知识的过程。在这个过程中,被检索的对象是知识资源、知识库。知识检索就是采用一种从语义上标引文章的技术,形成知识库,再从知识库中查询用户所需的信息。
知识检索和信息检索的不同,在于知识检索强调了语义,它从文章的语义、概念出发,能够揭示文章的内在含义,而不像信息检索只是基于字面的机械匹配。知识检索提高了查全率和查准率,减轻了用户的负担。表1从检索语言、检索模型、组织方式、搜索方式和检索效率方面进行了归纳。
与主题词表或分类表不同的是,本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,本体是一种知识组织体系。以本体作为知识组织的技术和方法,能实现基于语义的知识检索。知识检索是传统信息检索的发展,随着人工智能、系统信息管理等相关高新技术的运用,提供个性化、智能化的主动信息服务也将是知识检索的发展方向。当前,图书情报档案的知识检索系统更加注重文本挖掘的功能,如大规模实例描述的汉语分词排歧知识库,具有主题词典和内容相似性检索功能,自动分类、聚类和自动摘要功能,文本数字理解和新词学习功能等。
2 基于本体的知识检索模型
2.1 信息检索模型的发展
经典的信息检索模型包括布尔检索模型、向量空间模型和概率检索模型[4],目前大多数检索系统往往综合上述各种模型,以达到认为最佳的检索效果。这些检索模型的不足是:在文献的组织与描述上,采用词切分和单汉字或两者结合标引文献,将关键词作为描述文献的基本元素,文献之间是相互独立的;在检索操作上,是基于关键词的无结构查询,难以反映词语间各种语义联系,查询能力有限,误检率和漏检率很高;在模型约束方面,索引项之间独立性的要求不符合实际情况,计算查询和文档之间的相似度的方法也有局限;虽经不断完善,也难以从根本上适应网络巨量信息的检索。
由此,一些学者从不同角度提出了基于知识的检索模型,如分类检索模型、多维认知检索模型、分布式检索模型、概念检索模型[4]等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点,以概念词典为辅助,采用人工智能技术,增强搜索引擎概念分析理解能力,从概念层面上来处理用户的查询请求,从而实现特定领域的概念检索。上述检索模型由于没有知识组织体系的支撑,没有实现对检索对象的语义标注,也没有对其语义进行解析,因此被解释为基于知识的信息检索模型。
2.2 基于本体的知识检索
基于本体的知识检索模型在资源对象的组织、描述、表示、检索和模型约束等方面都具有自己的特征,主要表现为:
●在检索对象的组织上,知识检索模型利用领域本体作为组织资源的基础。首先构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具与模型,如各学科领域的主题词表、分类表,在此基础上确定领域知识本体的主要概念和概念间的各种关系,构筑领域本体的概念模型。
●在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。
●本体概念的优化检索依赖于本体检索语言的功能。在支持本体检索的诸如RQL,DQL,OWL-QL,SquishQL,RDFQL,RDFPath和Versa等知识语言中,以RQL作为知识检索模型的检索语言[5]可以满足知识检索的需要。
●知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念间的语义关系,实现知识检索[6]。
●在模型约束上,知识检索模型的约束比较少,但要求概念和关系构成一个有向图,关系必须是有方向的;另外,要求每一个概念/实例都需要有一个唯一的标识。
2.3 Ont-KRM:基于本体的知识检索模型
基于上述约束和所建立的本体原型,笔者设计了的基于本体的知识检索模型Ont-KRM(Knowledge Retrieval Model on Ontology)。Ont-KRM分为人机交互部分、知识源部分、检索匹配和本体库等部分,如图1所示。
图1 Ont-KRM:基于本体的知识检索模型
●人机交互部分主要是分析用户提交的检索请求,返回整理检索结果。检索请求的分析主要是依据本体知识,分析用户的真实检索意图,形成规范、准确的检索请求,提交给检索匹配模块。检索请求的分析主要分为以下步骤:①对检索请求进行预处理,提取需要检索关键字(词);②借助本体并在必要时通过和用户再次交互,判断检索请求中关键字(词)的领域、相关概念等等,确定用户的真实意图;③将用户的真实意图形成统一、规范的检索请求提交给检索匹配部分;④在对用户意图进行分析和交互的基础上补充和完善本体库中的相关知识;⑤对检索匹配部分返回的检索结果进行处理、合并后返回给用户。
●知识源部分主要对知识源进行收集、并对收集的知识源根据本体库中的知识进行标注和分析,对从知识源中抽取的知识进行转换,对本体库中的相关部分进行补充和完善,建立对应的索引信息,放入索引库。
●检索匹配部分主要是从人机交互部分收集统一的检索请求,并依据本体库中的相关知识对检索请求和索引库进行语义与语法层面的匹配,并将检索结果返回给人机交互部分。
●本体库部分应该说是整个模型的核心部分,从对检索请求和检索结果的处理,到对检索请求和索引的匹配,再到对知识源的标注、索引的建立都基于本体库中的相关知识。同时,上述各个过程又可以对本体库中的知识进行补充和完善。当然,对本体库中知识的任何修改都要经过领域专家和系统的双重认定。
3 基于本体的知识检索呈现
3.1 知识组织体系及本体的语义标注
所谓知识组织体系,是对资源内容概念及其相互关系进行描述与组织的机制[7]。目前图书情报界公认的知识组织体系是主题词表和分类表,但本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联。本体是一种知识组织体系,以本体作为知识组织的方法,才能实现基于语义的知识检索。因此,本文的知识检索模型和方法都建立在本体基础之上的。
目前信息机构中采用的元数据方案大多源自于对馆藏进行长期保存的目的,并不能够完全满足知识组织的要求。通过元数据的描述,可以充分揭示元数据的元素及元素揭示内容的语义含义,达到进行元数据互操作和对内容进行知识组织的目的,笔者重点研究以下问题:
●标注元数据元素的语义。元数据互操作常见的困难是元素间同名异义和异名同义,RDF的思路是如果不同元数据中的元素指向同一个资源,那么这些元素具有同一语义。根据信息机构数字资源的特点,选用DC元数据作为元素语义的最终解释。也即如果说不同元数据中的元素都可以使用DC元数据中的同一个字段进行解释,那么这两个元素就认为在语义上相等。操作时将元数据与DC元数据元素之间的映射关系放在数据提供者方,当数据提供者在进行注册或者使用的元数据发生变化时,由其管理人员对映射进行定义。
●标注元数据元素内容的语义。在解决了元数据元素的语义以后,采集回来的元数据应该用什么方法进行组织,与元数据元素内容的语义相关,因此还需要揭示元数据元素内容的语义。笔者通过RDF的描述方式来对元数据元素内容的语义进行揭示,框架中定义了一个关于元数据元素内容的ontology,并通过URI建立元素与ontology中的条目之间的关系,以此来标注元素的语义。
●标注知识组织的内容。在对数据源的元数据进行描述时,数据源的管理人员可以根据元数据元素的功能对其进行区分,只提供标注内容的元素。这样,既减少了进行元数据描述的工作量,也为知识组织能够更有效的进行提供了方便。另外,对知识的组织还需要根据系统的实际需要有所选择,在进行元数据采集时,可以通过定义对DC元数据的哪些元素内容进行组织,然后再反向定位到与其相关的元数据元素来确定知识组织的内容。
3.2 知识检索呈现
知识检索呈现要解决的问题就是知识提供的形式和检索结果显示的形式。常见的知识呈现方式主要有概念图(concept map)、思维导图(mind map)、认知地图(cognitive map)[8]、语义网络(semantic network)、思维地图(thinking map)等。信息检索和知识检索呈现之间虽在呈现方式上存在着相互借鉴,但它们之间的区别还是很大。表2从呈现对象、呈现目的、呈现方式和交互类型等方面加以区别:
从呈现对象看,信息检索呈现的对象是信息,而知识检索呈现的对象是知识,包括知识本身和检索结果中的知识;从呈现目的看,信息检索呈现一是从大量信息中发现新的信息;二是将检索结果直观的呈现给用户以提高检索效率。而知识检索呈现则在于促进知识的传播和创新,方便用户更好的认识和获取知识;从呈现方式看,信息检索呈现的方式通常是图形、图像,而知识检索呈现的方式包括知识图表、视觉隐喻等;从交互类型看,信息检索呈现的交互是人机交互,而知识检索呈现的交互是人人交互。
资源的显示方式取决于资源的组织方式。信息组织线性的、无结构的方式,决定了信息的提供与获取是以关键词和分类目录及索引等途径来实现的,检索结果显示的是一组基于关键词层面上的没有语义的文献集合。而知识组织基于领域本体,是对概念关联的组织,所以知识检索显示的应是反映知识内容和概念关联的知识网络(或称知识地图)。简单地说,知识网络是对领域知识结构的展示,是对已获取的知识以及知识之间的关系的可视化描述。
3.3 基于本体的知识检索呈现技术
基于本体的知识检索呈现,是指通过一定的知识表示技术,将领域知识按照一定方式,清晰有序地在一个统一的界面上展示出来,以供检索者方便地查询与获取知识。基于领域本体的知识网络具有三个特征:①定位知识,给出任何一个概念,都可以显示该概念在知识体系中的位置;②揭示知识关联,知识网络不仅要确定概念的位置,还要揭示此概念和其他概念间的语义联系,描述知识网络中各种关联;③可视化展示,通过直观、形象的模式、模型、图形、图像等方式,展现知识地图。
下面以笔者开发的知识集成原型系统中的“知识检索系统”为例,来说明知识检索的呈现方式。
该系统是一个基于与鲁迅相关资源知识的领域本体原型的知识检索系统。这个领域本体原型的构建以分类/主题一体化词表为基础。由于分类和主题表达的对象都是主题概念,两者之间存在着隐含的概念对应关系。与鲁迅相关资源知识的领域本体概念网络的显示以及对知识的获取,是通过概念浏览和概念检索实现的。
●页面布局。用户界面分为概念导航区和概念检索区两个部分,概念导航区是领域本体中各类概念的分类导航,点击具体的分类之后就可以在右侧的知识导航区,显示概念的网络关系图。概念检索区在输入需要检索的概念,并进行进一步细化之后,就可以看到以相关的网络概念图和相关的概念实例。
●概念浏览。概念浏览主要实现经济本体概念的分类导航和主题导航,可循着学科等级和概念间的语义关系进行浏览,起到知识导航作用。分类导航可对领域本体的分类知识树进行逐次浏览,选择一个分类概念,即可同时显示与该分类概念对应的主题概念关系,包括等同关系、等级关系和相关关系。反之亦然,可通过音序对领域本体的主题概念树进行层层浏览,选择一个主题概念,即可同时显示与之对应的学科类目(可以是一个类目或多个类目)。例如,在“分类导航”目录树中选择“阿Q正传”,主题概念浏览区便显示“阿Q正传”概念关系,点击概念关系就可以显示属于“阿Q正传”概念的文献实例,如图2所示。
图2 知识检索系统“概念-分类导航”界面
●概念检索。概念检索可以通过自然语言检索本体概念及关联。如果检索词是本体概念,即显示该概念及其概念间关系,同时显示与之相关的学科分类类目,以实现语义的扩展检索和关联检索。对于本体库中没有的检索词,由于系统建立了与本体概念对应的自然语言术语库,在主题概念显示区即显示与该检索词对应的主题概念及关系,分类概念显示区显示与之对应的分类目录。例如,在检索框输入“阿Q正传”,主题概念显示区显示“阿Q正传”的概念关系,“分类导航”目录树中显示与之对应的类目(图书资源中的《阿Q正传》出版物,档案资源中的《阿Q正传》手稿,其他资源则是显示讨论阿Q精神的各类网络文章和站点等);关键词浏览区显示与之对应的关键词(阿Q正传手稿、阿Q精神、阿Q话剧等);文献概览区显示与“阿Q正传”相关的资源(题名或关键词含有“阿Q正传”的资源)。
4 结语
知识检索是为适应知识组织的发展趋势,以解决信息检索机制检索效率低下而提出的一种新的检索理念。在知识组织的基础上,知识检索是从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现概念语义检索的智能化检索方式。基于知识的信息检索是指在信息检索的框架下,通过一些智能化手段改善检索效率和效果的一种方式,目前的“概念检索”、“语义检索”、“智能检索”等都属于这种表述形式;而知识检索不等于知识的信息检索,它是基于某种具有语义模型的知识组织体系,知识组织体系是实现检索的前提和基础,知识检索则是基于知识组织体系的结果;它又是对资源对象进行基于元数据的语义标注,元数据是知识组织体系的语义基础,只有经过元数据描述与标注的资源才具有长期利用的价值。