本体评价的研究进展_语义分析论文

本体评估研究进展，本文主要内容关键词为：研究进展论文,本体论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

本体是语义Web技术的核心，具有高度形式化、互联共享等优良特性，目前在生命科学、医学、计算机、政府等诸多领域中广泛应用于资源的语义标注与组织、领域概念体系的构建、信息系统的互操作等过程。伴随着学术界和产业界对于本体研究与实践活动的广泛开展，本体构建活动也逐渐增多，造成目前本体数量越来越多，而本体质量却参差不齐。由于本体的开放性，任何个人和组织都有权利发布自己的本体数据，因此目前还存在领域本体重复构建、本体应用实践混乱等现象。本体评估是本体工程周期中不可或缺的一环，无论是本体构建、本体演化、本体管理、本体应用等过程都涉及对本体评估相关的活动。

本文首先分析了本体评估活动主要的应用场景，然后通过对国内外本体评估相关的文献进行综述，从基于指标体系、任务与应用、数据驱动、黄金标准、逻辑与规则、统计分析等几个角度，总结了目前关于本体评估的主要方法、评估视角、评估对象、评估效果及本体评估工具的研究进展，并指出未来本体评估研究工作开展中可能存在的问题及发展方向。

2 本体评估的应用场景

本体评估在本体工程各个阶段都有重要作用。首先，本体评估是本体构建过程的关键，良构的本体可增加用户对本体的理解从而有利于本体重用。与目前本体构建活动如火如荼的情形相比，本体评估实践活动相对滞后。本体构建需要遵循一定的原则或方法论，要满足领域和应用目标的需求，以构建出高质量、高可复用性的本体。本体评估在本体构建的过程中，对本体应用需求、构建语料选择、本体词汇选择、概念分类、概念关联等具体的环节都具有直接或间接的作用。同时，本体评估也是本体自动构建过程的必要环节，用于改进本体学习算法；

其次，本体评估是本体选择与排序的重要依据。在语义Web环境下，尤其是在大数据环境下，本体语义数据已由最开始的几个热门的领域，发展到几乎所有的领域都建立有自己的领域本体。本体数量之多，已超越了人们选择本体的能力。本体无论是应用在语义标注、信息检索还是信息系统互操作上，在面临具体的应用时，都面临着本体排序(Ontology Ranking)与本体选择(Ontology Selecting)的问题。这两项任务都是依据一定的评估指标从众多的领域相关或任务相关的本体数据集中筛选出满足需求的本体或按指标大小对本体数据集进行排序，类似于目前的搜索引擎是对海量的网页进行排序以便于用户选择，本体排序与选择也是为了满足用户对本体使用的需求；

最后，本体评估也是本体计量(Ontology Metrics[1])和语义数据挖掘的一个研究方向。本体计量常年作为国际语义网大会ISWC的一个主题，本体计量指标很多，国外相关研究也较多，本体评估是本体计量研究的一个重要的部分，对于本体计量的发展具有重要意义。类似于目前的Web数据挖掘，本体语义数据的挖掘在语义Web的发展下，也将迎来其学术发展的高峰，而本体评估活动尤其是在网络环境下，也正是本体语义数据挖掘活动的一个侧面，通过对本体结构、内容等方面的分析与挖掘，对本体关键概念识别、本体模块化、可视化等应用具有重要的价值。

当然本体评估的应用场景远远不止这3个方面。网络环境下，本体作为语义信息系统中不可或缺的一部分，在系统交互性方面发挥着重要的作用，本体的分布式查询与推理、本体核心概念识别、本体学习、本体映射、本体演化，以及诸多领域中的本体应用，都离不开本体评估对结果的保证。

3 本体评估的主要方法

本体评估可看作是由本体评估主体采用科学的评估方法对影响本体质量的各个方面的要素进行综合测评的过程。本体评估的主体决定了评估过程是人工参与的还是自动的，本体评估的方法则需要根据不同的应用场景和目的来加以选择，根据目前的研究进展，可将本体评估的方法大致分为：基于指标体系的本体评估、基于任务或应用的本体评估、数据驱动的本体评估、基于黄金标准的本体评估、基于逻辑或规则的本体评估、基于统计分析的本体评估等。本体各个方面的要素则是本体评估的对象，如本体的语法、语义、层次结构、本体的复杂性等都是本体评估的对象。

3.1 基于指标体系的本体评估

目前这类本体评估方法研究最多，首先提出本体评估的指标，或利用已有的指标，由此计算并判断本体是否满足这些指标，或对比本体在这些指标之间的差异。

3.1.1 综合性评估

Gomez-Perez[2]是较早系统回顾本体评估的学者，梳理了本体评测的指标，如一致性、完整性、简洁性、可扩展性、敏感性，以及本体构建中易出现的错误：继承循环、分类错误、冗余、语义错误等；Lozano-Tello和Gomez-Perez[3]采用AHP方法从本体的内容、语言、构建方法及工具以及构建成本等几个角度列举了本体的若干计量指标集合，来辅助本体之间的对比与选择任务。Lantow和Sandkuhl[4]从文献中收集了大量的本体结构化指标对本体设计模式(ODP)进行评估，最后从本体的清晰性、可理解性、适应性、可重用性对本体进行了专家评估，并和结构化指标的评估结果进行相关性对比；Fernandez-Breis和Aranguren等[5]从本体结构、功能、可靠性、可维护性等几个维度设计了本体质量评估指标，并由用户对这些指标进行打分评估本体质量；Tartir和Arpinar[6]将本体评价分为基于演化的、基于逻辑的和基于指标的方法，重点分析了OntoQA工具，将本体质量指标分为模式指标和本体知识库指标；Bachir Bouiadjra和Benslimane[7]对本体的覆盖度、丰富度、细节层次、综合度、连接性、计算效率几个指标进行了设计与度量；Kanellopoulos[8]从语法、语义、语用、社交、内聚度5个指标来评估本体；Duque-Ramos和Fernandez-Breis等[9，10]提出了一个本体质量评测的框架OQuaRE，包括一个质量模型和一个质量计量指标。目的是实现本体质量评价，其质量模型的特性需满足：可靠性、可操作性、可维护性、可兼容性，可移植性以及功能重组性，且每一个特征有其相关联的子特征；同时，该作者在后续的研究中[11]将本体构建指南和OQuaRE结合，使用统计分析技术来分析使用指南构建本体对本体质量是否有影响；为了实现本体在不同情境下的信息交互，Rico和Caliusco等[12]提出了一个本体评测框架，从完整性、简洁性、语法正确性、语义正确性、表达正确性、有用性等几个方面设计了可定量计算的指标；Romano和McDonald[13]收集了200多个关于本体质量的指标，从过程、产品、效果质量三个角度分析了本体质量评估的方法；Tibaldo和Wilkinson等[14]从本体的完整性、简洁性、语法正确性、语义正确性、表达正确性5个层面设计了一系列本体结构化的计量指标对本体质量进行评估；Pak和Zhou[15]设计了一个本体评估框架，将本体评估划分为五个维度：本体范围、层级、生命周期、质量原则和评估方法，其中本体范围包括领域、概念和技术范围，本体层级包括本体词汇、结构、表达/语义、上下文/应用等层级，本体生命周期包括：本体规格说明、知识获取、概念化、集成。本体质量原则包括：一致性、完整性、精确性、可重用性，本体评估方法包括：独立的方法、验证性评估和确认性评估；Burton-Jones和Storey[16]等从语法、语义、语用和社会这4个维度提出了一套计量本体质量的指标体系；Kehagias和Papadimitriou[17]从内部维度和外部维度制定了一个本体精炼的评估体系，内部维度包括：词汇、结构、语义、应用和哲学，外部维度包括：用户依赖性、本体在信息交换中的参与性、是否文档化、是否是国际标准等；Gangemi和Catenacci[18]提出了O[2]和oQual两个关于本体评估与选择的模型，以及qood-grid本体选择框架，制定了认知、透明性、计算完整性和效率、元数据层面集成、灵活性、专业性、扩展性、可达性、适应性等诸多本体选择的原则，以及反映这些原则的指标参数；Zouaq和Nkambou[19]对本体学习效果进行了结构指标评价，如类匹配度、密度、中介度、语义相似度等，并和其他评估软件TEXCOMON做了对比性评价；Sabou和Fernandez[20]将本体评估的目标分为领域覆盖度、模型的质量、本体在应用和任务中的适应性、本体的采纳与重用的评估，并在NeOn项目中对诸多的评估方法进行了实际评估操作。

在国内，马文峰和杜小勇[21]指出领域本体评价应遵循整体性、科学性、通用性、可行性、导向性和开放性原则，提出由领域本体的建设机制、领域本体的组织与管理、领域本体的呈现与服务三大类指标构成的领域本体评价体系；何琳[22]从本体的结构层次、可用性层次以及功能层次对之前的本体评估方法、指标体系、评估工具进行了分析介绍；屈妙星[23]根据用户对本体数据集的搜索度等相关指标设计了一个本体排序算法，并设计本体的可译性、准确性、全面性、覆盖度、内聚度、耦合度评估计量指标，结合本体排序算法对本体质量进行评估，并和人工投票的主观本体评估方法进行对比，以验证其方法的科学性；邵晓青和邬家炜[24]从本体规划管理评价、本体构建评价和本体应用维护评价三个层面构建本体的质量评估体系，并使用分层模糊评价法对影响本体质量的因素进行比较分析；胡璇和杨春晖等[25]从本体概念构建质量、开发技术质量和结构显示质量三个层次构建了本体质量评估体系，采用专家模糊评判的方法来评估本体的质量。

3.1.2 单指标评估

单指标是相对于综合性指标体系而言的，这类方法只针对本体某几个方面的特性设计特定的计量指标。如Dasgupta和Dinakarpandian[26]主要强调本体中非上下位关系丰富性的度量，融合信息内容、关系丰富性、空间丰富性、继承丰富性和领域重要性几个指标来评估本体质量；Ouyang和Zou等学者[27]对本体的覆盖度、内聚度和耦合度进行了度量；Sanchez和Batet等[28]通过数学上的数值方差来衡量本体中的语义分布差异，设计了一个语义相似度指标来衡量本体的质量；Alexopoulos和Mylonas[29]依靠领域专家识别本体中的模糊元素，对本体中的概念、关系等要素的模糊性进行度量，提出了模糊性扩散、模糊明确定义性、模糊强度几个指标；Fahad和Qadir[30]提出了一个关于本体错误类型的框架，包括本体不一致、不完整、冗余、设计异常四类，每一种类型还划分了一些子类型；Lu和Miklos[31]通过度量本体中概念之间语义相关性来评估本体的分类一致性；Sathya和Uthayan[32]计算了本体中关系类型的比例，用于评估本体的质量；Ning和Diao[33]从本体概念质量、本体属性期望(即概念的平均对象属性数目)与方差、本体树的平衡、概念连接性、关键概念的质量等结构指标来评估本体的质量；Beydoun和Lopez-Lorca[34]等使用集合论对本体内容进行形式化定义，如良好定义的属性、上下位层次的类别，重点使用本体概念的属性来计算本体概念之间的相似性，以衡量本体层次结构构建的优劣；d'Aquin[35]设计了若干本体一致性指标的计算方法，来衡量具体陈述与本体之间以及本体与本体之间是否一致；Zhang和Li[36]等从网络的视角，对本体网络的设计复杂度进行了评估，包括两个维度：本体层面的指标，如词汇数量、节点与边的比例、图的熵等，和概念层面的指标，如本体概念的子类数、入度和出度等；阮佳彬和杨育彬等[37]提出了本体包容性的计量指标，通过统计本体词汇是否包含于领域语料中，来衡量该指标的大小；贾君枝和刘艳玲[38]结合开放许可度、结构化、成熟度3个评价指标，对三个通用本体进行了定性的评估分析；吴芳[39]设计了一个基于WordNet的本体概念语义相似度算法，并用该方法来评估本体分类关系中的不一致错误和冗余问题，如本体中是否有环，概念语义是否相似等。

基于指标的本体评估中，也有借鉴其他领域评估体系来评估本体的，如Wu[40]使用一个已有的信息质量评测框架来评估基因本体的质量；Zontar和Hericko[41]使用面向对象软件开发中的指标，如模块性、内聚度等来评估本体；Qi等[42]混合了来自数据质量和软件质量的标准和已有文献中的本体质量标准来对本体进行质量评测，通过组合这些标准构建了一个质量评估的本体模型。

严格意义上来讲，基于指标的本体评估并不是一种具体的方法，关键在于指标的构建与设计过程，虽然目前已经有很多综合性的本体评估指标体系，但本体评估的维度、目的、对象各异，如评估本体的完整性、一致性、模糊性、是否存在错误，评估本体的概念体系、实例，评估本体的语法、语义等都不同。目前存在的综合性本体评估体系仍值得学者对其全面性进行分析。同时考虑到本体应用的多样性，本体评估指标的设计与计算也有较大差异，如将本体视为概念网络，使用网络拓扑结构特征来设计本体评估指标，以及使用统计分析、集合论等数学分析方法来进行本体评估指标的计算，或者由专家进行人工打分的主观评估。

3.2 基于任务或应用的本体评估

这种方法通过度量本体在具体应用中对任务目标的满足情况来评估本体。如Porzel和Malaka[43]设计了一个基于任务的本体评测方法，通过层次分析法来对本体满足任务的情况进行专家评分以判定本体的质量；Clarke和Loguercio等[44]通过基因本体及其标注语料集，来分析基因术语的丰富程度，以及基因本体的历时表现性能，目的在于特定生物学环境的选择；Delir Haghighi和Burstein等[45]在医疗应急管理中，使用焦点小组的人工评价来对本体指标进行评估，同时使用了基于语料的方法来评测本体的覆盖度；Bright和Yoko Furuya等[46]评价了本体在抗生素的使用决策支持系统中的正确性和有用性；Burton-Jones和Storey等[47]从本体的语法、语义、语用和社会4个质量视角，来评估本体的有效性，并辅助本体选择任务；Magee[48]采用用户对问题打分并统计分析的方法，评价了本体在本体匹配任务中的相当性(commensurability)；Yu和Thom[49]使用已有本体评估指标来进行本体浏览任务的评估；Strasunskas和Tomassen[50]通过本体对信息检索任务的改善程度来评估本体的任务适应性。

在基于任务的本体评估中，还有采用能力问题(Competency Questions)的评估方法，所谓能力问题是指那些用于度量本体是否能够给出答案的问题，能力问题一般需要使用特定的查询语言来形式化以便于相应的工具可以使用。关于这方面的研究，Al-Asswad和Al-Debei等[51]以及Rao和Reichgelt[52]通过一些能力问题表示本体质量的各个方面，这些问题可以来自于用户，用于反映本体的质量以指导本体的构建过程，类似的研究还有Katsumi和Gruninger[53]使用能力问题的方法评估事件本体；Annamalai和Teo[54]等开发了一个Protege插件，将能力问题中的要素和本体中的概念映射，找出这些概念之间所有直接或间接的关系，来验证本体是否满足了这些能力问题，进而衡量本体的质量；Alvez和Lucio等[55]采用能力问题的方法来评估本体的有用性。

基于任务或应用的评估方法也会在评估过程中涉及评估指标或进行人工评估、统计分析评估等，只不过其评估的方式是通过任务的执行情况来衡量的，结合专家评估的手段来验证也比较常见。这种评估方法直接面向本体应用，更具有针对性，但由于依赖于具体应用，也丧失了该方法的通用性。

3.3 数据驱动的本体评估

领域本体的构建一般都是来源于领域语料，这种方法通过衡量本体和领域语料的匹配度或本体的领域覆盖度来评估本体，或使用其他参考数据来辅助本体评估过程。Spyns[56]对从语料库中学习的本体进行程序上的评测，主要从本体中三元组的领域相关性角度来和专家用户的评测结果进行对比，发现事先移除一些不相关的语料并不会产生更好的三元组；Hlomani[57]从时间维度和分类维度设计了一个数据驱动的本体评价框架，来衡量本体和领域文本的相似度随时间和分类维度的变化；Rospocher和Tonelli等[58]结合WordNet从领域语料中抽取领域关键词，并和本体进行匹配来评估本体的领域覆盖度，同时考虑了本体概念的领域相关性；Kang[59]结合机器学习算法来改善基于语料的本体评价方法的效果；Solskinnsbakk和Gulla等[60]主要使用关联规则结合词性标注从Web中抽取本体概念及关系，并对抽取的本体概念层次结构进行评价，考察本体是否满足如下层次假设：父子概念关系强于子概念之间的关系、父子概念存在语义重叠，但存在不同的抽象程度、子概念中的公共部分在父概念中被定义、父概念中的一些抽象特征没有在子概念中被共享。通过将本体概念使用语料中的相关词汇表示为向量，使用向量相似度来度量上述几个指标；Ruan和Yang[61]使用基于语料的方法，评估了本体的综合性，认为本体的综合性对本体的领域语料的选择极为敏感；Gangopadhyay和Molek等[62]使用主题模型评价本体的混乱度，将本体元素使用术语-元素矩阵表示，在训练集上得到主题，并应用在测试集，得到最大似然值的分布，由此得到本体的混乱度分布；Netzer和Gabay[63]使用文本分类方法来验证娱乐领域本体实例信息的分类覆盖度和适应性，以用于改进语义搜索引擎的效果；Macant Saoir[64]使用本体来辅助词义消歧任务，使用扩算激活算法对语料中的本体实例进行标注，根据实例网络的统计数据以及标注任务的结果优劣来逆向找出本体中需要改进完善的部分；李江华和时鹏等[65]从本体对语料的术语覆盖率、关系覆盖率、关系扩充率和实例扩充率四个方面对本体的领域表达能力进行了综合评估。

数据驱动的本体评估将评估任务和构建本体的语料库相关数据结合，是常见的评估本体概念覆盖度、完整性的评估方法，这种方法常常和文本分析、机器学习技术结合，使得这类方法相对于专家的主观评估更为客观，并且使用的方法常常比较新颖多样易于验证，也常在本体自动构建或本体学习中使用。不足在于领域语料的选择本身也存在评估的问题，并且通用领域和特色领域的本体评估结果往往差异较大。同时目前此类方法主要用于评估本体的概念覆盖度，对于本体中的关系、属性、公理等则很难进行扩展评估，这方面的研究仍然是一个挑战。

3.4 基于黄金标准的本体评估

这类方法的思想和数据驱动的评估方法比较类似，都需要和参考资源进行对比，它事先假设存在一个领域的黄金本体标准，将待评估的本体和该本体进行对比来评估本体。Dellschaft和Staab[66]设计准确率和召回率指标使用黄金标准的方法来对本体学习的效果进行多维度评估，同时可根据错误发生在本体层次体系的哪个位置来设置其权重；相似的研究还有Brank和Mladenic[67]，通过设计本体之间的相似度计算方法，发现基于概念的祖先集合重叠度的相似度算法要优于基于概念树距离的度量算法；Gordon和Weng[68]通过将医学专家的诊断案例和医学临床实践指南、电子病历等融合来构造“黄金标准”以此来评估并改进其构建的传染疾病本体BCIDO；Spyns[69]对从文本中自动构建的本体进行评估，使用黄金标准的方法评估本体的覆盖度、精确度与准确性；潘有能和金罕俊[70]使用编辑距离衡量本体概念的相似度，将《中国分类主题词表》作为“黄金标准”来衡量本体概念之间的语义关系；欧阳柳波[71]从广度、深度、横向、纵向4个视角对本体内容的评估进行了分类分析，并设计了新的概念和概念关系的抽取算法从语料库中抽取本体概念及概念关系，将其作为衡量本体覆盖度的“黄金标准”来评估本体的质量。

基于黄金标准的本体评估的方法常用于计算本体的覆盖度，以及应用于本体学习算法以调节算法参数提升本体学习效果。该方法首先需要一个领域认同的权威本体或术语标准，然后将本体和该黄金标准进行对比，对比的方法诸如采用相似度计算、概念集合的覆盖率等来实现，这类方法的一个缺陷在于“黄金指标”可能难以寻找或并不存在。

3.5 基于逻辑或规则的本体评估

基于逻辑的本体表达语言可通过描述逻辑或形式化规则的一些约束特性来评估本体内容语义是否存在错误或不一致等质量问题。例如，Seipel和Baumeister[72]通过使用基于XML的查询并结合逻辑编程来检测本体中术语的错误，如不一致、不完整、冗余问题；Jimenez-Ruiz和Grau等[73]使用基于逻辑的原则将UMLS本体和其他本体进行映射以发现并更新其中的错误，保证本体的质量；Zhou和Huang等[74]设计了一个有效的算法来评估DL-lite本体中的逻辑不一致程度；Choukri[75]使用SHOIN逻辑公理与规则的专家系统对本体的一致性和意料之外的本体关系进行检测验证；Pammer和Scheir[76]使用Jena和Pellet工具来检测本体中的模式与数据的适配性，即利用领域本体中的实例来检测本体的概念覆盖度以及公理的使用覆盖度。

此类本体评估方法和本体所使用的形式化描述语言有关，由于本体描述语言具有特定的组织规范，甚至是逻辑约束，因此可使用本体描述语言背后的一套规则与逻辑约束来评估本体质量，这是本体应用的前提，不过这种方法在使用时需要本体是已经形式化好的。

3.6 基于统计分析等方法的本体评估

这类评估方法使用统计分析技术来定量分析本体的质量，可能需要人工参与评估过程。人工评估依赖于本体构建经验和原则以及对领域知识的理解程度，一般在本体构建过程中应用效果较好，可以从源头控制本体质量。有些方法是综合性的，涉及多种评估手段，同时将定量的评估结果和领域专家的评估结果进行对比的评估方法也比较常见。

Blomqvist和Ohgren等[77]的研究中由本体工程师和领域专家对自动构建和手工构建的企业本体进行对比评估，采用里克特量表式的问卷评分法对本体构建的质量指标进行对比，如本体的概念数、叶节点等基本特征，以及本体的完整性、一致性和冗余性等，并使用了OntoClean、OntoMetric框架进行了对比评估；Oliveira和Novais[78]使用里克特量表来评估临床实践指南本体的质量，通过有针对性的问题来获取本体的缺陷与不足并改善；Casellas[79]以问卷的形式向一般用户及专家进行问卷式的法律领域本体的有用性评估，如本体的概念、实例、关系等；Evermann和Fang[80]从认知的角度来分析本体的质量问题，将本体的层次结构信息使用自然语言表达，并由人工来主观判断这些表达是否符合人们的主观认识，并使用统计的方法和原始本体进行对比以发现本体中存在的认识问题。Almeida[81]对用户进行问卷式的本体评估，并和专家用户评价结果对比，主要考察了本体的领域覆盖度。

3.7 其他本评估方法

还有其他一些不好归类在上述类别中的本体评估方法，如Lantow和Sandkuhl[82]使用本体设计模式(Design Patterns)来减轻本体构建过程中的经验知识的需求程度，以评估并提高本体的质量；d'Aquin和Motta[83]使用可视化的方式将本体中不一致和争议的地方呈现出来，来辅助本体构建人员对其进行完善，通过计算本体和给定的陈述之间的不一致程度来衡量本体质量；Smith[84]探讨了使用同行评议方法来评测本体的可能性；Verspoor等[85]使用术语表现形式转换和聚类的方法来检测基因本体概念术语命名不规范的问题；Kozaki等[86]对本体中的角色概念(该概念的定义需要依赖其他概念)进行了特征分析，以用于本体内容的评估与理解；Mehta和COE等[87]从不同的方面对比了不同的评价方法在模糊本体和基因本体上的适用性，认为目前本体评估仍然是一个开放性的问题；Deng等[88]使用博弈论中的Shapley值来评价本体中的不一致问题。宋丹辉[89]根据网络用户之间存在交流互动性，用户之间的意见会产生影响以及信任问题，由此引入到本体的评估过程中，探讨不同用户对本体评估的影响；贾君枝和刘艳玲[90]对本体工程生命周期的各个阶段，如元模型阶段、模型阶段和应用阶段中涉及的评估任务进行了定性的分类分析，该评估体系十分庞杂，如含有本体评估工具的评估、本体的费用成本等内容。

通过上述关于本体评估方法的分类分析，发现各种评估方法在本体的评估对象、评估视角(维度)、评估阶段、评估范围(模式、知识库)、用户等方面都具有较大的差距。表1汇总了这些方法之间的差异。

4 本体评估的主要工具

本体在真正投入应用之前一般都需要经历评估阶段，以保证本体满足了基本的质量要求和特定应用的需求。为了加速本体评估过程，方便所有用户进行本体评估操作，需要加快本体评估的自动化程度，并设计本体评估的操作工具，本体评估方法和工具的使用都是为本体的应用而服务的，评估工具是评估方法的封装。本文总结了目前应用比较多的几款本体评估工具的特点，如表2。

5 总结

本文从基于指标体系、任务与应用、数据驱动、黄金标准、逻辑与规则、统计分析等几个角度，对国内外本体评估的方法与工具进行了详细的综述与对比分析。纵览国内外相关研究，以基于指标体系的本体评估研究最多。国外本体评估研究实践已经相当丰富，已有相关的研究专著、本体评估工具，且发展迅猛。国内关于本体评估已经引起了一些学者的注意，但研究仍多以借鉴为主，研究内容比较注重评估的综合性以及评估的原则和规划设计，本体计量与评估研究相对滞后，相对于本体构建而言，本体评估环节常常被忽视。

网络环境下，本体数量急剧增长，本体构建工作逐渐转向，人们开始面临“知识选择的困境”，因此，本体评估意义重大。本体评估是本体构建活动背后的冷静思考，当本体数据越来越多，在本体共享过程中，势必会涉及本体的选择、排序、本体质量等问题，需要本体评估活动来帮助用户正确的理解(Ontology Understanding)与构建本体，从而达到真正意义的本体共享与重用。对于本体评估，目前国际上并没有广泛认可的权威标准，面对这一新的计量对象，尤其是在网络环境下，本体评估活动涉及评测指标的设计与计算，由于本体这一研究对象和其他研究对象的差异性，使得对本体的评估比较复杂，研究视角也比较多，该研究领域亟待完善和进一步深入。另外，本体工程相关的研究还是一个比较年轻的领域，尤其是在网络环境下，本体评估研究还远未达到成熟的水平。回顾国内外本体评估相关研究，本文总结了目前该领域还存在的主要问题和挑战：

(1)评估方法维度差异较大，评估指标体系复杂，选择随意。本体评估的方法和维度太多，研究人员已经提出了很多计量本体质量的指标，虽然综合性的指标体系评估能够更好地反映本体的真实质量，但不同的指标由于评估维度的差异，导致一些评估指标的重叠性较高，如一些文献中给出的本体“正确性”和“质量”两大并列指标本身就存在很大程度的重叠。还有学者[99]认为本体评估的目标不应该让所有的指标都满足，因为有些指标之间是具有冲突的。另外，由于本体评估指标的多样性，在实际评估过程中对指标的选择比较主观随意[57]，指标设计的合理性、指标内涵的明确性、评估过程应遵循的原则和规范在大多评估实践中都较少考虑。网络环境下，除了计量本体的拓扑结构指标、逻辑语义指标之外，本体数据的使用率、流行度等也间接反映了本体的质量，应纳入本体评估的范畴，而目前这部分的研究较少。

(2)本体评估方法也面临选择的困境，评估的实践性不强。目前本体评估方法多元，既有关注本体评估过程中的共性问题，也注意了本体评估中的个性问题。但这也给用户带来了干扰与困惑，如此多的评估方法，其评估的视角、目的差异较大，评价方法之间缺乏对比论证，难以确定其适应性和有效性，使得对本体评估方法的选择较为困难。另一方面，对大量的网络本体数据进行质量评估以便于用户选择仍是一个挑战，目前的评估方法大多是对单个本体进行静态评估，对大规模的本体数据集进行评估操作效率较低，实践性不强，也造成本体评估理论与方法的拓展性不足。网络环境下的本体评估不仅要综合考虑各种本体内部质量因素，也要考虑本体的使用情况相关的外部因素。

(3)以需求为导向的本体适应性评估研究不足。无目的的评估是没有意义的，本体的评估一定要满足用户及应用的需求，即本体的适应性。目前一些本体评估方法存在评估目标不明确，评估框架或平台指标体系纷杂，不同评估方法不具有通用性或可比性等问题，不能够根据不同的应用情景、用户需求来确定本体评估的视角以及评估指标、方法、工具的选择。本体评估主要是检测本体的质量，这是应用的前提，但不是全部，只有满足用户和应用需求的本体才可更好的应用。比如，本体表达语言越复杂其对知识的表示就越精确，但高复杂度的本体的工程应用效率较低，因此本体评估的范畴应更为广泛，需要考虑本体的适用性和应用效率等方面的内容。

综上所述，未来的本体评估研究需要对目前的本体评估指标体系进行详细论证，区分指标的通用性和应用特殊性、评估的全局性和局部性、分清指标内涵和指标设计方法的差异，形成综合性、多维度、操作性强的指标体系框架，保证评估结果的有效性。在实际的评估指标选择上，可采用归纳法选择适合具体应用场景的指标，也可采用演绎法依据一定的理论，如软件工程中的理论来选择指标，增加适应性。同时，评估过程要以本体的应用目的及需求为导向，有针对性地开展本体评估活动，权衡各个本体质量指标以及本体在使用过程中的适应性，是本体评估的重要内容。最后，为了加速本体评估，需要加快评估的自动化程度，并将本体评估和本体修复过程结合，实现本体更高程度的自我完善与演化。

标签：语义分析论文; 分类数据论文; 空间维度论文; 用户分析论文; 黄金标论文;

本体评价的研究进展_语义分析论文

猜你喜欢