语义门户及其构建研究--以Swed为例_rdf论文

语义门户及其构建研究——以SWED为例,本文主要内容关键词为:语义论文,为例论文,门户论文,SWED论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

作为一种本体的概念模型,语义门户通过利用本体的概念关系,对门户中的资源加以组织,以方便用户之间的交流。在语义门户中,内容提供者以一个共同使用的领域本体为基础,使用RDF语言来注释自身所提供的各类资源,然后由领域本体爬行器在分布于网络中的内容提供者之间爬行抽取注释,再将注释存储在语义门户知识库中。用户通过智能代理和用户界面,便可以查询和浏览存储在门户中的各类知识。

与当前的信息门户相比,语义门户通过本体对已有的数据源进行语义集成和管理站点,可以降低网站的维护费用和日常管理费用。因此,语义门户可以很好地支持复杂的网络信息集成以及网站管理。

2 语义门户及其特征

语义门户使用语义Web技术提供语义检索、浏览和内容集成,语义Web标准为这种门户的设计开创了新思路,尤其是,它可以为人们如何揭示门户信息提供相关标准;RDF的出现使得信息项及相关元数据具有了灵活的、可扩展的格式;OWL能够明确揭示对信息项进行分类与建构的领域本体。同传统门户相比,使用语义Web标准进行信息门户设计的优点如表1所示。

表1 传统网站与语义门户比较分析

比较角度 传统网站 语义门户

搜索途径通过文本文件和固定通过完备的领域本体

的分类层次进行搜索实现多维搜索

信息组织结构化;使信息组织半结构化并

信息组织用自上而下的设计及具有可扩展性;使用

集中维护 自下而上的设计和分

散式更新

用户操作范 领域用户可在定义好领域用户可以添加新

畴 的门户结构中添加信的类别和组织架构,

息与注解 扩展信息结构

分散式管理门户内容,

内容管理集中存储与管理门户同一资源可隶属不同

内容 聚合并且拥有多种解

信息发布者利用可在

信息发布者通过特定多个门户之间使用的

信息的发布 的门户表单发布信息; 通用表单来发布信息;

与维护 对每个门户而言,信资料以再利用方式提

息的发布与维护由不供给多家门户;信息

同主体实施的发布与维护由同一

主体完成

面向人工读写,在合信息结构可被机器直

实现机制作者之间采用不同机接读写,有利于跨门

制实现资源共享户的资源整合

2.1 多维检索和浏览

使用一个明确的、共享的领域本体能够实现多维分类和构建浏览体系。此外,本体编码的标准格式有利于本体的重用,目前,一些项目正在采用本体进行门户设计,并已取得一定的建设成果(如PLANET-ONTO,SEAL,FORTH-Portals,TAP等)。

2.2 信息结构的演化与扩展

信息需求的变化进一步推动了信息模型的发展。在此过程中语义Web的推动作用主要表现在:首先,用户界面与提交工具可通过表达清晰的本体生成;其次,在保证当前数据可用的情况下,RDF的半结构化数据表示使人们可以使用一种新的方式来添加数据,在此情况下,原始格式与衍生格式就可以被交替使用了。语义Web的这种推动作用为语义门户的设计提供了一种另类的方法。这种方法有别于自顶向下的设计方法。利用这种方法,信息门户设计的第一步就是确定设计者扩展后的小型本体和信息结构。

2.3 领域扩展

许多门户仅提供有限的领域注解,如评论与排名,与此形成鲜明对比的是,语义Web为领域用户带来了更多的领域注解功能,例如,对那些专注于野生动物多媒体资源的门户而言,用户热衷于通过专业导航来获取相关资源(基于形式化描述的分类表或行为),这已是一个显而易见的事实。对于采用集中式管理的门户而言,这种导航往往显得遥不可及,但是,通过采用分散式的方法,领域门户就很有可能开发出专业性的门户资源导航,并将之纳入到扩展后的RDF注释集中。在此基础上,学科综合门户站点将可以把各个领域门户提供的各类资源加以汇集。

2.4 集合与分散

传统信息门户存在的一个问题是,网站的生存发展通常依赖于中心门户,一旦中心门户因资金问题而关闭,则网站的资源也将不复存在。通过运用语义Web的方法,各个网站均可以独立拥有自身的资源,并汇集了相当程度的服务,不过,网站的正常运营仍需要中心门户的支持(例如,中心门户可为各个网站提供初始发展动力并确保各个网站采用符合自身资源特点的本体和受控词表)。尽管如此,随着各个网站用户规模的不断扩大,各个网站的自身维护能力也将进一步提升。在此情况下,任何一位用户都可以接受聚合器服务,以确保自身对资源的可持续访问,而且新用户也可以将资源添加到网站中。至此,中心门户是否可持续访问将不再是各个网站的发展瓶颈所在。

2.5 跨学科门户整合

与以往将多种不同知识元聚合成一集成门户的方法一样,语义门户同样可以将多个门户整合成一个可供访问的门户。如果各个门户使用共享或兼容的本体,通过统一Web服务界面可以对几个相近领域的门户进行访问,那么对用户或软件代理来说就可执行跨门户检索,使用信息知识库网页取代脱节的、孤立的、特定主题的门户,从而进行信息检索、整合集成无缝式开放服务。

3 语义门户的工作流程

如图1所示,用户通过访问一个Web表单来创建有关他参与的公共研究机构的元数据。这种Web表单不仅可以存放在用户本地机上,还可以远程存储在网络计算机上。在SWED项目中,Web表单与语义门户的全部内容被存放在同一台机器上,但是,这并非完全必要。事实上,数据创建并没有在语义门户上进行。

图1 语义门户工作流程

元数据创建完毕后,用户将收到一封包含以下3项内容的Email,即:RDF文件的检索点、在公共研究机构网站上存放RDF的操作方法以及注册表单的链接。

用户下载RDF文件,之后将它存储在公共研究机构的网站上,而公共研究机构将拥有这些RDF文件,从而确保这些数据不被随意修改,利用本机构的网站提供指向这些RDF文件的链接,依据一定原则对这些RDF文件进行更新与修改。通过扫描相关的公共研究机构的站点,聚合器可自动收集RDF文件。作为一种可供选择的方法,用户可以通过使用注册处理方法明确地将收集到的RDF文件告知一个或者多个门户网站。

公共研究机构的RDF注册信息是通过第二个表单来完成的。该表单包含了该RDF文件的地址信息,并负责将收集到的RDF文件告知给一个或者多个门户收割器。在SWED项目中,门户收割器被纳入到语义门户中,而注册处理过程也作为数据创建应用的一个组成部分对待。

随后,门户收割器将汇集公共研究机构的RDF文件。RDF只有明确得到门户演示器的认可,才能保证其可靠性。这可以确保门户网站远离其他与门户风格相抵的信息。

4 应用实例:与环境有关的机构名录

4.1 SWAD-E项目简介

SWAD-E(Semantic Web Advanced Development Europe project)是欧盟资助的一个语义Web研究项目。SWAD-E项目的目的在于,展示语义Web各项核心要素(分散、本体、半结构化数据)综合作用下的实际应用。与此鲜明对比的是,之前的各个项目在本体的开发方面均是在集中化、自顶而下的范式下进行的。

SWAD-E设计了一个语义门户——英国环境机构名录,简称为SWED(Semantic Web Environmental Directory),试图从实践的角度验证以下构想的正确性:各机构使用网络实体工具将有关自身的各类描述置换为RDF格式,然后在其网站上保存这些RDF数据(类似于FOAF的做法),门户将各个机构的RDF数据进行汇总并以分类的方式提供浏览。第三方负责对各个机构的RDF数据进行注解,其结果由各个机构或者是注解服务器加以保存。利用这些注解,新出现的分类表和相关的链接就可以被添加到这些RDF数据中。需要指出的是,添加新链接往往被视为一种激动人心的体验,在此过程中,添加者可以发现各个环境机构之间错综复杂的关系并通过可视化的方式将之揭示出来。

4.2 SWED的系统架构

语义门户是运用语义Web技术为具有共同兴趣的团体提供信息交流的平台。从语义门户的功能角度,SWED把语义Web门户分为3层:门户基础技术层、门户信息处理层和访问层。其中基础技术层又分为系统技术和语义Web技术。系统技术是目前已成熟的技术,主要关注数据管理与系统维护;语义Web技术也部分使用系统技术,主要包括本体、推理引擎、本体管理和语义Web服务等。信息处理层包括门户处理信息的途径。在这个处理过程中,分为创建、发布、组织、存取和维护5个不同的步骤;也包括协作、同步异步等特征,并研究门户为用户的协作提供哪些工具和接口等。信息访问层包含用户与系统的交互特征,门户用户接口的可用性和门户所使用的Web技术(见图2)。

图2 语义门户系统架构

4.3 数据管理

4.3.1 数据创建和存储 与传统网站数据的创建方法相比,语义门户最显著的一点就是数据创建和存储与数据发布分开完成。一般情况下,信息提供者可以通过3种不同的方式来创建、管理数据(RDF是语义Web使用的标准格式)。比如,使用能够生成RDF文件的Web表单,或者是从数据库中抽取现成的数据,或者是利用文本编辑器来创建、管理数据。只要最终形成的文档使用了正确的RDF格式并且嵌入相关的信息类型,就能正常开展后续工作。当创建的数据被查找到,数据库就能对该文件进行复制并加以保存。机构、项目及相关模板并不是集中存储,而是分布于各个不同的网络服务器上。而在SWED中,数据与主题词表或者是词汇表同时被存储到数据库中,主题词表的作用在于对机构、项目以及与该数据相关的显示模板进行分类。门户视图系统负责导入、处理相关的数据并将结果反馈给用户,当用户浏览、检索网站时系统(以模板为基础)动态地生成视图。利用SWED提供的“分面浏览”界面,用户可依据已经汇集了相关机构或项目的分面(种类)来查找信息。

4.3.2 数据整理和发布 通过开展全面搜索网页,软件机器人对机构名录中出现的各个机构的RDF数据文件进行收割。为了实现收割必须满足3个条件:①机构名录已经收录该机构名称;②机器人自动定位相关的数据文件;③出现在机构名录中的机构已经使用第三方的RDF文件定位索引。与大多数语义Web的应用相同,SWED定期收割数据文件(通常情况下,收割频率是每天或者是每个小时进行一次),因而可以实现系统对某一特定文件的采集。数据文件一旦收割完毕,目录发布者就可将之添加到自身构建的RDF数据库中。该数据将对收割的数据文件进行备份,并以这些备份文件为内容,通过使用操作方便的系统编辑模板来创建各个具体网页。同时还有另外一种数据发布方式(更多的是指联合发布方式),即RSS(RDF Site Summary或Really Simple Syndication)新闻文件。作为一种标准的机读格式,由于RSS能够告知新闻机构或者是广大读者及时收集相关的新闻摘要,RSS受到了新闻行业的普遍青睐,并被广泛用于各类新闻摘要的共享和发布上。用户可利用各种软件(通常采用免费软件)创建个人聚合器从而选择自身感兴趣的新闻主题来收集信息。SWED通过使用基于RDF的RSS表单来发布信息,而用户则可以利用自身定义好的RSS聚合器来收集信息。

4.3.3 信息重用及丰富机制 数据重用是语义Web的重要组成部分。由于语义社区门户以语义Web技术标准为基础,因此,其他的名录机构可以很容易地收割、比较信息。比如,在收割机构的RDF文件时,名录创建机构往往立足于某一学科领域(物种保护或者是污染控制),有选择性地收集该学科领域中各个机构的RDF文件。在此基础上,名录创建机构仍旧沿袭以往的做法对收集的各类信息加以甄别。在第二阶段中,名录创建机构将添加一些补充的专家信息到相关的RDF文件中,以进一步提高该文件的“含金量”。在此过程中,名录创建机构有可能采用自身建造的词汇表对信息进行分类和描述。同时,名录创建机构也可以从第三方信息提供商那里获取信息(如提供某项污染控制服务的机构)。同样他们也可以使用自身创建的词汇表来分类和描述收集到的各种信息。通过拓展信息来源渠道并且补充新内容,原先收集的信息在价值含量上将更进一步得到提高。名录提供者通过一个可定制的访问界面为用户提供专家信息以及相关的补充信息。

4.3.4 基础数据的扩充 通过集成相关信息来扩充信息内容与价值是语义Web的核心内容。如果第三方信息提供者正在提供的信息与某一机构所提供的专家服务相关,比如,污染控制或治理服务,他们只需使用自身拥有的属性和术语来创建一个提供某一专家服务的机构的RDF文件即可。新出现的数据可方便地被添加到名录发布第三方所存储的RDF数据库中,而且只需稍微改动一下软件配置,就可以将新的信息内容发布到网络上。当然,这需要名录创建机构能够依据一个机构能否提供专家服务来查找与选择一个适合的名录发布第三方。这也包含针对机构是否提供专业领域服务、搜索或选择机构的能力。

4.4 协调和访问控制

利用分散式门户的设计理念,研究人员构建了一个有趣的安全模型。在测试过程中,聚合器对那些符合指定机构需要的、可信的资源起始URL进行备忘,在此基础上,各个机构便可以利用自身的访问权限和确认规则,对符合自身需要的资源进行更新维护。为了对符合需求的信息源进行筛选,依然需要采取一些集中管理。语义Web爬行器是一种支持新资源动态添加的方法,对于如何发现“符合特定机构”的资源这样的问题,它或许是一种解决方法,但并不能完全地解决这一问题。在协调和访问控制中,导航、溯源和数据模型是必须重点考虑的两项内容。

4.4.1 导航 如果界面复杂度控制得当,那么,门户完备的分类体系将显得作用极大。当前的研究结果表明,通过使用Flamenco项目得出的分类浏览方法,既可以保证门户具有高效的表现力,也能够使其不失简洁性。

4.4.2 溯源 将领域扩展和注解与各个机构自身拥有的数据进行无缝集成是基于语义Web信息门户设计方法的一大鲜明特征。尽管如此,让用户在浏览网页时可以明确辨认出哪些数据是来自第三方数据,这一点显得极其重要。在用户的后续操作中,他们就可以据此确定数据的出处并明确数据的可信度。为达到这一效果,设计者需要考虑这样一些问题:如何有效记录资源出处、如何构建信任模式、如何在用户界面上清晰显示溯源条目。

4.4.3 开放的数据模型 RDF数据具有开放性,SWAD-E项目建设者企望通过开发出与此符合的设计方法,以提高新属性和新类目的添加效率。与此同时,可视化搜索引擎需要根据这种新的设计方法进行相应调整以与之相匹配,而不需要在每个阶段创建模板。

5 小结

SWED项目的目的在于展示语义Web各项核心要素综合作用下的实际应用。与此鲜明对比的是,之前的各个项目在本体的开发方面均是在集中化、自顶而下的范式下进行的。初始阶段的环境机构名录原型以现有的机构数据库为基础、通过利用Jena框架和项目组自身开发的博客工具创建而成。通过以上分析可知,SWED在构建的过程中,将系统架构、数据管理、协调和访问控制作为首要考虑的三要素,项目组采用模板驱动的表示方式,通过类型与属性来确定模板的选择与设计,解决了模糊数据模型的结构化揭示问题。许多领域扩展需要的模板必须具有不可修改性,在SWED项目中,研究人员通过使用《SWAD-E SKOS主题词表》(草案)来描述导航款项,通过利用Jena规则引擎获得必需的传递闭包和其他推论。

标签:;  ;  ;  ;  ;  ;  ;  

语义门户及其构建研究--以Swed为例_rdf论文
下载Doc文档

猜你喜欢