Mushup技术标准的研究进展及应用对策_元数据论文

Mushup技术标准研究进展及应用对策研究,本文主要内容关键词为:研究进展论文,技术标准论文,对策研究论文,Mushup论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

集成融汇(mushup)是利用从外部数据源检索到的内容来创建全新的创新服务应用的交互式的web应用程序[1]。近年来mushup的相关应用一直在稳步增加,单从programmableweb登记情况来看,2008年1月到2008年7月,mushup的相关应用就从原来的2600多种增加到3200多种,增幅超过20%[2],随着mushup技术应用难度的降低及技术普及,这种应用还会出现迅猛发展。作为信息服务重要机构的图书馆,利用mushup技术将更多的信息资源为信息用户服务也成为一种比较迫切的实践需求。mushup技术的标准规范是开发集成融汇相关应用基础,研究和分析mushup技术标准规范现状和未来发展趋势也变成了开发mushup技术应用之前必须要做的事情。

mushup技术就是mushup应用程序涉及到的网络服务技术、开放集成技术等技术总称。实际上,由于mushup技术应用可利用外部数据源的多样性,其涉及的技术也非常复杂,涉及标准则更加繁杂多样。囿于文章篇幅,本文只是从两个方面探讨mushup技术规范体系,而且重点讨论的是技术规范体系中重要规范2005年以后的研究进展。

2 mushup技术规范的主要研究进展

2.1 网络服务技术规范的研究进展

网络服务技术规范是mushup技术规范的主要部分,主要涉及到语义网、服务网格、SOA、webservice、web 2.0和微格式等。《现代图书情报技术》2007年第5期的“网络集成服务标准”专题对服务网格、SOA、Webservice中涉及的系列标准规范,文献[3]对微格式的发展都给予了较为详细的介绍。本文主要介绍语义网和web 2.0相关标准的研究进展。

2.1.1 语义网标准及相关研究

万维网专家Karl Dubos等在2008年3月报告[4]中,将语义网近年主要发展的技术总结为:SPARQL,GRDDL,RDFa,OWL,RIF,相关技术标准也是mushup特别值得注意的。

(1)SPARQL系列标准[5]。2008年2月,万维网之父Tim Beruers-Lee在接受访谈时特别强调新推出的SPARQL系列标准将会对未来网络的发展,特别是语义网的发展,产生非常大的影响[6]。因此,所有的网络应用,包括mushup应用都需要特别关注SPARQL。SPARQL是W3C2008年1月份推出的推荐标准,包括“RDF查询语言”、“RDF SPARQL协议”、“RDF查询结果XML格式”三部分。SPARQL使用HTTP GET发送查询请求,接受XML或JSON存储的结果,所有的应用程序不再需要直接的RDF编程,只需要利用SPARQL处理器。其中,SPARQLRDF查询语言标准定义了RDF查询语言的语法和语义,包括SELECT查询语句、FILTER限制条件、“SELECT、CONSTRUCT、ASK、DESCRIBE”四种查询式、相关的运算符等。SPARQL RDF协议则详细规定了如何使用WSDL2.0描述SPARQL查询式到SPARQL查询处理服务器的传递过程以及查询结果返回的过程。RDF查询结果的XML格式则详细规定了如何使用XML语言来描述结果文档,这里的查询不但包括RDF的查询,也包括SELECT系列查询和ASK布尔查询。

(2)GRDDL。全称Gleaning Resource Descriptions from Dialects of Languages,是W3C2007年11月推出的标准规范草案[7]。GRDDL规定了如何在形式良好的XML和有效XHTML文件中增加和使用GRDDL,如何在XML命名域和HTML配置文件中设置GRDDL,以及如何利用XSLT之类的链向算法,从XHTML和XML文档中抽取语义数据。由于微格式采用XHTML描述语义信息,语义网主要使用XML描述语义信息,GRDDL标准就将微格式和语义网联系在了一起,为二者相关应用的mushup提供了条件。

(3)RDFa。全称Resource Description Framework attributes[8],W3C提出的直接在XHTML内包含RDF数据的一种机制,类似于微格式。RDFa使用XHTML的meta要素和链接要素组成的要素集合,使网页可以标识任意数量和任意复杂性的机器可读的语义数据。目前W3C相关的标准主要有两个工作草案:2008年2月推出的RDFa in XHTML:Syntax and Processing和2008年3月推出的RDFa Primer,前者介绍了相关的语法,后者则介绍了如何实现。RDFa目前包含的属性包括about、rel和rev、href和src及resource、property、content、datatype、typeof等。

(4)简单知识组织系统(SKOS)。W3C针对SKOS近年推出了系列工作草案标准,其中比较重要的是2008年1月推出的SKOS Reference[9]。该标准替代了2005年推出的SKOS core Vocabulary规范草案,为语义网上的知识共享和链接系统(比如:叙词表、术语表、主题词表、分类表等)定义通用的数据模型,该数据模型为现有的知识管理系统向语义网开放相关的端口提供了标准和低成本的转换路径,也为研发和共享新的知识管理系统提供轻量级直接的描述语言。SKOS Reference整个规范包括了SKOS词汇、概念资源、概念方案、词汇标识、文档属性、语义关系、标识关系和概念集合等。

2.1.2 web 2.0标准及相关研究

web 2.0技术的发展使得用户参与创造的丰富、高质量的资源越来越多,将这部分资源纳入到mushup中则是非常有意义。为了实现web 2.0资源的互操作性,Wiki、RSS、Social Network都在进行相关标准的研究,并取得一些成果。

(1)Wiki标准。国际Wiki会议WikiSym2006年成立的标准工作组2007年推出了WIKI资源描述标准Creole 1.0。该描述标准详细规定了Wiki的字体(粗体、斜体)、内外交互链接、段落、断行、列表、图片、表格、非Wiki内容、括号表达等相关的设计和描述格式等[10]。M.Vlkel等提出了Wiki Interchange Format[11],详细说明了Wiki资源的存储方式(按目录存在文件夹中)、存储内容(包含index.html、wiki.txt、wif.xhtml、index.rdf、附件)、各种不同的链接格式不同表示方法等。

(2)RSS标准。2007年10月,RSS 2.0推出RSS最佳实践规范[11]。该最佳实践规范描述了如何创建RSS文档,对RSS要素定义使用MUST NOT等对如何使用进行了说明。规范以“必须”、“推荐”的形式列出了各种数据类型(字符型、日期型、URLs等)和RSS各要素(频道、描述、链接、题名、分类等)及其子要素的具体使用规则。为了加强RSS的双向反馈共享,微软公司2007年5月推出新版的RSS SSE(Simple Sharing Extensions)标准[12],使用<sx:sharing>、<sx:related>、<sx:history.>、<sx:unpublished>等6个要素为RSS拓展了多种属性,记录用户的创建、更新删除、合并和冲突解决行为,跟踪用户RSS提要的使用情况并反馈给RSS提要提供者。TETF推出的RSS另一种提要格式Atom,2007年10月推出Atom的发布协议标准App[13],使用http和XML 1.0发布和修改网络资源应用层面的协议,详细规定了相关术语、协议模型(识别和命名、文档和资源分类、控制和发布等)、协议的具体实现(检索某个服务文档、创建资源、修改资源、删除等)。

(3)Social Network标准。Google 2007年11月推出的OpenSocial标准[14],实际上是一套通用社会化网络程序开发的API。该标准提供了一系列的JavaScript API Reference,列出了“行为”、“地址”、“电子邮件”、“环境”、“组织”、“电话信息”等通用要素以及这些要素的子要素和具体设计算法。另一套社交网络标准由OpenFriend项目组推出[15],包括FOAF(Friend of a Friend)、SNAP(Social Network Aggregation Protocol)、OFF(Open Friend Format),还定义了SNAP/OFF兼容的社交网络、SNAP代理和SNAP/OFF聚合器等应用规范,规范在保护用户隐私的同时,将社交网络联系信息的导入导出过程进行了标准化。

2.2 开放集成技术标准规范的研究进展

mushup技术中的开放集成技术主要涉及元数据、各类的互操作和交换技术。其中,元数据除少数通用元数据外,多数都和专门的mushup领域有关系,由于文章的篇幅所限,这里不再赘述。这里主要介绍一下互操作技术和交换技术的几个重要标准规范。

2.2.1 互操作技术的标准规范

(1)元数据登记标准。在元数据登记标准中,特别需要关注的是:劳伦斯伯克利国家实验室的eXtended Metadata Registry(XMDR)项目[16]对ISO/IEC 11179进行了拓展,使其具有了语义处理能力,改善了传统数据管理能力,具有更强语义管理和语义服务能力,能够进行语义计算;2007年6月推出Common Logic标准[17],用于逻辑语义数据互换,主要作用是表征本体和知识信息、规范推理机限定条件和表达方式、解释语言符号、转化标注内容等。

(2)OAI相关标准。openarchives组织在原来OAI-PMH基础上,2007年10月推出了OAIORE[18](Object Reuse and Exchange),定义了网络资源聚合的描述和交换草案。2008年2月推出了ORE用户指南,介绍了如何使用Atom描述资源地图,同时推出的还有ORE Atom Profile规范和用RDF语法表征资源地图规范。2008年3月推出了抽象数据模型,该抽象模型由聚合、聚合资源、资源地图(ReM)、资源地图文档、代理、代理文档组成。资源图的基本RDI图,还规范了资源图和聚合之间、资源图和聚合的元数据之间、聚合资源和聚合图之间存在的关系。同时推出的ORE术语规范,则定义了OAI-ORE所使用的词汇(Entities、Properties、Types、Relationships及其各自包含的术语组成的术语集)。

(3)DOI和OpenURI相关标准。2008年1月,ISO推出DOI标准[19]。该标准规范详细定义了DOI语法(规范了DOI前缀、后缀等)、DOI名分配(DOI名范围、粒度、具体描述等)、DOI名解析和DOI元数据,为网络资源提供永久性识别符。而OpenURL相关标准则在NISO 2005年推出Z39.88后,2006年推出OpenURL CoinS(ContextObjects in Spans)标准[20],可在HTML中嵌入书目数据和引文数据。包括VuFind在内很多系统都已经支持。

2.2.2 交换技术标准规范

(1)EXI格式规范。W3C 2008年3月份推出了高效XML交换格式Efficient XML Interchange Format[21]1.0的第三版草案。该格式详细规定了如何用简短语言描述XML信息集合,以利于优化可计算资源的可用性能。EXI使用相对简单的算法(迅速简约的实现算法,小数据类型集),提供高效的XML事件流编码。

(2)RIF(Rule Interchange Format,规则交换格式)[22]。mushup应用中除资源外,还需要考虑相关规则的交换。W3C目前正在形成规则交换格式的标准体系,包括2008年4月推出RIF-BLD(Basic Logic Dialect,定义基于规则系统交换逻辑规则的基本格式)、RIF-FLD(Framework for Logic Dialects,定义基于逻辑的RIF对话的通用框架,描述逻辑RIF对话通过签名、符号空间、语义结构等实现的语义和语法机制)、RIF RDF+OWL(RIF RDF and OWL Compatibility,定义RIF和数据本体语言RDF、RDFS和OWL之间的互操作)三个草案。另外,定义相关数据类型和内嵌功能的RIF DTB、定义规则语言之间解释和规则系统问传递格式的RIF UCR、致力于产品规则互操作的RIF PRD也取得了不同程度的进展。

3 标准规范未来趋势及应用建议

3.1 语义数据mushup

Gartner研究报告2007年5月显示[23],web技术的改善将会实现在文档中嵌入语义结构。预计到2012年,基于语义的超文本技术将成为普遍使用的Web技术,在特定领域中,大型领域本体将建立起来,形式化地描述领域内的概念和及其之间的复杂关系,在此基础上,实现基于语义的各类服务。预计到2017年,语义Web的远景能够初步实现。TimBerners-Lee在对未来万维网的预测中讲到,将建立更加广泛的链接,将人与人之间、网站和网站之间都建立链接[24]。2006年Hajime Horiuchi在第九届元数据注册开放论坛会议上的相关论文[25],将元数据发展历史归纳为进程共享元数据(主要描述结构)、信息共享元数据(主要共享元素)和语义共享元数据(捕获和表征各种关系),未来的元数据共享将侧重于语义数据。

从相关的标准来看,不管是Tim Berners-Lee推崇的SPARQL系列标准,将微格式与语义网结合的GRDDL标准,还是RDFa、eRDF等语义网标准,都为mushup和检索语义数据提供了标准上的支持。微格式技术标准使用XHTML描述的个人日程安排、联系信息、个人简历、社交关系、各类评论、投票等各类结构化的个人信息以及用XML、RDF、OWL等描述的其他语义数据则为语义数据mushup提供了数据源。从元数据标准来看,ISO/IEC 11179通用数据语义标准在近几年的国际元数据登记会议中研究最多,拓展后形成XMDR使该标准具有了更强的语义处理能力,而逻辑语义数据互换标准Common Logic则可以实现本体及知识信息的表征等逻辑信息共享化的语义表征,这些为语义数据的mushup的互操作提供了技术保障。

3.2 web 2.0资源mushup

web 2.0资源的集成融汇主要包括两个层面:一个是web 2.0与语义网、网格等资源之间的融合,另一个层面是web 2.0技术产生资源之间的融合。

(1)web 2.0与语义网、网格等之间融合的研究。2007年,语义网格专家Geoffrey Fox在语义网格会议的主题发言中[26],特别强调web 2.0和网格及web-service的关系,强调将web 2.0的技术和资源融入到网格服务中,并介绍他们在语义网格中融入web 2.0的思想和技术,构建语义研究网格的实践。语义研究网格将标签和检索系统集成在一起,允许用户使用多个不同的站点,并与传统的引文数据库紧密集成在一起。2008年,“网络语义:万维网科学、服务和代理”系列会议有专门专题探讨语义网和web 2.0相结合的相关研究[27]。

(2)web 2.0资源mushup相关标准研究。从目前的研究来看,web 2.0主要技术除了博客外,多数2006年后都有了相关新标准或者标准的更新版。Wiki资源描述标准Creole 1.0、Meatball推出的Wiki置标语言标准[28]以及M.Vlkel提出的Wiki互换格式都为mushup Wiki资源提供标准上的支持。而RSS2.0最佳实践规范详细规定RSS提要诸多组成要素的具体使用规则,Atom标准、Atom Publish Protocol标准、RSS SSE将Alert类信息资源各种子要素内容的提取和跟踪都成为现实,web 2.0资源的mushup具更细的粒度和交互性。Google推出的OpenSocial标准API可以实现对多种社交网络中人与人之间关系的mushup。web 2.0中由信息用户创建的各类资源未来将会全部纳入到mushup范畴中。

3.3 专门mushup标准的出现和发展

mushup标准已经出现了专门针对其的标准,这类标准集成了多种相关的标准成相关统一可用的标准。除前面介绍的OpenFriend外,还有OpenAjax、OpenSAM、OAuth、SMash等。其中OpenAjax[29]被认为是下一代mushup技术和相关产品中最有竞争力的标准,2008年推出的Hub 1.1标准已经支持IBM的Smash标准,可以安全地从很多第三方数据和代码提供者那里获得代码和数据。OpenSAM[30](Open Simple AJAX Mashup)是由EditGrid、iNetOffice等在线应用提供商2006年推出的针对office 2.0在线办公应用的mushup标准,集成了WebDAV、OpenID、LDAP和DataPortability组织的系列标准等很多标准,主要解决的是“用户需要分别登陆现在的office 2.0应用”、“用户需要分别在使用多个office 2.0在线应用软件中下载和上传文档”、“用户无法跨office应用复制和粘贴”等问题。OAuth[31]是DataPortability.org 2006年11月开始研制的标准,是一种桌面和网络应用程序中以简单标准的方法提供安全API认证的开放协议。2007年10月推出OAuth Core 1.0的最终草案。详细规定了查询URL的编写办法、参数的编码格式、用户发送请求参数、服务器回应参数、HTTP认证的详细技术方案及过程等。Smash[32](Security Mushup)则是IBM 2008年3月推出的技术标准,来解决集成融汇中的信息安全的相关问题。

3.4 标准规范的应用建议

(1)拓展mushup资源的资源类型。目前的mushup资源按照资源类型来划分可以分为地图类mushup、视频和图像mushup、搜索和购物mashup和新闻mashup[33]。将来集成融汇的资源类型不仅包括原有这些方面的内容,还包括web 2.0环境下产生的wiki、blog、图片、社交网络、RSS、Atom和OPML等描述的Alert类提要信息以及微格式描述的个人联系信息、个人日程安排、个人简历、社交关系、各类评论、投票信息以及XSPF[34](XML Shareable Playlist Format)多媒体列表资源等。其中特别需要注意的标准包括Wiki的互换格式、RSS2.0的最佳实践指南、Atom APP以及RSS SSE。另外,还可以借助于SKOS Reference定义的通用数据模型来集成语义网上的知识共享和链接系统,如:各类叙词表、术语表、主题词表等。OpenURL COinS还允许在HTML中嵌入书目数据和引文数据,这些数据也可以纳入到mushup的范畴中去。

(2)重视对mushup语义数据的集成。从元数据中增加语义要素,到webservice标准中增加语义标注,再到语义网络最近出现的标准,mushup不但要考虑的是集成语义化、结构化的数据,数据被收集后的组织,也要尽可能采用语义化的方法进行描述,比如RDF(包括RDFa或者eRDF)和OWL,这样就可以利用SPARQL系列标准进行语义化的查询。GRRDL标准将微格式和语义网紧密地结合在了一起,对微格式类信息集成,可以充分考虑GRRDL标准,采用XSTL类似的应用从XHTML和XML的内容提取相关数据并进行集成。而为WSDL和XMLSchema的语义标注而研制的标准SAWSDL[35],能够为WSDL描述的界面和运算符增加到各类网络登记服务应用分类信息中提供标准支持,还为XMLSchema类型和本体之间的数据转换提供了标注机制。语义数据为了丰富自身知识的表达能力,需要借助于规则与本体的互补,RIF规则交换格式中RIF RDF+OWL定义了RIF和数据本体语言RDF、RDFS和OWL之间的互操作,这也是需要注意的。另外,相关元数据标准ISO/IEC11179、XMDR、ISO/IEC11404等对于语义数据的支持,也是mushup语义数据可以参考的标准。

(3)重视专门mushup技术标准,充分利用各种技术的多种标准。虽然本文对mushup标准进行了分门别类的列举和归纳总结,但是实际应用中并不会有特别明晰的划分,会综合考虑利用语义网、网络服务、SOA、网格服务、语义网格、web 2.0、各类元数据和互操作交换技术等中部分或者全部技术。比如:美国国家癌症研究所生物信息研究中心的癌症网格服务caGrid[36],其信息集成采用的标准就包含了描述逻辑标准,临床数据交换标准、ISO/IEC 11179元数据登记标准、XML Schema Web Service、Web Services Resource Framework、DICOM等。对于目前已有的专门针对mushup的技术标准,则需要充分利用,并密切关注相关研究的发展。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Mushup技术标准的研究进展及应用对策_元数据论文
下载Doc文档

猜你喜欢