关联数据研究进展概述,本文主要内容关键词为:研究进展论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:201l-01-14
2007年5月W3C(World Wide Web Consortium)关联开放数据项目正式启动,其目标是号召人们将现有的数据公布成关联数据,并将不同数据互联起来。关联数据提出的目的是构建一个计算机能理解的具有结构化和富含语义的数据网络,而不仅仅是人能读懂的文档网络,以便于在此基础之上构建更智能的应用。目前,关联数据逐渐得到学术界、工业界、政府部门的广泛关注。
1 关联数据概念、基本原则
1.1 关联数据的概念
关联数据的概念为WWW(World Wide Web)的发明者,被誉为互联网之父的Tim Berners-Lee于2006年在《关联数据笔记》中首次提出,在该文中他分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键则是关联数据。2009年在TED大会上,他提出关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用[1]。有学者侧重对语义的认识,如白海燕认为关联数据是用来在语义网中使用URI和RDF发布、分享、连接各类资源,强调建立已有信息的语义标注和实现数据之间的关联,具有框架简洁、标准化、自助化、去中心化、低成本的特点,为构建人机理解的数据网络,提供了根本性的保障,为实现语义网远景奠定了坚实的基础[2]。Boutin G也持同样的观点,认为关联数据是提供了关联结构化数据的新媒介,可以更好地让机器读取这些数据[3]。还有一些学者则认为关联数据是一类实践活动。维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识。Christian Bizer也认为关联数据是利用网络关联不同类型数据的实践[4]。
1.2 关联数据的基本原则
Berners-Lee提出的关联数据遵循四个方面的基本原则,获得了业界的广泛认同:①使用URI作为任何事物的标识名称;②使用HTTP URI让任何人都可以访问这些标识名称;③当有人访问某个标识名称时,提供有用的信息(采用RDF、SPARQL标准);④尽可能提供相关的URI链接,以使人们可以发现更多的信息[1]。IBMCSDL Web2.0开发人员张静、马春娥经过分析也提出了构建和实现关联数据的三原则:①资源。发布一个领域的数据之前,要确定发布的资源是什么。只要你认为是有意义的,有被引用必要的,都可以称之为资源。②资源标识。任何一个资源都是用HTTP URI来标识。之所有要用HTTP URI来标识,是希望数据能够通过HTTP协议访问,真正实现基于Web的访问与互联。③资源描述。资源可以有多种描述,如HTML、XML、RDF以及JPEG。文档Web的文档主要通过HTML格式来表示,数据Web的数据主要通过RDF格式来表示。RDF将一个资源描述成一组三元组(主语、谓语、宾语)[5]。
2 关联数据的总体进展研究概述
2.1 关联数据的发布研究
2.1.1 关联数据的发布方式研究 关于如何发布关联数据目前还没有指南性的文档,但已有许多不错的参考资料,例如《如何在网络上发布关联数据》教程[6]和白皮书《部署关联数据》[7],该白皮书采用了OpenLinks Virtuoso软件作为例子。除此之外,还有一些使用URI的推荐方法,比如W3C的工作草案《语义万维网的“酷”URIs》(Cool URIs for the Semantic Web)[8]。关联数据发布的关键之处在于积极地使数据单元之间的联系具有一定的语义(属性或关系,即三元组中连接主客体的“谓词”),它利用URI进行对象标识,并通过HTTP协议进行揭示和访问。我国学者刘炜介绍了关联数据URI的发布细节[9]:①URI中避免使用空白节点,避免具体化,尽可能不使用RDF的集和包;②采用内容协商(Negotiation)、URI参引、CoolURI(也就是采用hash和303转向方式指向资源);③鼓励RDF中链接,可以用URI别名;④鼓励本体/模式重用,遵循术语定义的最佳实践;⑤在RDF描述中“必须包含”对该资源描述的内容;⑥封装非RDF的数据库或API,使封闭世界的数据开放出来。
2.1.2 关联数据的发布工具研究 实际上大量已存在的数据并不满足关联数据的原则,于是关联数据的推动者开发了一系列实用工具,来协助完成传统数据向关联数据转化。一般来说,有以下几种关联数据的发布工具:
·实现关系型数据库RDF转化的工具。①D2R[10]。D2R是其中一个非常流行的工具,它的作用是将关系型数据库的数据转换为虚拟的RDF数据进行访问。D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping语言。D2RQ Engine并没有将关系型数据库发布成真实的RDF数据,而是使用D2RQMapping文件将其映射成虚拟的RDF格式。一般来讲,数据库的数据规模都比较大,且内容经常发生变化,转换为虚拟的RDF数据空间复杂度会更低,更新内容更加容易,因此D2R的应用更加广泛。②Triplify[11]。Triplify是一种小型的Web应用插件,能将关系型数据库发布成真实的RDF数据。基于重新映射HTTP URI请求,Triplify可以分析查询所返回的数据,能将HTML DOM数据以RDF格式序列化输出,从而揭示出关系数据库中所保存数据的语义结构。Triplify有利于中小型的Web应用参与到语义网中来,因为不需要为建立和维护大规模的语义定义而付出大量的努力,支持开发人员拓展关联数据在Web环境下的应用。
·直接生成RDF数据的工具。①Virtuoso Universal Server[7],该工具可以经关联数据界面或一个SPARQL端点将数据转化为RDF数据,且可直接存储在Virtuoso;②SparqPlug[12],它能从网络上的传统HTML文本(不包括PDF数据)直接抽取关联数据,能将HTML DOM数据以RDF格式序列化输出,并允许用户自定义SPARQL查询。
·其他发布RDF数据的工具。①Pubby[13]。Pubby能拓展支持SPARQL访问的RDF存储功能,它将URI请求转换成潜在RDF数据查询语言SPARQ,还能提供简单HTML浏览调用数据库。既提供对关联数据的查询访问,还能为两种不同类型数据库间访问提供303转向方式指向资源。②Talis platform[14]。Talis是一款通过HTTP访问,并提供RDF或关联数据存储的软件服务平台。访问权限允许的话,每个Talis平台存储的内容都可以通过一个SPARQL端点和一系列符合关联数据原则的REST API访问。
2.2 关联数据的应用研究
自2006年以来,关联数据得到了广泛的认同和快速的发展,至2009年7月RDF三元组已超过47亿个,涉及网络通用本体、大型传媒、商业企业、政府部门、图书馆、学术出版、搜索引擎等众多领域。随着大量的关联数据在网络上发布,越来越多的组织和个人开始加强对关联数据的研究和应用。Michael Hausenblas将关联数据的应用分成四大类:①内容再利用,如市场研究工具BBC’s Music Beta;②语义标签,如Faviki、Revyu;③综合提问应答系统,如DBpedia mobile、Semantic CrunchBase Twitter Bot;④事件数据管理系统,如OpenLink’s Calendar等[15]。国内已有学者开始研究关联数据的应用,如李亚婷、曹洁对Web环境下关联数据的应用进行了分析,认为关联数据的应用主要有两方面:语义标签和Web资源集成[16]。黄永文则对关联数据在图书馆中的应用进行了详细的阐述,如提出利用关联数据扩展资源发现服务、在学术研究和学术交流中发挥作用以及实现图书馆与教学系统之间的集成等[17]。关联数据的应用研究主要集中在多媒体(如BBC)、文献出版物(如DBCP、SWC)、生命科学(如Uniport、Pubmed)、地理科学(如Geohames)等领域,其中地理和生命科学应用领域相对广泛。应用案例分析;如英国广播公司BBC拥有每天1 000-1 500档各类节目,这些节目基本上都是利用独立的内容管理系统,要揭示所有节目及相关内容的内在联系,是一件巨大的难题,解决的成本过于高昂。BBC采用MusicBrarnz作为受控词表、基于图的属性相似度比较等多种形式,实现了与DBpedia映射性链接,把不在同一存储库中的同一主题内容联系起来,从而扩大了开放的衔接,增添了来自其他LOD云图中数据。同时允许用户发现、关联并利用BBC关联数据,通过HTTP URI机制直接获取,BBC网站和数据的可用性大大增强,用户体验得到巨大提升。
2.3 关联数据与语义网的研究
目前Web上存在着丰富的知识和信息,但由于其内容组结构松散,数据源之间存在异构性,人们缺乏有效方法利用它们,可见当前建立在标准化语言上的Web并不具备良好的语义表示能力,给基于Web的知识级信息集成和交换带来了困难[18]。为了扩展万维网的能力,万维网联盟的Tim Berners-Lee在1998年提出了“语义网”概念,它的核心是:通过给万维网上的文档(如HTML)添加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介[19]。
语义网的前景已有许多学者从不同角度进行了预测或解释,尽管存在这种多样性解释,建立机器可读数据的目标是不变的。据Berners-Lee[20]描述:把数据以一种机器可自然理解的格式发布在网上(如利用科学家开发的一系列元数据描述语言(如RDF/RDFS)和本体描述语言(OWL等),或者把数据转化为这种格式,就初步实现了所谓的语义网络——一种能为机器直接或间接读取数据的网络。当大量存在本体和元数据时,让人联想到“互联网就是一个大数据库”,这些数据资源本身就成为了人类知识的巨大资源。这种以数据资源为基本组成单位的Web,其资源(数据)都标注有元数据描述,从而能够进行语义查询及数据整合,提供了互联网上实现语义互操作的技术平台,使计算机能够为人类完成繁琐的知识发现、获取和处理任务。所谓知识发现,就是从数据集中识别出有效的、新颖的、潜在有用的及最终可理解模式的过程。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告[21]。
关联数据提供了关联结构化数据的新媒介,可以让机器更好地读取这些数据。但是,关联数据本身不会给信息增加任何语义含义,而是更好地携带语义数据,供用户访问。所以,关联数据虽然本身并不具备语义特征,但它可以在数据层面建立关联,为真正的语义网铺平道路。两者的关系如图1所示[9]:
图1 关联数据与语义网络的关系
语义万维网最好被理解为一种愿景或者目标,希望机器代理可以使用经过富语义标注的数据来创建链接,找到信息或者自动地在背后替人做事。严格地讲,在语境信息的Web访问和语义万维网的长期愿景尚无着落的前提下,关联数据提供了一种可行的最佳方案。当越来越多的个体和组织发布关联数据,构造数据网络时,分布式、异构数据源的数据集成和可重复使用的门槛将逐渐降低。假以时日,以关联数据为基础,一些复杂的提议如智能化利用等语义万维网愿景有可能实现[22]。
2.4 关联数据挑战性问题研究
2.4.1 关联数据的用户接口问题研究 对用户而言,关联数据的最大优势在于提供一个整合广泛的、分散的、不同类型的数据资源接口,而现实中许多Web应用通过Web API提供自己的数据,如eBay,Amazon,Yahoo,Google。关联数据与Web2.0 API的区别见表1。
虽然,从表1可以看出关联数据的浏览或检索很好地显示了关联数据的应用发展趋势,但是有时候,用户得到的整合数据并不是自己想要的结果,这给关联数据的应用接口带来不少挑战——它必须以人为中心,才能有长久的生命力。如超文本浏览器可以保证以文件为中心的信息实体的前进与后退,那么关联数据浏览器也应该在浏览时保证实体的前进与后退,那就需要提供一个有效的机制来添加和移除相应的数据资源,而对于海量的网页数据,用户接口的实现是一个极具挑战的问题[16]。
2.4.2 关联数据的法律许可问题研究 在数据网络中,为鼓励更好的数据提供者参与并且保证消费者能够规划地使用数据,一些发布与利用关联数据的框架协议是必不可少的。目前,有三种与关联数据开放有关的协议,即开放数据共用、关联协议和“创作公用”Creative Commons(CC)。开放数据共用是一种开放数据的知识产权声明,用以规范、约束、明确数据拥有者、发布者、使用者在获取、传播、利用、再生产数据时的权利和义务。关联协议是Talis公司发布的一种协议,目的是直接支持公共领域关联数据的发布和再利用,数据提供者和用户都可以无偿使用Talis的数据服务。CC是一种公共领域协议,可以使作者或者版权拥有者将他们的作品贡献到公共领域。研究者如何根据这些协议取得法律许可,在现有用户界面上整合再利用数据,需要进行更深一步研究[22]。
2.4.3 关联数据的评价问题研究 应用关联数据需要考虑的问题是,如何确保数据是用户最需要的或是最合适的,因此需要合理的对关联数据进行评价,从而使用户能快速地从大量数据中获取完整、可靠、有效的信息。但是,当前的语义网关联数据检索方法(如标准的W3C本体查询语言SPARQL)并不提供评价方法,而将常用的信息检索中的评价方法,如PageRank算法、HITS、VSM等,直接应用到语义网中并不合适,因为万维网网页之间的链接具有相同的含义(即超链接),而在语义网中关联数据具有异构的语义,并且传统的搜索技术通常是查找包含查询关键字的网页,却忽略数据间细粒度的语义关联关系。Bizer和Cyganiak提出了以不同的内容、上下文关系和评级为基础的启发性评价方法,但是该方法[23]还需进一步优化,以适应数据网络的快速发展。一些相对成熟的技术如WIQA[24]和网页推理[25]也有助于对关联数据的查询结果进行测评。
2.4.4 关联数据利用中的隐私问题研究 关联数据的最终目的是把互联网当成一个全球数据库加以利用,这个愿景的实现将给许多领域带来好处,同时也会带来一定的负面影响。一个可能的问题就是整合不同来源的数据可能侵犯了他人的隐私,在关联数据领域保护隐私需要技术手段和法律方面的综合考量。Weitzner在这方面展开了研究,在最近的Transparent Accountable Data Mining Initiative(TAMI)项目有关“信息责任”中就有所论述[25]。
3 结语
关联数据是值得关注的新概念,早期研究主要集中在关联数据的发布和浏览方面,以解决将不同格式的数据发布成关联数据的问题。随着网络上关联数据的不断增多,关于关联数据的应用研究将成为其重点研究内容。总的说来,关联数据的研究与实践在国内外已取得了一定的成就,其相关的理论、软件和技术日渐成熟。笔者相信,随着研究的深入、技术的发展、研究主体的扩展,关联数据就像传统Web所带来的巨大变革一样,关联数据也给Web数据的获取与应用带来新的机遇,它将使互联网发生深刻的变革。