基于Green Linked Data的关联数据质量标准,本文主要内容关键词为:质量标准论文,数据论文,Green论文,Linked论文,Data论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
快速增长的数据网络创造了大量的关联数据,与此同时产生了大量低质量的内容。大量冗余、错误等低质量的数据给人们的数据选择和判断带来了困难,因此,如何评价关联数据的质量成为人们关注的热点问题。本文重点探索评价关联数据质量的标准与方法,为打造“绿色”关联数据提供参考。
2006年,互联网之父Tim Berners-Lee在分析Web的发展与演化的基础上提出了关联数据(Linked Data)的思想。2007年5月,W3C关联开放数据运动(Linking Open Data,LOD)正式启动,鼓励人们将现有Web数据发布成RDF形式关联数据,并将不同数据源互联起来,使任何人都可以免费获取数据。在过去的5年里,关联数据的网络呈指数增长,截至2012年7月,LODstats实时统计的数据集合是546个,310多亿个RDF三元组以及5亿多条RDF链接[1],CKAN上统计的开放关联数据集合有327个。
然而,日益增长的关联数据在丰富数据网络的同时,也给关联数据环境带来了“污染”。“污染”是指不正确、无关紧要或冗余的内容,例如断链、词表的重复定义、对同一资源使用了多个URIs等。这些污染汇集了大量低质量的数据,给使用关联数据的用户带来极大的不便。因此,保证关联数据的完整性、准确性和有效性对于关联数据的应用尤为重要[2]。
目前国内外还没有开展关联数据质量控制的全面研究,虽然已有学者探讨了关联数据质量相关的技术、评估、协议等方面内容,但还没有一个全面系统的质量标准来指导和规范关联数据运动。“绿色关联数据”从绿色工程的视角提出了打造绿色关联数据的原则标准,旨在减少数据“污染”。在此基础上开展有关关联数据质量标准的研究和制定,一方面能够从一开始就规范人们的行为和意识,确保关联数据顺利开展,另一方面也能促进人们积极参与关联数据运动,保障关联数据运动不断向前发展。
1 绿色关联数据(Green Linked Data)
1.1 绿色关联数据概述
国外学者提出了绿色关联数据的原则和框架来提高关联数据质量。这一方法来源于绿色工程领域,从生态角度探讨关联数据的发布,它采取一系列有效并可操作的评价、分析、控制方法,通过节约资源和控制污染,实现经济效益、社会效益和环境效益三者的和谐统一、可持续发展。绿色关联数据的原则和框架的目标是提出一种设计和发布关联数据的愿景,减少数据网络的“污染”,提高关联数据的重复利用并实现可持续发展。为了使这个愿景具体化,还相应地提出了一个遵循绿色工程基本原则的框架,用一些可测量的指标来评估关联数据集的绿色程度。绿色关联数据的原则和框架就是以绿色工程基本原则为基础,使用可扩展的措施和工具来验证所发布关联数据的质量及其“绿色”程度[3]。
1.2 绿色关联数据原则
绿色关联数据原则包括如表1所示的9项原则、19项标准以及若干具体措施。
1.2.1 固有的而不是偶然的
发布者需要努力确保所有数据是尽可能固有的、可靠的,尽最大可能优化质量。
1.2.2 事前预防而不是事后治疗
提前预防浪费,而不要事后处理并清理这些“污染”。数据发布者应该做到数据“零浪费”,尽量避免不被使用和消费的数据的产生。
1.2.3 最大限度地重复使用
发布者应该最大限度地重复利用现有资源,如词表、URI、链接等,参引到著名的关联数据资源。
1.2.4 设计的分离
在设计的环节中应设计模块化操作,重复利用本体和元数据。
1.2.5 效率最大化
设计数据集以实现最大限度的有效利用,应使用户短时高效地检索、查询和浏览所发布的关联数据。
1.2.6 按需发布
发布者应该了解用户需求,根据用户的需求提供相应的资源。
1.2.7 保留复杂性
发布者在设计关联数据时应当尽力使用复杂的本体或数据集,而不是提取或修改它们的一部分进一步使用。复杂性可被视为一种重复利用的投资。
1.2.8 满足需求减少过剩
数据发布者应该尽量提供数据以实现必要的功能,而不需要过多的细节,不要设计一成不变的通用方案。
1.2.9 为未来做好规划
提供及时的更新和维护是很有必要的,对仍有功能和价值组件的再利用和再配置是避免浪费的有效途径。
1.3 绿色关联数据框架体系
在绿色关联数据原则基础上,构建绿色关联数据框架,此框架搭建了一个网络平台,如图1。主要面向以下三类人群:(1)想要了解和学习关联数据和绿色方法的人;(2)想在关联数据发布之前进行在线检查的关联数据发布者;(3)想要提供有关原则的具体验证措施的软件开发人员[4]。研究人员希望通过对绿色原则的不断扩展以及对网络平台的不断充实,提高人们对网络关联数据质量问题的关注度。
如图1所示,通过这一网络平台,关联数据发布者可以免费检查关联数据数据集或词表的质量,发布者可以自由选择从一条或几条原则的角度来进行评价,通过结果的反馈,提高关联数据的质量,最终把高质量的关联数据发布到网络上,提高数据的使用效率。
绿色关联数据框架是一个开放的网络平台,允许软件开发人员提交新的验证器,也可以提出新的评价标准。此外,该平台还允许用户对每一条原则添加评论,包括最佳实践、优缺点以及面临的问题等。这些建议有助于不断扩展并修改评价标准和质量原则,从而不断完善平台的功能,为提高关联数据质量做出有益实践。
2 关联数据质量标准
2006年,Tim Berners-Lee在Linked Data一文中提出了关联数据的四条基本原则,成为关联数据相关标准的理论基石。这四条基本原则是:(1)使用URI(统一资源标识符)作为任何事物的标识名称;(2)使用HTTPURI让任何人都可以定位查找这些标识名称;(3)当有人访问标识名称时,提供有用的信息(使用RDF、SPAR-QL标准);(4)提供相关URI链接以便发现更多事物[5]。
2010年,为了鼓励人们发布高质量的关联数据,Tim Berners-Lee提出了关联数据的五星标准[5]:
网上可获取且有开放协议(任何格式);
拥有机器可读的结构化数据(例如是excel格式的表格而不是扫描的图像);
非商家格式(例如是.csv而不是excel);
用W3C开放标准(RDF和SPARQL)来描述和定义事物,这样别人可以指向数据;
将数据关联到其他人的数据来提供更多的内容。
除了Tim Berners-Lee,关联数据的质量问题已经引起了研究人员广泛的关注。学者已经探讨了与关联数据质量相关的诸多方面,如语法错误、数据集不一致、链接发现和维护、数据源的质量评估和信任机制等。接下来的工作不仅仅是对这些成果的简单补充,而是设计一个融合上述研究成果并与之相适应的质量标准体系。
本文通过对绿色关联数据原则的介绍,并借鉴相关领域数据质量和Web服务质量的标准,归纳出关联数据质量标准的总体框架。对关联数据质量的评价可以从以下四个方面进行:内容、表述、系统与应用。每个方面都有相应的标准,由于标准是非常抽象的概念,所以需要把每一个标准细化成若干可测量的指标,通过对每一项指标的评判最终实现对关联数据质量的总体评价[6]。
2.1 关联数据内容标准
关联数据内容有三个标准,即一致性、时效性和可靠性。
关联数据内容首要标准就是确保数据的正确性,而一致性则是确保数据正确性的先决条件。具体的指标包括使用同构数据类型、资源的定义要一致不可重复定义、发布的数据要完整无不相关数据等。关联数据要及时维护,随时更新数据,剔除过时和错误的数据,确保数据的使用率。关联数据要提供基本的来源信息,包括作者、发布者、出处等,用来确定数据的正确性,此外,还要使用专用的词表和数字签名。
2.2 关联数据的描述标准
从技术上看,关联数据是在万维网上发布任何“资源”的一种方式。关联数据通过HTTP URI方式描述和存取“资源”。访问的时候则链接到以RDF/XML编码的、用以指代该“资源”的数据文件,而不是其他任何格式的文档。这个RDF/XML编码的文件包含了关于这个“资源”的元数据描述和与其他相关实体对象的关联关系描述[7]。
关联数据的描述标准关注的是如何使数据有序化,包括的具体标准有三个:统一性、可理解性和功能性。统一性就是要求用通用的格式表述数据,如RDF/XML、N3或RDFa等;使用现有的词表可大大增加数据的可用性;添加参引到其他URIs的链接,可以把数据集同其他数据集连接起来,进一步丰富数据网络,而且关联到Dbpedia等著名资源有助于用户对数据的理解和使用。关联数据表述另一个重要标准就是数据要同时被人和机器理解,这也是语义网的意义所在。人们只有看得懂关联数据才会进一步理解并使用关联数据。机器能真正读懂数据,才能更加智能化,进而提高检索效率。关联数据描述的最后一个标准是关联数据的功能性。保障功能性的常用作法是提供可供选择的描述格式,添加易于人类理解的HTML格式也是推荐的做法。此外,提供多种语言供选择也可增加关联数据的利用率。另一个指标是提供SPARQL端以便用户可以查询和检索。
2.3 关联数据的系统标准
关联数据的系统标准包括对关联数据发布系统的两项标准,即系统的可访问性和系统的性能。
关联数据系统的可访问性要确保所有访问途径的畅通和功能完善。先决条件是底层服务器的搭建和参引URIs的可访问性。数据网络的一大特点是数据处于动态的变化中,新数据不断加入,导致数据不断被修改或删除,数据之间的链接也会随之变化,有可能产生断链或死链的问题,进而导致关联数据失效。目前的一般做法是忽略这些问题,当具体应用发生断链时再解决。虽然当前网络允许存在一定数量的死链,但过多的死链将使客户端发出大量无效的HTTP请求,从而影响数据网络的效率[8]。关联数据应提供关联数据源的监控插件和修正机制,来检测发生问题的链接,并辅助数据源发现和维护Web数据源之间的数据关联。
关联数据系统的性能越好,使用的效率越高。高性能意味着低延迟、高产出。提供RDF三元组,可以节省用户解析大量URI的时间,用户可以直接下载大量RDF,在本地处理并应用这些数据,这能大大提高系统性能。此外,系统必须具有良好的伸缩性,能适应关联数据日新月异的发展要求。
2.4 关联数据的应用标准
关联数据的应用是实现其价值的最终表现,高质量的关联数据必须提供简捷高效的应用途径。可以从文档有效性、数据数量和相关许可协议等方面来衡量关联数据的可用性。
文档的有效性包括影响关联数据应用的两个标准,即有效使用基础词表和有效的文档语法。在HTML文档中,大多数情况下一个无效的语法可以被浏览器所忽视,而在关联数据中,错误的RDF描述很可能导致对数据错误的解释,故发布者应严格控制三元组的正确描述。使用词表时的错误,例如使用未定义的属性foaf:image而不是foaf:img,会导致应用上的错误。
关联数据数据量直观的衡量是数据集的三元组数量和内部/外部链接数量。大规模的数据集能提供更多的数据和相关链接,有助于为用户提供所关注领域的知识图谱,展现相关的知识环境和知识节点间的关联,大大提高用户体验和满意度。除此之外,数据的范围和描述的详尽程度能帮我们进一步衡量关联数据数量方面的质量。
在数据网络中,为了鼓励更多的参与者并保证消费者能顺利地使用数据,一些发布与利用关联数据的协议许可是必不可少的。目前,有三种与关联数据有关的协议,即开放数据共用协议、开放政府许可协议、知识共享协议。提供机器可读且人类可理解的协议,规范数据传播、修改、再创作等行为,展示一个关联数据传播使用的模板,使得后续的利用与衍生有章可循,这些都是协议标准的具体要求。
上述标准体系陈述了关联数据质量相关的直观标准,并不全面、系统,还带有一些主观性。有关关联数据信任机制和安全性的问题也与质量息息相关,但由于信任机制是一个很主观的感知,而安全问题仅应用在少数非公开关联数据领域,故没有在这一部分详细讨论,需要进行更深一步的研究。关联数据的质量标准只是一个宏观的框架,现实中数据的质量究竟如何,需要消费者真正使用后,由消费者做出相应的客观评价[9]。
3 结语
关联数据的质量是保证关联数据发布、消费和再创造的关键,要想确保数据的广泛利用,就要对关联数据的内容、描述、系统及应用等方面进行全面的规范和控制。绿色关联数据的提出开创了我们从更多视角、更多领域来研究关联数据质量原则与标准的新方向。绿色关联数据所倡导的低“污染”、高效率的“绿色”理念,对关联数据质量标准的研究起到了启发与推动的作用。在绿色关联数据原则和相关元数据标准的基础上,笔者归纳了关联数据质量控制的4个方面、11个标准以及若干具体指标要求,希望该研究能引起学者对关联数据质量控制研究的关注,促进关联数据质量标准体系的早日完善,从而不断发展高质量的关联数据,形成完善的数据网络,使万维网发生深刻的变革。