主题网关及其在政府信息公开网站中的应用_元数据论文

主题网关及其在政府信息公开网站中的应用_元数据论文

主题网关及其在政府信息公开网站中的应用,本文主要内容关键词为:网关论文,政府论文,主题论文,网站论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

因特网经过十几年的发展,已经成为一种集信息资源为一体的全球性信息网络。随着信息资源的迅速增加,人们在包含大量信息的因特网上,查找信息越来越困难,针对这种情况,各种搜索引擎技术被开发和应用,解决了在因特网上查找所需信息难的问题。使得从事教育、教学、科学研究等领域的人,越来越多地把包含丰富信息的因特网作为查找所需信息的主要工具之一。在满足能够获得信息的基础上,用户开始关注信息的质量问题。因特网信息的急剧增加以及其信息发布的开放性,给因特网信息资源的利用带来了用户必须面对的问题:如何评价信息的质量、如何确定信息的可信度?搜索引擎是由搜索软件按照设定的条件,定期、自动在因特网上搜寻,搜寻后建立比较详尽的索引,自动产生元数据等,它给用户检索利用信息带来便利,但没有很好解决上述问题。鉴于这种情况,许多学术图书馆和机构开始寻找帮助用户以一种快速和有效的方式在因特网发现高质量的信息的途径。主题网关和其他质量控制门户网站是对许多这类问题的解决方案之一。主题网关采用一种快速和有效的方式帮助用户在因特网上发现高质量的信息。由于他们使用与图书馆员多年来采用的相似的方法来选择、分类和编目信息,因而受到极大关注。

1 主题网关的内涵

1.1 主题网关的概念

Traugott Koch认为主题网关是支持系统的资源发现的因特网服务,主要提供通过因特网获取的资源(文献、对象、网站或服务)连接,它建立在对资源描述的基础上,能够通过主题结构方式浏览访问资源[1]。张晓林教授给出更简洁的描述:信息网关指那些具有严格质量控制的服务于特定领域的研究或教育需要的网络资源目录服务系统[2]。从概念中可以看出主题网关强调信息质量的控制。

1.2 主题网关的特征

主题网关具有如下特征[3][4][5]:

(1)提供链接许多其他因特网网站或文献的联机服务;(2)按照公布的质量和学科标准以知识处理过程选择资源;(3)依靠人的智力完成内容描述,该描述介于短注释和评论之间(自动提取的摘要除外);(4)高水平地人工(一般由信息专家和主题专家)创建资源目录;(5)依靠人的智力创建浏览结构/分类(完全的非结构链接列表除外);(6)有维护和更新程序支持的资源管理政策;(7)针对限定的专业领域,主要针对学术信息和教育科研用户;(8)提供结构化检索界面和专业化检索方式,并可能提供词表浏览、词汇选择等帮助功能。

1.3 主题网关服务的要求

主题网关对其服务有一定的要求[6],具体为:

(1)可靠的服务:指在所有的时间内可以安全地提供服务,在磁盘故障或安全遭到破坏时不丢失任何数据;(2)响应服务:指浏览、检索和维护时的延迟不影响终端用户和编目人员正常的活动;(3)有效的服务:指能够充分利用可利用的硬件和网络资源;(4)可扩展的服务:指随着终端用户数量的增长、数据库规模的增加等仍可以满足用户的需求。

2 主题网关发展概况

2.1 国外发展概括

1993年由英国继续教育和高等教育基金委员会(the UK further and higher education funding councils)资助建立了JISC(Joint Information Systems Committee,联合信息系统委员会),目的是处理网络和专家信息服务,1996-2001年为第一期工程[7],2001-2006年为第二期工程[8]其eLib(the Electronic Libraries Programme,电子图书馆项目)项目中包括网络资源存取ANR(Access to Network Resources)项目,主题网关是其中的一部分。其中资源发现网络RDN(Resource Discovery Network)是因特网资源英国国家主题网关,它对英国的学习、教育和研究团体免费提供使用,通过一系列基于主题的信息网关提供10万多个资源的链接服务[9]。基于主题服务的资源组织和资源发现ROADS(Resource Organisation And Discovery in Subject-based services)是由eLib资助的用于开发因特网资源发现的软件,该计划与元数据密切相关,规定元数据应该如何创建、组织、检索和呈现给用户[10]。

DESIRE(Delivering Environmental Solutions Into Regional Enterprise)项目开始于1998年7月,是由荷兰、挪威、瑞典和英国的10个机构合作研究的项目。 其目的是通过在高速缓存、资源发现和目录服务三个主要领域的研发。DESIRE推荐把主题网关作为一个为研究者和学者提供简单、有效的获取高质量网络信息资源的工具,并且建议欧洲的图书馆和大学建立国际级网关,负责整个国家的高质量的网络资源,这些网关可以形成一个网关的欧洲网络。DESIRE负责开发使用工具及方法,包括建立网关的软件、网上资源编目指导方针、metadata标准和信息网关手册等[11]。

IMesh Toolkit项目(The IMesh Toolkit project)是在NSF/JISC国际数字图书馆计划的资助下建立的,资助期限为1999年9月~2002年9月。它依赖于现存的主题网关软件来为主题网关提供者开发一个可配置的、可重新利用的和可扩展的工具包[12]。

欧洲信息社会技术第五框架项目(EU's Information Society Technologies 5th framework programme)2000年1月起资助Renardus服务,2002年6月结束。其目的是建立一个欧洲的学术性网关代理服务,用户可以通过一个单独的Web界面检索和浏览来自许多现有的分布式质量控制网关和欧洲其他因特网资源集合的、经过整合的、一致的数据资源,为欧洲高等教育的教学和科研提供一个精选的、高质量的、可信赖的网络信息源[13]。

开放目录项目ODP(Open Directory Project)是目前世界上最大、最全面的人工编辑的Web资源目录,它由世界上大量的自愿编辑人员组织制作和维护[14]。

国外政府网站比较重视主题网关的应用。2000年初,英国内阁办公室决定开发政府网关,称为Government Gateway,这是一个中央网络中心,计划2005年用它来将政府的所有领域都和公众连接起来[15]。FirstGov是美国政府的官方网络门户,它是一个提供信息免费获取的网站,直接链接到FirstGov.gov的网站已经超过10万个,从一个特定区域为其用户提供所有正式的美国政府事务、服务和信息[16]。

2.2 国内发展概括

我国主题网关项目起步较晚,2002年1月国家科学数字图书馆2002年1月首批启动物理数学学科门户网站、化学门户网站、生物门户网站、资源环境门户网站、图书情报系统资源门户等项目,建立旨在简化用户对上述学科及其相关信息和从其他渠道不易获取的信息的可靠、权威和全面的信息查询过程,增加检索结果的有效性;为数学、物理、化学、生物学、资源环境科学和图书情报学及其相关领域的科研人员、工程技术人员、大专院校的师生,以及有关的科研管理人员提供中科院系统的文献数据库、购买的大型专业数据库、经过筛选的因特网上的各种类型的高质量信息资源等全面涵盖数理、化学、生物学、资源环境科学和图书情报学等学科的各种信息和多样化的一站式服务[17]。

国内政府网站,在利用主题网关方面比较薄弱,尚未见比较成型的政府信息主题网关。

3 实例分析

这里以美国FirstGov.gov网站作为实例进行分析。

3.1 选择美国FirstGov.gov网站作为实例剖析的原因

3.1.1 FirstGov.gov网站是一个政府信息公开方面的网站,我国目前正在推进政府信息工作,在政府信息组织方面具有借鉴意义。

3.1.2 基于主题网关的政府信息公开网站建设的重要性[18]

(1)政府信息资源数量巨大,且质量控制方面要求比较严格。政府信息资源涉及的主题较多,这里仅以国土资源和环境为例。我国国土资源和环境的信息资源数量增长十分迅速,几十年累计投资2500多亿元,积累的遥感基础数据总量约200TB,且每年以50TB速度递增。

(2)有利于促进政府信息公开。我国政府信息公开制度处在刚刚建立的过程中,政府利用主题网关门户主动发布、免费提供能满足社会基本需求的部分政府信息,其他政府信息,在不涉及机密、个人隐私前提下,按需求提供,允许按成本收取管理费,这将大大促进政府信息公开工作的规范化和积极性,也有利于监督政府信息的公开情况。

(3)有益于促进信息共享和信息增值。政府信息资源利用主题网关进行有序组织,一方面有利于政府信息的共享,另一方面可以大大减少信息采集和加工的重复工作量,降低开发利用总成本。同时,大量相关主题的信息有序组织在一起,有益于促进信息的增值。

3.2 FirstGov.gov网站剖析

FirstGov是美国政府的官方网络门户,是一个易于检索的、免费的网站,为用户提供集中的查找美国地方、州和联邦政府机构信息的网站。其网址为:http://www.firstgov.gov/index.shtml。

从其主页中可以看到,FirstGov包括四个网关:公众网关(Citizens Gateways)、商业和非盈利网关(Businesses and Nonprofits Gateways)、联邦雇员网关(Federal Employees Gateways)、政府间网关(Government-to-Government Gateways)。下面仅从资源选择政策,主题分类、浏览和检索,网关之间的合作,交互性等方面[19][20]进行分析。

3.2.1 资源选择政策

在主题网关中一般都有一个公开的资源选择政策,这样做的好处是:明确主题网关提供的服务是经过选择和质量控制的;有助于用户对使用的资源有一个整体的了解;有助于用户理解所查找信息质量的层次;有助于网关编辑、维护人员(包括分布式团队)在资源选择上的一致性和保持资源选择的质量;有助于新工作人员的培训。

FirstGov在网页http://www.firstgov.gov/About/Linking-Policy.shtml上公布了其资源选择的政策,包括资源选择标准(9个)、链接的政府网站、链接的非政府网站、特征链接等。

3.2.2 主题分类、浏览和检索

主题网关一方面保证所提供资源的质量比较高,另一方面它采用的基于主题的资源检索非常便利。利用分类法、关键词和词典描述资源主题网关服务的重要特征。以公众网关(Citizens Gateways)为例,包括上下两个部分:上半部分采用词典式描述和检索,下半部分采用分类法描述和检索。例如选择Science and Technology主题,下面有生物和生物医学10个分主题,具体见:http://www.firstgov.gov/Citizen/Topics/Science.shtml,然后,按照分类的等级排列一级一级查找,就可以找到需要的信息。

3.2.3 网关之间的合作

随着因特网的持续发展,没有一个单独的公共资助的主题网关能全面覆盖、识别、评价和组织全部因特网信息资源的任务,即使是在某一个单独的主题领域也极其困难。同时各学科间的联系越来越密切,很多领域研究的全球化性质,意味着很多用户要保证相对全面的因特网资源,不得不访问不同的主题网关。由于允许地理上分布的数据库和人员之间进行交流,因特网为网关服务之间的合作,共同工作建立集成的眼务提供了条件。

主题网关间合作的优点:比单一网关检索更宽泛的资源,包括许多国家的、多语言的、许多主题网关提供的高质量因特网资源;检索用户未知新网关的能力;能够利用现有的技术、方法和实践,避免从头开始;能够分化创建或共享元数据记录的责任,避免重复工作;能够共享工作人员的成就(管理、技术、编目)增强组织的有效性;能够建立长期可持续发展的共享策略。

FirstGov本身包括四个网关:公众网关、商业和非盈利网关、联邦雇员网关、政府间网关,网关之间相互合作,同时还可以通过该网关链接到其他的网关。

3.2.4 交互性

不同网关之间的合作,相互之间需要具有互操作性。在主题网关中,互操作性包括下面二者之一:能够从基于相同的技术、协议和元数据格式的分布式网关中浏览和检索信息;能够从基于多种软件解决方案、搜寻和检索协议和元数据格式的分布式网关中浏览和检索信息。

采用同样的协议和元数据格式时,保证交互能力通常是确信每一个网关都是采用同样的方法和恰当的接口。例如保证所有的基于Whois++检索和搜寻协议的服务间能够交互检索是相当容易的。在这些情况下,交互能力涉及的技术问题较少,主要是元数据格式和他们相关内容标准(例如编目和主题标引)的一致性使用问题。 基于不同协议和元数据格式的服务,除了上述非技术问题仍然存在外(实际上他们更难解决),另外的技术问题也需要进一步开发,包括内部协议网关、中间件和元数据通道(metadata crosswalks)的生成。

标签:;  ;  ;  ;  ;  

主题网关及其在政府信息公开网站中的应用_元数据论文
下载Doc文档

猜你喜欢