学科门户的质量控制研究_元数据论文

学科门户的质量控制研究_元数据论文

主题网关的质量控制问题研究,本文主要内容关键词为:网关论文,质量控制论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

目前,在世界范围内,Google、Yahoo!等搜索引擎已经成为查找网络信息的主要工具,但由于此类搜索引擎具有使用范围过于宽泛、覆盖面有限、查准率低、检索噪音大等缺陷,对于具有特定需求的用户,如学者、研发人员等仍没有太大帮助,人们越来越需要一种新的,可以部分分担用户的查找和遴选信息的任务的信息服务,主题网关应运而生。可以说,主题网关服务的提供是图书馆等传统信息服务机构争取网络信息服务主动权的又一契机。

1 主题网关概述

1.1 主题网关的概念和特点

主题网关(subject gateway),又称学科信息门户(subject information portal),学科信息网关(subject information gateway),是针对特定学科或主题领域,按照一定的资源选择标准和评价标准,规范的资源描述和知识组织体系,对具有一定学术价值的网络资源进行搜集,选择、描述和组织,并提供浏览,检索,导航等增值服务的专门性信息门户(注:王楠等.学科信息门户评价指标体系探讨.情报杂志,2004(9):36—37,40)。综合相关文献(注:王建涛,胡明玲.质量受控学科信息门户研究.图书情报工作,2004(9):34—37,82)(注:Traugott Koch.Quality-controlled subject gateways:definitions,typologies,empirical overview.Online Information Review,2000,24(1):24—34)(注:江晓波.专业学科门户网站的建设与实践.图书馆杂志,2005(4):31—35),总结出主题网关具有以下特点:

(1)主题网关是就某一或几个学科主题建立的网上资源导航服务,通过集合和整序网上的该类资源、服务和工具,帮助用户分担查找和遴选信息的任务。

(2)主题网关提供的是系统化资源的链接而不是资源本身,通过资源的有序化实现资源的增值。

(3)主题网关链接的资源是根据一定的质量和范围选择标准,由人工进行选择,从而保证了资源的高质量。

(4)由人工完成信息的描述,至少部分人工创建书目元数据,从而保证资源的描述更加详尽、全面,便于利用。

(5)创建合理完善的符合专业领域特征的信息资源分类浏览体系。

1.2 主题网关的类型

对目前世界范围内学科信息门户建设情况进行考察,依据其范围分类,可以将学科信息门户分为以下几种类型:

1.2.1 国家性单一主题网关(一国范围内,单一主题,一种语言)

如GEM http://www.thegateway.org/

PSIgate http://www.psigate.ac.uk/newsite/

SOSIG http:www.sosig.ac.uk/

1.2.2 国家性多学科主题网关(一国范围内,多主题,一种语言)

如DutchEss http:www.kb.nl/dutchess/

INFORMINE http:informine.ucr.edu.

BUBL LINK http://bubl.ac.uk/link/

1.2.3 多国合作型单一主题网关(多国共建,单一主题,一种语言)

如EEVL http://www.eevl.ac.uk/

1.2.4 多过合作型多主题网关(多国共建,多主题,一种语言)

如ADAM http://adam.ac.uk/

1.2.5 全球范围内多主题多种语言

如Renardus http://renardus-broker.sub.unigoettingen.de/

(以上URL最后检查日期为2005年7月25日)

2 主题网关的质量控制问题

质量控制是主题网关与搜索引擎的最大区别,也是主题网关建设中最为关键的问题之一。主题网关有时被称为因特网上的图书馆,即是指其质量控制而言的。高质量的网络资源的总体评价标准应该是基于服务的质量定义,即一项资源的选择仅仅是依据其与目标用户群的需求的相关性高低和本身价值的大小。在主题网关的建设中,质量控制主要是通过人工手段实现的,如人工制定资源的质量和范围选择标准,人工完成资源的描述,人工建立资源的分类浏览体系,至少部分人工创建书目元数据等,下面具体讨论。

2.1 资源选择标准

资源选择标准的确立是主题网关建设原则中应首先讨论的问题,它可以帮助用户理解该主题网关的质量控制标准,并在此基础上判断所获信息的质量,有助于保证门户工作人员资源选择的一致性,保证门户信息资源集合质量的稳定性,促进分布运营机制下资源选择的一致性。资源选则标准主要涉及质量和范围选择标准。

2.1.1 收录范围

收录范围应考虑主题范围(目标用户群),资源来源(地域范围),内容深度和权威性,资源粒度(如收录层次是网站/用户组织层还是网页/网上文章层,收录资源是否有足够信息用于创建描述记录,资源本身有无元数据等),语种范围,接人条件(资源接入的成本,包括是否付费、技术支持、注册要求等)。美国的图书馆员因特网索引(Librarians' Index to Internet,LII)就要求其接入的资源必须为网上可免费获得的信息和服务。目前,世界范围内,国家性综合型主题网关建设较多,语种较单一。

2.1.2 资源类型

高质量的学科信息门户作为研究人员研究工作的起点,其收录的资源类型将影响到研究人员的视野和思路。因此应做到类型全面,力求包括以下几种类型:专业文献数据库(如图书、期刊、论文、研究报告、工具书等数据库,最好能提供支持异构数据库跨库检索的统一平台);具有一定研究实力的专业院校,研究院所;学会协会;国际组织;学术会议(会议录、会议论文等);专家学者(本领域权威专家的个人资料、研究方向、研究成果等);专业统计数据;学术论坛;邮件列表等。各专业还应该根据自身的专业特色适当增加资源类型。

2.1.3 质量标准

质量标准规定被选择资源需要达到的基本质量,质量标准的确立应综合考虑与用户要求的相关性,未来用户的满意度和资源本身的可持续性等因素。本文摘录了网上权威的交互式联机培训系统“因特网侦探”(Internet Detective)提出的质量控制标准(注:http://www.kb.nl/hpd/detective/[2005—07—23]),可供参考:

(1)内容标准:评估信息本身。包括:有效性(validity),信息源的权威性和声望(authority and repution of source),准确性(accuracy),综合性comprehensiveness),唯一性(uniqueness),组织化程度(composition and organization),维护及时性( currency,adequacy of maintenance)。

(2)形式标准:评估媒介。包括:易导航(ease of navigation),提供用户支持(provision of user support),采用主流标准(use of recognized standard),采用适当的技术(appropriate use of technology),设计优美(aesthetics)。

(3)加工标准:评估系统。包括:信息完整性(information integrity),网站整合度(site integrity),系统整合度(system integrity)。

2.2 资源分类体系

主题网关需要按一定的体系对其资源内容进行组织,分类体系的选择将影响到用户的浏览和利用效率。目前,各主题网关使用的分类法主要有世界通用分类法,国家通用分类法,单一学科分类法,自创分类法等,如下表:(注:http://www.bubl.ac.uk/link[2005—07—25])(注:http://www.org/biointeractive/genomies/lander.html[2005—07—23])(注:http://www.eels.lub.lu.se/[2005—07—25])(注:http://www.yahoo.com/[2005—07—25])

类型特点 举例

使用单位举例

世界通用分类法 覆盖所有学科领,具有世界通用性

DDC,UDC

BUBL LINK采用DDC分类体系

国家通用分类法 通常只在一个国家或一个语群使用

荷兰的BC,瑞典的SABLink Lander采用SAB分类

单一学科分类法 供特定学科群体使用

医学的NLM,工程学的EI EELS采用Engineering information

公司制定的学科分类法

自创分类法 为特定门户设计 Yahoo!自创的14个分类体系

在分类体系的选择上,各单位应考虑以下几个问题:(1)主题网关信息服务的范围、覆盖面和目标用户群。例如,综合性学科信息门户可采用通用分类法,学科比较单一的信息门户适合选择国际通用的专题分类法,如果只限于在国家范围内提供服务,可以选用国家通用的分类法,如果没有适合的分类法可供选择,可以自创一套分类体系或对现存分类法作适当拓展和修改;(2)维护问题,主要是门户创建者对分类法的熟悉程度和分类体系制定者对分类法的维护和更新情况;(3)分类法的质量、状态和可得性;(4)互操作问题,所选用的分类法与其他分类法是否有互操作的可能性及通过改造实现互操作的成本大小;(5)费用问题,如服务器、软件、信息专家、技术人员和翻译人员的费用等。(注:学科信息门户建设白皮书.http://www.csdl.ac.cn/download/[2005—07—25])

2.3 元数据方案的选择

学科信息门户是以对Internet资源提供第三方描述和创建元数据记录为特征的,第三方创建元数据是指由独立的学科专家或信息专业人员而不是资源的创建者来创建元数据,从而为质量控制提供了保障。元数据记录以数据库形式存储,便于浏览和高级检索,并且维护资源描述数据库要比维护大量HTML文件容易得多。学科信息门户涉及到的描述信息包括资源对象,知识组织体系,使用管理机制,检索与浏览机制等层次(注:http://www.kb.nl/hpd/detective/[2005—07—23]),相对应的元数据种类有描述元数据(资源名,统一资源标识符,创作者,资源类型,媒体类型,机构,语种等),主题元数据(关键词,分类号,主题词,分类体系等),管理元数据(资源维护者,资源加入门户的日期,资源最新更新日期,资源提交者,记录创建者等),权限元数据(使用限制,版权信息,保留条款等)。

元数据方案的选择应综合考虑学科特点,资源内容,元数据的元素粒度和互操作等问题,目前世界上通用的8种元数据方案有:Encoded Archival Description (EAD),Dublin Core(DC),Government Information Locator Service(GILS)metadata schema,Text Encoding Initiative (TEI)Header,Visual Resources Association (VRA)Core Categories,Consortium for the Interchange of Museum Information (CIMI)metadata set,Content Standard for Disital Geospatial Metadata(CSDGM),Online Information Exchange(ONIX)publishing standard(注:Lynne C.Howarth.Metadata Schemas for Subject Gateways.International Cataloging and Bibligraphic Control,2004(3):8—17)。IFLA元数据方案编目工作组对上述方案进行综合分析,得出一个共包含10个核心元素(core element)的元数据方案,元素有标识符,资源名,主题,创建者,出版者,语种,资源种类,权限说明,日期和版本。目前,在某些范围内的试点使用已经收到积极反馈(注:Adrienne Franco.Gateways to the Internet:Finding Quality Information on the Internet.Library Trends,2003(2):228~246)。

另外,需要制定元数据著录规范(注:资源环境学科信息门户资源搜寻策略.http://www.resip.ac.cn/documents/selection[2005—07—25])。由于资源元数据可能来自多个途径(例如资源系统本身、用户、资源选择人员、资源著录人员、其他学科信息门户、自动挖掘等),它们对元数据内容的描述方式可能有很大差异,需要通过著录规范来具体规定如何进行元数据描述。规定内容包括:(1)元数据内容编码规范,例如关于日期、语言、各种名称代码、主题词来源、分类表来源、评价等级等的标准表达方式或最佳实践(Best Practices)。有关标准可用计算机可识别方式组织,以利著录过程中进行查询和自动检验。(2)元数据元素、子元素或限定属性的选择方式。(3)主题词、分类号选择标引原则和方式,这时将利用分类标引规范。(4)文字描述内容(尤其是摘要、评价意见等)的撰写规范,例如摘要来源、摘要长度、客观性、语言风格、署名等要求。这些著录规范被称为Application Profiles。

2.4 资源维护与更新

资源的维护与更新是质量控制中最重要的后续工作,主要包括链接检查和内容更新。

2.4.1 链接检查

网络信息的生命周期一般比较短暂,它的动态不确定性决定了必须定期对其进行检查,修改更新那些已经被移走,暂时不能访问或已经永久删除的记录。检查工作可以利用自动链接检测软件进行,然后根据其产生的错误报告联系资源所在网站的管理维护者了解其是暂时不能使用还是永久删除,进而确定资源记录的删改情况。以SOSIG为例,SOSIG采用的链接检测软件是ROADS系统的组成部分之一,该程序设定在每星期天晚上12点以后网络流量比较低的时候自动运行,它登录SOSIG数据库中的每一个URL并向页面请求头文件,如果该请求成功得到响应则自动转向下一个网址,如果碰到问题则记下该网址及相应记录在文件中的唯一ID号,一旦链接检测处理完所有的URL,就汇集所碰到的所有错误代码生成错误报告,常见的错误主要有:page not found,unauthorized request access,payment required,forbidden,internal error,not implemented,server busy等。

2.4.2 内容更新

内容更新可通过以下渠道:(1)定期利用Google,AltaVista,Yahoo,Infoseek,Netscape等搜索引擎,输入选定的检索词进行检索,然后进行人工筛选和分类整理;(2)定期跟踪国际上一些著名的主题网关,如社会科学领域的SOSIG,自然科学领域的INFORMINE等;(3)跟踪一些综合性门户的相关专业栏目,如搜狐,新浪等设置的学科专业栏目均有很高的参考价值;(4)跟踪重要的国际组织和机构网站;(5)用户推荐,通过在门户主页或中心主页上设置参与窗口,对用户推荐的内容进行评价和控制,然后导入门户库。内容更新应该注意不同类型的资源其更新速度会有所差别,门户建设者应该摸清各类型资源的更新周期,以做到区别对待(注:资源环境学科信息门户资源搜寻策略.http://www.resip.ac.cn/documents/selection[2005—07—25])。

3 总述

主题网关在世界范围内是一个比较新的概念,但发展比较迅速,当前的挑战主要是能否准确地预测其未来发展趋势并就其发展中可能遇到的问题作好预先准备,例如互操作问题(能否开发出支持基于技术层、语义层、组织层的互操作的元数据标准),规模化问题(能否在成本共担、资源共享的理念下制定出合作共建大范围多学科信息门户的运行机制问题),政策法律问题(主题网关中涉及的知识产权问题,IP权限问题,资源的原创性、可靠性问题),标准化问题(如果能在建设初期很好的解决标准化问题,其意义将是十分巨大的)。

图书馆等传统信息服务机构在主题网关的建设上无疑是具有优势的,如学科馆员在资源选择上的优势,编目人员在资源组织和元数据创建上的优势,越来越多的技术人员在主题网关技术平台开发维护上的优势等。我们必须很好地抓住这次机遇,为广大用户提供高质量的网络资源导航服务,以充分发挥图书馆的社会价值,提升图书馆的社会地位。

标签:;  ;  

学科门户的质量控制研究_元数据论文
下载Doc文档

猜你喜欢