建立电子资源评价指标体系初探_数据库应用系统论文

电子资源评价指标体系的建立初探,本文主要内容关键词为:指标体系论文,评价论文,资源论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 概述

电子资源,又称电子出版物,比较通行的看法,主要是指由出版商或数据库商生产发行的、商业化的正式出版物,有数据库、全文电子期刊和电子图书等,其中数据库又包括参考数据库(书目、文摘、索引)、全文数据库和事实数据库。

近年来,随着网络和计算机技术的发展,图书馆采购的电子资源越来越多,逐步取代了部分印刷型出版物的订购,电子资源在馆藏发展中已经逐步占据了重要的地位。因此,无论是采购新的电子资源,还是续订、维护已有的电子资源,都产生了一个新的问题:如何对电子资源进行选择、评价?怎样通过对电子资源的评估使得电子资源建设合理化、科学化,从而提高效益?

在这种情况下,电子资源的评估越来越受到图书馆重视。例如美国研究图书馆学会(ARL)就专门设立了“电子资源计量”项目(E-metrics),组织了美国著名的20多个研究图书馆,与出版商/数据库商共同合作研究,谋求建立一个科学化的评估指标体系,对电子资源进行系统化的评估。

建立起一个科学的电子资源评估体系,将有利于合理、优化地建设图书馆电子资源、乃至整体资源,具体可以归纳为以下几方面的作用:

● 评价电子资源的内容:例如数据库包含的学科情况、核心期刊收录情况、使用频率如何等,确定其是否符合本馆用户需求,是否是权威性数据库,是否适合采购或续订。

● 促进电子资源的整体优化建设:调整电子资源的学科分布,调整参考数据库、全文数据库、事实数据库、电子期刊、电子图书的比例,使其结构逐步优化,更大程度地符合用户需要。

● 提高电子资源的利用率:通过对电子资源结构的调整和使用情况的分析,促进检索服务、咨询服务、培训服务的开展,使电子资源及其服务更符合用户需要,从而提高其利用率,降低成本。

● 了解用户需求:用户使用统计报告可以准确地反映出用户对电子资源的学科、类型和软硬件环境的需求,图书馆可以据此调整建设方向和服务内容。

● 评价相关服务:包括出版商对图书馆、图书馆对最终用户的服务的评价,这种评价对电子资源的采购、图书馆如何开展服务都具有很大的影响力。

● 使传统出版物的建设得到合理调整:例如取代部分印刷型检索工具和期刊的订购,根据电子期刊按刊名统计的使用情况订购外文期刊等,使传统出版物与电子出版物的建设逐步结合,更科学、合理、整体化地发展图书馆馆藏。

电子资源的评估是一个系统工程,主要包括的内容有:

● 建立评价指标体系,即构建一个由一系列相互联系的统计指标所形成的、用于分析和评价的指标整体。

● 确定综合指数,指对统计指标的分类、汇总、分析和评估,如指标分类、数学模型的建立、指标的选择和应用、指标值的确定、参照物的选择等。

● 数据积累采集。

对电子资源进行科学、合理的评估,需要相当一段时间数据的积累和分析,以及反复实践和应用。目前国内电子资源大规模的建设仅进行了两年多的时间,还不足以完成这样一个系统工程。本文根据北京大学图书馆和CALIS(中国高等教育文献保障系统)两年多的建设经验,对电子资源评估的第一阶段——建立评价指标体系的内容进行论述,余者今后将另文讨论。

二 方法论

对传统的出版物及其服务的评价主要依据文献计量学原理。网络环境下,文献计量学有了进一步的发展和延伸,这就是网络资源计量分析,它包括文献计量学中数学和统计学的内容,以网络资源为研究对象,同时充分利用计算机技术,数据的积累和分析主要依靠数据库及其系统进行,分析和评估更加科学、可靠。

电子资源评估指标体系的建立实际上就是网络资源计量分析的重要应用,因此首先要遵循文献计量学的几个基本原则:

● 整体性,强调对资源的整体评估,因此各方面的指标不是孤立的、分散使用的,而是要成为一个系统化的完整体系。

● 针对性,即有目的地设计指标体系,不能盲目和千篇一律;

● 准确性,指标含义、统计界限等要有明确定义,数据要准确;

● 代表性,即抽样的样本要有广泛的代表意义;

● 可比性,确定指标、指标定义、数据单位和选择指标时,要注意最终得出的数据彼此间便于比较分析;

一系列相互联系的统计指标所形成的、用于分析和评价的整体,就是评估指标体系,亦称统计指标体系,包括指标名称、指标定义和指标值。指标又可分为以下三类:

● 客观指标:通常是关于数据库内容或使用情况的客观数据,由系统自动统计积累而成,如数据库收录期刊种数、用户检索次数等。

● 半客观或半经验指标:即根据经验公式计算或比对得出的半客观数据,如全文下载成本指标,必须根据数据库成本和全文下载数量计算得出。

● 主观或纯经验指标:经分析者根据某些规则或经验建立的数据项,如理工科数据库收录权威出版物情况的指标,是用该数据库收录出版物与《科学引文索引》(SCI)收录出版物比对得出,凡被收录在SCI中的,承认为权威出版物,在这项指标中,由于SCI并未在世界范围内被普遍公认为收录权威出版物的工具,则这种方法多少带有主观因素。

上述三类指标中,第一类通常是由出版商/数据库商提供的,后两类指标则由图书馆根据需求确定。每一类都包含有量化和非量化指标。每一个指标都要有明确的定义,以求达到准确。

电子资源的评价指标主要由以下几个部分组成,可分别应用于采购前的预评估和使用中的后评估:

图1 电子资源评估指标体系

三 评估指标体系的内容

1.电子资源内容

在购买某一种电子资源之前,要对其收录内容及相关情况进行分析,确定数据库收录是否全面、准确、权威、时效性强,是否符合本馆需求,主要有:

● 总体收录情况:主要收录的资源类型及其数量,包含的时限范围。例如以收录期刊和会议录为主的参考数据库和全文数据库,就要明确列出包含有多少种期刊和会议录,涵盖的年代范围,统计数据库要说明包括哪些类型、哪些年代的统计数据。从目前情况来看,仍然是收录内容和年限越多越好。

● 权威出版物和全文出版物收录情况:收录的核心期刊,通常是以超过30%为佳;如果是全文数据库,则包含的全文出版物应不低于50%。

● 学科收录范围:电子资源包含的学科分析,以评估图书馆的需求作为标准衡量。

● 数据来源情况:例如,参考或全文数据库包含的出版物多数是否来源于学术性较强的出版社或学会;事实数据库中,其包含的统计数据、基因图谱、化学反应式等是否来源于权威机构或专业学会,如果是,则可以确定数据库具备较强的学术性。

● 数据库之间的重复情况:相同类型的数据库之间的内容是否有重复,重复程度如何。一般我们认为重复不能超过30%。

表1 UMI和EBSCO数据库比较分析(数据截止到2001年4月)

● 注销出版物情况:数据库的出版物收录情况往往会发生变化,有些出版物虽然仍然包含在数据库中,但已经不再出版或停止向数据库商提供电子版,也就是说,这些出版物并不包含当前的数据,这样就无法满足用户对最新数据的使用需求。还有些全文数据库,最初可以提供某些出版物的全文,但现在只能提供文摘了,例如“中国期刊网”现在就不再提供《中国图书馆学报》的全文。因此要注意分析从数据库中注销的出版物的情况,如果过多,则数据库质量就有所下降。

● 出版物更新与滞后情况。数据库的更新频率越高,内容的时效性越强,通常以日更新或周更新为最佳。但由于目前数据库(参考数据库、全文数据库和部分事实数据库)收录的内容仍以印刷型出版物为主,也就存在着时滞,即出版物被收录进数据库的时间与印刷型出版物的出版时间之间的差。时滞过长,就影响数据库的时效性和质量。例如有些全文数据库,虽然收录的全文出版物很多,但出版商出于版权的考虑,限制全文上网的时间,这样这些全文出版物最初就只能提供给读者文摘或部分全文,影响了读者查阅。这种出版物如占比例过大,或时滞过长(两个月以上),数据库质量也相应下降。

例如表1是对UMI和EBSCO几个数据库内容的比较分析,应用了上述部分指标。

结论:经过各方面综合情况比较,可以看出,两组数据库在学科内容上比较接近,但在收录的时限和期刊范围上各有特色,因此在购买这类全文数据库时,如经费允许,可考虑两组都买(ARL/ABI,ASE/BSP或ASE/BSE),但如经费有限,也可考虑只购买一组。

2.检索系统及功能

在对资源的内容进行评估的同时,也要对电子资源的检索系统进行评估,因为系统与内容是密不可分的,系统的好坏直接影响到对内容的使用。有时同一种资源会有不同的检索系统,这种情况下就更需要对系统进行评估。例如,目前为美国BIOSIS数据库(包括BA、BA/RRM、BioResearch三个数据库)提供检索的3个系统为Web of Science(ISI公司)、DB Search(Ovid公司)、WebSpirs(Silver Platter公司),北京大学图书馆在购买该数据库时就专门写了《BIOSIS数据库检索系统比较》报告。

表2 检索系统及功能评价指标列表

表3 部分出版商/数据库商提供统计报告情况(主要指标,有些极个别的指标并未列入)

这部分的指标主要是评价检索系统及其功能,包括检索功能、检索技术、检索结果、用户服务等几个方面,多为非量化指标。表2为详细的指标列表,但不一定要全部采用,有些指标是必备的,如布尔逻辑运算;有些则是有更好,没有也可,如词根检索。

检索功能:主要是指系统提供给用户的各种检索途径和检索入口,可供选择的越多,相对用户就越方便,表中标有*号者为一般情况下系统必备的功能。比较关键的问题是各种功能配置是否合理,检索系统首页上的缺省(default)功能是否是用户最易接受的,检索入口是否容易理解和使用。

检索技术:即系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需信息。可应用的检索技术越多,越说明系统设计的合理和科学化,但也不可过于追求这方面的指标,而忽略了界面的友好和简单。

检索结果:即用户是否得到了内容全面、下载和使用均比较方便的检索结果,例如显示格式包含的内容是否全面;检索结果数量较多时是否允许在翻页的同时标记记录;是否提供存盘、打印、email发送等多种下载功能;检索结果是否与其他资源之间存在链接,为用户提供查找到其他资源的捷径等。

用户服务:主要是指在检索功能之外,系统还为用户提供了哪些服务。具体包括:检索帮助文件是否完整、详细、易查;是否可以记录读者的检索历史,以便用户随时可以利用和翻看以前的检索结果;有无词表、名录等常用参考工具,可随时查阅;允许用户对检索界面做一些小的调整,更方便使用;电子期刊提供最新目次报道服务;网上提供培训教程,便于用户自我培训等。

3.使用情况

数据库的使用情况属于后评估指标,主要用于更新、续订数据库时使用,一般由出版商或数据库商提供使用报告,再据此进行各类分析。主要包括两个方面的评估:

一是对数据库统计系统的评估,也就是数据库提供的统计报告是否符合需求。下表是国内外部分数据库统计系统提供指标的情况:

从表3可以看出,目前出版商/数据库商提供的统计报告常用的相关统计指标有:①检索次数(search/query):用户在某一个数据库中提出检索式的次数。②登录次数(session/sign on):用户打开某一个数据库的次数。③下载文摘/全文(abstract/full text/page image):用户在某一个数据库中下载到本地客户机中的文摘或全文篇数。但也存在这样几个问题:

● 统计指标不规范,不同的系统提供的统计报告五花八门,没有统一指标。

● 统计指标定义混乱,不明确,例如"search"在大多数系统内被定义为用户发送检索式的次数,但有些数据库却用"query"来表示同样含义的指标,而CSA数据库则同时使用了"search"和"query",二者的含义和区别并不明确。

当一个出版商/数据库商提供的统计报告具备上述几个常用指标、并且给出明确的指标定义时,我们可以基本认定该统计系统合格。

二是通过使用情况的分析,对电子资源本身进行评估。即在出版商的统计报告基础上选择符合实际需要的统计指标,进行二次统计分析和评估。一般来说,使用统计可以说明如下问题:

● 某种电子资源是否受用户欢迎,是否重要,是否需要调整采购政策;

● 该电子资源的检索系统是否为用户容易接受和使用;

● 图书馆与电子资源相关的服务,如检索服务、咨询服务、技术支持服务、培训服务是否开展和完善;

● 对其他电子资源和印刷刑出版物的采购发生一定影响;

● 通过对使用频率的分析,分析用户的需求和使用规律。

其他仍有多种用途,这里不一一陈述。下面是几个具体应用的例子:

图2 北京大学校园网2000年电子资源检索次数

图2说明了以下问题:

①2000年一年中,校园网用户使用电子资源的数量一直在持续增长,说明图书馆电子资源及相关服务越来越受到读者重视和欢迎;②2000年11月的检索次数为87987次,与1999年12月的23471次相比,增加了近3倍;③7、8月份为暑假,也是使用电子资源的低谷期,如果选择试用或采购新的电子资源,应避开这段时间。

图3 北京大学用户使用中文光盘数据库检索次数统计(2000年3月至8月)

图3说明,《人大报刊复印资料》全文库是读者使用量最大的数据库,主要原因有三,一是此库权威性和学术性均很强,其印刷版早已为广大读者熟悉,数据库相对印刷版更为好用;二是可以直接检索和下载全文;三是数据库检索系统较其他中文数据库系统功能强大、友好。在此结论之下,该数据库应持续订购,同时其他利用率相对较低的数据库可作相应调整。

表4 北京大学校园网使用Elsevier电子期刊下载全文情况(2000年7月-2001年6月,按刊名统计)

注:下载2000篇以下的期刊较多,未列入表格中。

表4的统计数字除说明Elsevier电子期刊非常受读者欢迎,以及哪些学科使用得较多之外,更重要的一点是,为本馆订购印刷本期刊提供了参考数据,在目前图书馆仍保持电子资源与传统纸质资源并存的情况下,可根据上述数据调整印刷本期刊的订购。

4.价值与成本核算

这部分指标的应用主要视图书馆的经费而定,包括:

● 数据库价格:主要指各数据库的单价,在采购电子资源时同等类型的数据库之间要进行价格的比较,同时视各馆经费而定。

● 数据库价格上涨幅度,目前通行的标准是年涨价幅度最多不能超过8%。

● 检索成本:每检索一次数据库的成本投入。

● 全文下载成本:每下载一篇全文所需的成本投入。

● 登录成本:用户每登录一次数据库的成本投入。

其中后三项指标可以称为单项成本,其计算公式为:

在进行成本核算时,要注意有无相关投入,如有,应在成本中加入这部分投入。例如:

● 印刷型出版物的相应投入。例如,北京大学购买《化学文摘》(CA)数据库,因为化学学院老师的需要,同时购买了纸本CA,数据库因此仅支付了约1/3的费用,在核算成本时,还是要按数据库的全部价格计算。

● 数据库检索系统及相关软件的费用。

● 专门为某个数据库建立的镜像的硬件设备投入。

这部分的指标通常与使用情况结合起来分析,图4是两个应用的例子。

图4 北京大学图书馆2000年部分参考数据库使用情况和成本核算

图4说明如下问题:

①使用量最高的是SCI数据库,最低的是PQDD和UnCover数据库。

②用量高的数据库检索成本不一定最低,反之用量低的数据库检索成本也未必就高,还要看数据库总投入的情况。

③对于用量高、检索成本也可以接受的数据库,以及用量虽低、但仍有一定用户、而成本也不高的数据库,可持续更新订购。

④对于用量低、成本高的数据库要分析原因,调整订购政策。以UnCover数据库为例,使用情况和成本核算均不理想的原因主要有二,一是服务器在美国,没有提供镜像或DI专线服务,用户使用时必须通过国际网和支付国际网通讯费;二是UnCover公司2000年被其他公司收购,公司一直处在调整状态,在提供服务方面不尽人意。另一数据库PQDD,2000年用量较低,分析原因后,我们认为也是因为通过国际网访问的缘故,后经CALIS与公司反复谈判,2001年开始使用DI专线,用户免付国际网通讯费,使用量增加了三分之一强。

图5 北京大学图书馆2000年部分全文数据库-电子期刊使用情况和成本核算

图5说明下列问题:

①使用量最高的是Elsevier电子期刊,最低的是BSP全文数据库。成本最高的是BSP数据库,最低的则是ARL全文数据库。

②Elsevier电子期刊用量虽高,但成本并不是最低,主要是因为总投入较高,其中包括:一是纸本期刊的费用,因为CALIS在组织集团订购Elsevier电子期刊时,与对方达成的协议就是各成员馆至少订购25种印刷本期刊,已订购的纸本期刊不能减少码洋和种数,北京大学图书馆在此之前已订购了102种纸本期刊,因此这些费用要相应计算投入;二是数据库检索系统(软件)及中国镜像服务器(硬件)的费用;三是电子期刊的费用。

③BSP数据库的成本高的原因,主要原因有二,一是因为该数据库与ABI有重复(见表1),后者在经济、管理领域早已为人们所熟悉,有固定的用户群。二是因为该数据库的学术质量不如ABI。当然,BSP数据库近年来全文收录增加很快,因此还需要加强对数据库的宣传和培训,如成本仍然居高不下,就要考虑调整采购政策。

5.出版商/数据库商的服务

出版商/数据库商的服务,同样影响着电子出版物的质量和用户的使用,也是在购买和更新数据库时必须考虑和谈判的问题。这一部分的指标可以分为如下几个方面:

● 数据传递方式:目前国外出版商/数据库商提供的方式主要有:

①国际网,即数据库在国外,通过国际互联网直接访问,用户使用时需支付国际网通讯费,如UnCover、Academic Press等。

②Digital Island(简称DI)专线,数据库同样在国外,通过美国Digital Island公司提供的专线服务访问,由出版商/数据库商租用此服务和支付通讯费,即使没有国际网权限的用户也可以访问数据库,毋需花费国际网通讯费,如UMI、EBSCO、ISI、OCLC等。

③本地服务,或建立本地镜像服务器,如Elsevier,或由数据库商提供裸数据,使用本地开发系统,如Kluwer。

从用户角度考虑,为方便用户访问,提高使用量,以②、③种方式为更佳。至于国内出版商/数据库商,目前多采用直接访问或本地镜像方式,评估时考虑哪一种为合适,要根据本地网络情况而定。

● 是否提供足够时间的免费试用,通常电子资源的试用期为3个月左右,不可过短,以便于分析、了解资源,收集反馈意见,了解用户需求,统计使用情况。

● 数据库访问方式:一是采用IP地址控制,用户自动登录访问;二是使用用户名、密码登录;以哪一种为首选,要视各馆具体情况而定。此外还要看有无并发用户限制。

● 数据更新服务:电子资源的更新周期一般是日更新或周更新,在建立本地服务时,能否按时更新本地数据、数据是否有缺漏,是特别要注意的问题。

● 数据库使用中的问题如何解决,包括:

①用户服务(customer service),主要指后续服务情况,包括:要有专人或专门的部门负责电子资源使用过程中出现的问题,如服务器突然断掉、用户使用权限被终止等问题;出现上述问题后对方的反应速度如何,是及时解决还是一再拖沓;出版商/数据库商如因系统、硬件更新等内部工作,需暂时停止服务时,是否先期通知客户。

②对用户方的不合法使用如何解决,如恶意下载、滥用数据库等问题。正确的做法是,在合同中说明违反版权及滥用数据库的确切定义和范围是什么,个别用户出现此类情况时,出版商/数据库商要考虑到大多数用户的利益,与购买该电子资源的图书馆合作,由图书馆出面解决问题,而不是简单粗暴地中断服务。

● 提供与数据相关文件的情况,主要有:

①全文数据库或电子期刊/图书是否提供收录全文期刊/图书的MARC记录,以方便图书馆尽快将这些出版物反映到本馆的馆藏目录中去。

②全文数据库或电子期刊/图书是否提供收录全文期刊/图书的列表,包括ISSN/ISBN、网址、所属学科等,便于图书馆按刊名/书名在本馆电子资源导航系统为用户提供导航。

③是否按时提供标准的用户使用报告。

● 是否为图书馆提供管理系统的访问权限,图书馆可以登录到数据库管理系统,下载上述各类文件,或修改与本馆用户相关的用户信息。

6.存档(archive)

存档是指图书馆可以长期拥有、保存和使用已经购买的电子资源,无论今后是否有经费继续购买或出版商/数据库商是否仍然存在。目前的存档方式有以下几种:

● 数据+系统。即出版商/数据库商同时提供数据和软件,通常是以光盘或磁带的形式。这种方式属于短期存档,即可以解决短期内(几年)因经费不足或出版商/数据库商倒闭带来的问题。但随着系统及光盘等存储介质的老化,很难在10年以后继续使用。

● 印刷型出版物。一般出版商/数据库商都同时配套出售电子资源和相应印刷型出版物,增加少量费用。因此可以考虑购买纸本来做存档。但同时带来的问题是占用空间,使用也不方便。因此只能购买质量和使用频率都较高的少量印刷本。例如购买某个出版商的电子期刊时,可以选择其中利用率较高的部分订购其纸本。

● 裸数据(raw data)。出版商只提供裸数据,没有相应的软件系统,这种方式利于长期拥有和使用,前提条件是数据必须符合标准,且要求图书馆要另外开发或购买系统。

从目前来讲,如有条件,以第三种方式为好,尤其可以以图书馆联盟的方式来做这种存档。如不具备条件,则根据图书馆具体情况选择第一或第二种方式。因此可以说,在评价存档政策时,还要视图书馆的具体条件和需求而定。

四 结论

上述这些指标共同构成电子资源的评价指标体系,就目前来讲,由于积累和实践尚嫌不足,其应用还都是单方面的。对一个数据库或电子期刊来说,要进行系统和全面的评估,这些指标就要综合利用,并在预评估和后评估的过程中反复利用,最终确定指标设置是否合理,指标值究竟为何。

在我国,随着电子资源建设规模的不断发展,相信这方面的工作会逐步深入、扩大,逐步科学化和系统化,并最终形成一个完整的评估系统。

收稿日期:2001年11月28日

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

建立电子资源评价指标体系初探_数据库应用系统论文
下载Doc文档

猜你喜欢