我国图书情报站“引文”分析_域名结构论文

我国图书情报站点的“引用”分析，本文主要内容关键词为：情报论文,站点论文,我国论文,图书论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 研究背景

在图书情报领域，“引文(Citation)”这个词应当可以算做近年来的流行用语之一。加菲尔德创立的“科学引文索引”、“社会科学引文索引”和“人文与艺术引文索引”揭示了由文献群体及其相互引证关系形成的引文网络。人们通过对引文网络中各种要素及其相互关系的研究，描绘出文献的增长、老化以及其它分布规律，还可以揭示一个学科中重要文献之间的关系，进而反映学科结构的发展演变。而应用范围最广的则是利用引文网络对期刊、机构、论著甚至研究人员进行定量评价。可以说，引文分析方法已逐渐成为当代科研管理中一个重要的定量评价方法。

与引文网络相似，在因特网中，无数的站点及其相互指引的链接关系也形成了一个网络，而WWW的发明则将这种隐含的链接关系表现得更加直观。

从结构上看，两个网络非常相似：在文献引用网络中，文章A在写作过程中参考了文章B的内容，因此将文章B列入文章A的参考文献中，形成了文章A对文章B的链接。在因特网上，站点(页面)A认为它与站点(页面)B有着这样或那样的关系，因此将站点(页面)B作为一个超级链接，引导浏览者进入站点(页面)B，实际上就是站点(页面)A引用了站点(页面)B。在引用过程中，文章A与文章B、站点(页面)A与站点(页面)B之间都有着内在的联系。

1996年，McKiernan提出用“Sitation(Site Citation)”这个词表示站点之间的引用关系 [1]。在此后的几年中，国外学者对此做过一些试验性研究。同年，Larson利用链接关系进行了地学核心站点的共引分析[2]。比利时著名文献计量学专家Rousseau则在1997年通过引用关系研究了文献计量学领域站点域名的Lotka分布[3]。

目前看来，他们的试验性研究基本上是成功的，也就是说，因特网与引文网络之间在很多方面有相似的规律。但是，是否可以利用链接关系进行站点评价以及评价的结果如何，这项具有重大实际意义的工作似乎还没有人做过。

虽然站点的内容比学术论文庞杂得多，它的引用动机同引文相比也更加复杂和多样。但从概率上讲，同类站点中一个被大量引用的站点，应当比一个很少被人提及的站点(新站点除外)更有影响。流行性站点(娱乐、新闻)的被引情况反映了它被人关心的程度，也就是它的影响力，这类站点被引数量往往会随时间和人们关注的话题而迅速变化；学术性站点自身及其链接的稳定性相对较好，关注这些站点的群体也比较稳定。

为此，本文将选择一些非流行性站点，对它们的被引用情况进行一些实验和分析。

2 数据的采集和整理

笔者仔细研究了国外学者采集数据的方法和过程，经过多次上网实践，终于完成了数据的采集和整理。

2.1 数据源

数据源的选取主要考虑两方面的问题：一个是站点的性质，同类站点的可比性较强，因此选取的站点要性质相同或相近，同时为了保证结果的稳定性，要选取非流行性站点进行分析；另一个问题是数据量的大小，数据源既要有一定规模，以保证结果的可信度，同时，由于大部分工作都由手工完成，统计范围不能过大。综合以上因素，本文选取我国大陆地区建立的图书情报站点作为统计数据源。考虑到台、港、澳地区的网络建设和图书情报工作发展进程与大陆地区有所差异，因此，统计时不包括这三个地区。

2.2 数据采集和整理工具

本文利用原美国DEC公司(现已被Compaq公司购并)开发的搜索引擎Alta Vista(http://www.altavista.com/)作为数据采集工具，利用微软的表格处理软件Excel以及社会科学软件统计包(SPSS)进行数据处理和统计分析。

Alta Vista是目前世界上最著名的搜索引擎之一，它的数据量大、检索速度快。而选择它作为本文进行数据采集工具的最重要的原因还在于它有独特的功能——可以检索站点(页面) 被链接(引用)次数。

Alta Vista也有中文版(http://www.altavista.com/av/oneweb/)，笔者分别在中英文版中检索一些站点的被引用情况，发现后者包括了前者的全部结果。因此，决定选用英文版Alta Vista作为本文的数据采集工具。

2.3 数据的采集和整理过程

2.3.1 搜集全国图书情报站点的网址。从1999年9月23日开始，笔者在网上寻找国内图书情报站点的网址目录，将这些地址进行汇总、整理后，共得到232个上网的图书情报站点。

2.3.2 访问站点，核实链接。为保证站点地址的正确和连通，对每个站点进行访问，删除死链或无效链接。对于网址发生变化的站点，记录新网址，如果原网址仍然有效，还将其保留，否则删除。有37个网址始终没能连通，但是系统并没有反应为“地址错误”，因此也将它们算做有效网址。

有些站点有多个网址，有些没有域名只有IP地址。对这些问题，本文采取以下措施：有多个网址的站点，只要这些网址都能够连通到该机构的正式站点上，就都算做有效网址，最后将几个网址的被引量之和作为该站点的总被引量。只有IP地址的站点，就按照该IP地址的被引量算，其它站点一律不计算IP地址的被引量。修正后共得到176个机构的地址。

2.3.3 利用Alta Vista检索各站点被链接的数量。从1999年10月12日开始，利用Alta Vis ta手工检索这些图书情报站点的被引次数。

检索式：link：网址

为了更准确地获得站点的被引次数，避免将同址而协议名称不同的(如“ftp”、“telnet ”等)页面包容进来，网址采用全称，包括协议名称“http：//”。网址以“/”结束的，一律将“/”删除，如“http：//www.nlc.gov.cn/”改为“http://www.nlc.gov.cn”；不以 “ /”结束的，网址不变。

由于Alta vista的数据库不断进行更新，为保证数据的可靠性，笔者分别在10月12日、14 日、15日进行了三次重复实验，然后取其平均值作为研究的数据，因此被引频次中有小数出现。

2.3.4 整理数据。根据各站点服务器所在地，增加省(市)、自治区和行政区划的名称。至此，基本数据的搜集整理工作完成。

3 统计数据及分析

本文计算了全国31个省、自治区、直辖市的图书情报站点数、各地站点被引用的总频次、各地站点平均被引数等指标，将这些指标放在表1中。

域名是站点的名称，虽然每个域名下的站点规模不一，但是一个地区域名数量的多少反映了该地区互联网发展的程度。中国互联网络信息中心1999年7月公布的“中国Internet发展状况统计报告”[4]给出了域名的地域分布情况。笔者将这组数据也放在表1中与本文收集的数据进行对比。

表1 各地区站点状况分布

省份 CNNIC统计结果

本文的统计结果

域名数量被引总频次站点数平均被引数

北京

10661 2876.6

137.0

广东

4349879.7

2535.2

上海2245 1240.01965.3

江苏

1480564.8

2225.7

山东

1430 35.76 6.0

浙江

1132107.78 13.5

辽宁798 84.06 14.0

河南779 0.01 0.0

福建703 157.3

7 22.5

四川609 104.0

6 17.3

湖北605 103.3

3 34.4

河北544 29.04 7.3

天津517 39.02 19.5

陕西431 49.68 6.2

广西334 112.7

5 22.5

海南305 0.00 0.0

湖南263 44.3

4 11.1

云南253 44.6

4 11.2

重庆247 37.3

4 9.3

黑龙江 234 26.0

3 8.7

安徽217 73.3

2 36.7

吉林190 23.7

5 4.7

山西135

0.0

2 0.0

江西131 10.0

3 3.3

内蒙古 131

0.0

0 0.0

甘肃119 28.7

4 7.2

贵州 75

0.0

0 0.0

新疆 72

6.7

2 3.4

宁夏 16

0.0

0 0.0

青海 10

0.0

0 0.0

西藏 7

0.0

0 0.0

注：本表按照CNNC统计的域名数量降序排列。

站点数指某地区上网的图书情报站点个数；被引总频次指某地区上网的所有图书情报站点的被引频次之和；平均被引数指某地区图书情报站点平均被引用次数。

3.1 我国图书情报站点发展的总体状况

从以上几方面的分析可以看出，总体说来我国图书情报站点的建设还处于发展初期。

从上网情况看，我国图书情报机构上网数量少。据1999年《中国统计年鉴》统计[5]，19 98年我国有2731个公共图书馆、1022所普通高等学校、404个县级以上的政府部门属情报文献机构。本文搜集的图书情报站点中，有公共图书馆33个，高校图书馆139个，其它图书馆4 个，上网比例非常低。相比之下，高校图书馆具有明显的优势。这与我国教育科研网的建设有很大关系。

从信息流动情况看，开放程度远远不够。引用大多发生在国内站点之间的互引，被国外引用少，甚至与海外华人站点或港台站点之间的引用也不多。

从被引用数量看，图书情报站点被引量普遍偏低。被引100次以上的站点只有13个(见表4) ，50%的站点被引频次在9次以下，所有站点平均被引用频次为37.9次。同国外或港台地区图书馆相比，有着较大的差距。

3.2 各地被引情况差异很大，而且站点被引情况与各地互联网发展程度有极强的相关关系从统计的数据看，各地站点数及被引情况差异很大。全国31个省(自治区、直辖市)明显可以分为两个大类，一类是网络水平较高的4个省市：北京、上海、江苏、广东，它们无论是拥有的站点数量还是站点平均被引数都具有明显的优势；另一类是其它省市，虽然这些地区之间也有一些差异，但总体说来属于同一个层次。这说明各地图情网络建设的发展很不平衡。

从另一个角度看，东部经济发达地区的各项指标普遍较高，西部地区则普遍偏低，甚至有几个省(自治区)的图书情报站点数为零。为了更清晰地描述这种分布，我们将31个省、自治区、直辖市划分为东、中、西部计算各种指标(见表2)。

表2 地区分布

地区CNNIC统计结果本文的统计结果

域名数量被引总频数

站点数平均被引数

东部24498

6126.5 125 49.0

中部2685 280.5

23 12.2

西部1839 270.9

9.7

注：东部地区包括北京、天津、辽宁、河北、山东、江苏、上海、浙江、福建、广东、广西、海南等省市；中部地区包括黑龙江、吉林、山西、内蒙古、河南、湖北、湖南、安徽、江西、四川、重庆等省市；西部地区包括陕西、宁夏、甘肃、新疆、西藏、云南、贵州、青海等省市。

其中，经济发达的东部地区以其雄厚的经济基础在各方面居于遥遥领先的地位。该地区域名数量占全国总数的84.4%，被引总频次占91.7%，站点数占71.0%，平均被引数分别是中、西部的4.02和5.05倍。从表2中还可以看出，中部地区站点数量虽然少于西部地区，但无论是从被引总频次还是平均被引数来看，中部地区均高于西部地区。不过除了域名数量以外，中、西部地区的其它指标差异并不大。

通过以上分析，我们不但感觉到各地图书情报网络化建设发展水平的差异，而且似乎可以推断出网络建设水平与地区被引状况有密切关系。

笔者利用SPSS软件包对各省(市)的域名数量、图书情报站点数量、站点被引用总频次和平均频次等变量进行了皮尔逊相关分析，得出如下结果(置信度99%)，见表3：

表3 相关系数

变量相关系数

域名-图书情报站点数量

0.719

域名-总频次 0.960

域名-被引平均数 0.898

结果表明，它们两两之间都具有较强的相关关系。尤其是域名分布和总频次分布，其相关系数已达到0.960，相关程度非常之高。

因此可以认为：站点的被引用情况与当地网络发展有直接的相关关系。

3.3 站点的被引频次基本反映了站点本身的质量和建站机构的实力水平

由于笔者没有找到近年对我国国情机构进行定量评价的数据，无法比较各站点被引频次与机构实力之间的关系。

但是，从表4中可以看到，国内一些知名图书情报机构的站点排名依然靠前。这些机构大多以历史悠久、力量雄厚、资源丰富而著称，近年来它们在网络建设方面也投入了相当的力量，是我国图书馆自动化建设和网络建设的先行者。

通过对站点的浏览，笔者发现被引频次高的站点大都提供了书目检索、数据库检索、消息发布、网络导航等内容，更新时间比较短，从内容到形式、速度、服务等几方面都达到了一定水平。值得注意的是，广东等地的很多站点由于近年来在图书馆自动化和网络建设上下大力气，较早地开始了网络化建设，虽然建站机构不一定在全国影响很大，但是由于其丰富的内容、良好的服务而普遍获得了较高的被引率。

反之，被引频次低的站点大多内容较少，有些站点甚至只提供了图书馆的简单介绍，没有任何实质性的服务内容和动态信息。有的站点难以连通，有的站点速度缓慢，有的站点很久不更新。

表4 被引100次以上的站点

站点名称被引频次

清华大学图书馆1422.3

上海黄埔图书馆信息网

492.0

中国国家图书馆 460.7

中国科学院图书馆(文献情报中心) 393.3

上海图书馆 262.3

北京大学图书馆 203.7

南京大学图书馆 168.0

华南理工大学图书馆 141.7

东南大学图书馆 128.7

北京邮电大学图书馆 125.0

深圳图书馆 125.0

汕头大学图书馆 121.7

上海交通大学图书馆 116.4

从表4中我们还看到了两个不同一般的站点，就是清华大学以高于其它优秀站点3-4倍的悬殊数量高居榜首。笔者为此浏览了清华大学图书馆的站点和引用它的站点，发现清华大学图书馆的英文页面做得很成功，与中文页面的功能相差无几，国外读者几乎可以与国内读者享有同样的服务，因此有很多国外站点将它链接进来。如http：//www.studyweb.com/Refer ence站点是一个主题指南，它列出了世界上很多大学图书馆的站点，其中包括清华大学图书馆，但是笔者未查到包括北京大学图书馆在内的国内其它知名大学图书馆的站点。

另一个有较高被引率的站点是上海黄埔图书馆信息网。这是一个区级图书馆的站点，由于一些独具特色的栏目使它获得了很高的被引率。它的内容丰富实用，除了一般的书目检索、电子刊物以外，还包括特色专题，很多站点引用了它的幽默大观、文学站点等页面。

由此看来，从总体上讲被引用频次基本反映了站点本身的质量和建站机构的实力水平。但是同文献的引用相比，站点之间的引用次数似乎变化幅度更大，受到的影响因素也更多。

4 结论与思考

通过对我国图书情报站点被引用情况的统计与分析，使我们对我国图书情报网络建设的总体水平和各地区的差异情况、与各地互联网发展程度的相关关系等问题有了一个大致的了解，同时也发现，站点的被引频次基本反映了站点本身的质量和建站机构的实力水平。

从本文的研究看，被引情况的分析更适合于宏观性研究，如进行地区性分析等，因为这样的研究样本量大，系统偏差小，易获得较为客观的结果。对于个体研究如站点评价等，在多数情况下，也能够反映站点的综合水平，但是由于其它因素的作用，容易导致一些突变，因此需要采取审慎的态度，最好不将它作为绝对的、唯一的评判标准，而是以此数据为基础，结合其它指标，如内容评价、连通性、反应速度等，共同构建一个指标评价体系。

在分析过程中我们发现，引文分析传统上用于学术论文的评价，而在图书情报站点评价中则遇到了新问题。同论文的引用关系相比，站点内容比较杂，其相互链接的目的并不只限于对站点内容的引证。据笔者观察，大部分引用可能发生在“网络导航”、“站点集锦”等栏目中，也就是说，很多站点链接的目的仅仅是向用户展示或推荐网上资源。那么，站点引用的目的到底都有哪些?它们对于被引数量有多大影响?站点管理员是怎样决定链接站点目录的 ? 这些问题都需要进行更加深入的研究。

除了理论问题，笔者还感觉到有很多需要解决的技术性问题。首先是数据源的问题。Alta

Vista是一个综合性搜索引擎，它的数据库中包括了大量的娱乐、新闻和商业性站点，学术资源只占其中很少的部分，因此引用结果会与单纯的学术引用有一定偏差。如果建立一个学术性搜索引擎，在它的数据库中检索学术性站点的被引用情况，就能够纠正这种偏差。其次是手工获取数据的问题。由于没有合适的检索工具(如机器人)，因此本次实验全部用人工将站点地址粘贴到AV中，逐一进行检索，这样做既费时又费力，而且容易产生错误。如果能设计一个能够自动向AV提交检索式并记录检索结果的软件，将有利于提高数据质量，增大数据规模。此外，由于用来统计数据的搜索引擎不断更新，因此不具备重复实验的条件，每次检索时应当尽量避免错误的发生，保证数据的准确性。

标签：域名结构论文; 数据检索论文;

我国图书情报站“引文”分析_域名结构论文

猜你喜欢