网络环境下文献计量学的经典规律_文献计量学论文

网络环境中的文献计量学经典定律,本文主要内容关键词为:计量学论文,定律论文,文献论文,环境论文,经典论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G350

修回日期:2008-08-31

链接分析与引文分析的相似性,促使人们探讨文献计量学经典定律在网络环境中的应用。研究发现,尽管网络文献资源是海量、动态、无序与异构的,但文献计量学中的许多公式仍然能强烈地显现出来,体现了人类研究行为与科学交流模式在网络环境中仍然服从固有的社会科学基本规律。因此,挖掘和发现网络环境中形形色色的数量化经验规律,尤其是在文献计量学中深入研究过的偏斜-负幂分布、指数增长规律以及布拉德福现象等,同时分析他们在网络环境中特定的应用方法和规律,成为当前网络计量学研究的热点问题、重要内容,以及未来长久的发展方向。

1 网络环境中存在的偏斜-负幂分布

1.1 网络用户查寻行为的统计分布

在网络环境中,用户查寻行为的统计规律很多是服从偏斜-负幂分布的,表现出明显的文献计量学经典公式的痕迹,引起人们很大的研究热情。

Jakob Nielsen首先发现用户对网页的点击率和链接率都很符合词频分布中的Zipf定律,通过Zipf分布曲线可以研究和分析网页受欢迎的程度,预测影响力较强网页所占的比例等等[1]。他具体验证了近期一年中某一个月内,对于www.sun.com网站中网页的点击率情况。当将数据点绘制在双对数坐标系时,其分布图形与Zipf分布曲线非常吻合。

其他研究也发现[2],某组织中的雇员查寻外部网页的情况,也是满足Zipf分布的。这里包含两层含义:其一,仅有少量每个人都希望链接的网站,而大部分网站是几乎无人问津的;其二,对于一个给定的网站,他的大部分访问和浏览仅来自较少的固定网站,而较少的访问却是来自范围广泛的各类不同的网站。甚至连世界网络新闻组专家的信息服务也服从Zipf分布,因为通常是少量专家发布了大量信息,而大多数专家只是非常保守地提交很少的信息。

Rousseau也是较早对这一问题进行深入研究的学者之一。他在积极推荐采用Sitation术语之后,对网络链接关系与文献引用关系进行了系统比较。他认为从用户动机角度分析,两者有相似之处,但又不尽相同,网络链接的情况要复杂得多。Rousseau选择了343个网址作为研究样本,他对这些网址的分布模式和进入网页的链接情况作了分析,发现网址中的最高层域名服从描述作者生产率的Lotka定律,甚至对这些网址的引用也符合Lotka定律。与期刊中的引用关系一样,在对网站的引用中也存在自引现象,自引率大约为30%,略低于一般期刊的自引比例[3]。

表1显示了域名指标被查寻的频次大致服从Lotka分布。这里f(x)代表被查寻x次的域名指标的数量。拟合分布被Kolmogorov-Smirnov检验(5%水平)所接受。这里“number”代表BITNET的地址。根据表1数据可以得出以下形式的Lotka分布。

表2显示了网站被链接的频次大致服从Lotka分布。这里f(x)代表具有x次链接的网站的数量。数据拟合产生一个非常完美的Lotka分布,其a、C参数分别为2.345和0.7096,这与文献计量学中经典的Lotka分布非常相似,说明在网络环境中仍然存在很多固有的社会科学规律。

1.2 网站与其拥有网页所满足的偏斜分布

经济学中的帕累托法则,亦即“二八定律”,描述的是80%的结果,往往源于20%的原因。互联网中的长尾现象与经济学中所谓的帕累托法则内涵是一致的[4],它们都反映了现实世界中存在的某种不平衡、不对称关系,但引申出来的意义却正好相反。据北京大学互联网信息研究所的研究,在100GB的中文网页中,超过100个网页的网站不足100个,其余10万个网站的网页数均在100以下。画出二维曲线后,拖出一个常常的尾巴,被称为“长尾现象”(The Long Tail)。这一现象也为众多的网民行为,如上网时间分布所证实。

北京大学天网网站根据Web日志记录中的基础数据[5],统计分析了天网用户查寻词的分布情况。研究发现,用户选择查寻词的行为具有很强的集中效应,满足社会学和经济学中的80/20规律。前20%查寻词被查寻的次数占了总查寻次数的80%,表明用户选择查寻词很苛刻,绝大多数用户选择的查寻词取自一个相对较小的词集合中。利用查寻词的基础数据,可以得出用户查寻词服从的分布函数曲线,具有幂函数的数学特征,其形式为:

也属于文献计量学中经典的偏斜-负幂型分布。

1.3 网络环境中文档及词频的分布模型

文献计量学中研究词频变化规律的Zipf分布,在讨论Web信息资源时仍然适用,只是由于Web上词汇增长较快,词的分布趋势也更加偏斜[6]。根据文档的大小,可以建立Web文档的分布模型,分布模型主体服从对数正态分布。因此,大小为X的文档其出现概率为:

(4)

其中,平均值μ和标准方差σ分别取9.357和1.318。由于Web文档的大小分布具有自相似性,所以它们在一个长时期内具有比较稳定和较大的方差。

由分布模型服从正态分布可知,较多的Web文档是小文档,这与当时Internet流量状况和设计有关,但也存在一定数量的不可忽视的大文档。无论是图像文件、视频文件,还是HTML文档均符合这一规律。

其它分布模型还有巴瑞陶的分布模型[7],它的分布模型形式是文献计量学中常见的偏斜-负幂形式。

(5)

这里X是以字节度量的,K和a是分布参数。对于文本文档,a大约取1.36;而对于图像和其它二进制格式的文档,a的取值更小。如果研究全部Web文档时,a取1.1,K取9.3KB。这时可以理解为9.3KB是Web文档分布的一个切分点,93%的文档,尤其是文本文档,其大小要小于这个值。通常,图像文档小于50KB;音频文档处于50-300KB范围;而视频文档会更大一些。这是当前对Web文档分析得出的一些参数,随着Internet的发展,这些参数也会相应改变,但分布模型会保持较长的时间。

2 网络环境中的指数发展规律

2.1 网络新闻组中热点主题的增长机制

Bar-Ilan[8]在1997年研究了网络新闻组中热点主题(如疯牛病)的增长和消亡情况,他发现新闻组中热点主题的增长机制在一定程度上类似于经典文献计量学中的逻辑增长函数。同时,与布拉德福讨论文献分散规律一样,在网络新闻组中也可以划分出核心新闻组等不同的区域。但是,这两种研究最显著的区别在于研究时间的跨度。在文献计量学中通常需要研究几年时间内学科领域或特定主题文献的增长或减少,而在Web环境中类似研究的时间跨度仅仅需要100天时间。

2.2 网络信息量的指数增长规律

新信息技术的扩散和信息量的增加遵循指数规律,这是整个信息产业面临的共同现实。过去10多年产生的信息量,已超过过去几千年,以图书为主要介质的信息量的总和。据Google统计,2005年全世界的网页数为80亿。网站数和网页数都在快速增加,大约每年翻一番。中国的网页数为15亿,有超过6000万活跃的网页。

中国网民的增速目前虽然仍保持线性的特征,但是速度也相当惊人,差不多每半年增加800万左右。2006年7月,中国互联网络信息中心(CNNIC)第18次中国网民调查报告公布。全国6岁以上,平均每周上网1小时的网民人数,达1.23亿人。按照A.C.尼尔森的标准,2岁以上只要上过网的都算网民,腾讯QQ据说也有1亿多用户。因此CNNIC的数据翻一番,是比较贴切的。

2.3 支持半导体工业发展的摩尔定律

1965年4月19日,摩尔先生总结了过去几年集成电路的发展情况,然后大胆预测了半导体工业的发展速度:由于晶体管工艺的提高,晶体管体积逐年减小,集成电路的整合度每年都会翻一番,也就是说半导体元件的性能和功能将会以几何级数逐年递增并且一直持续下去……。这就是在以后40年中,支持半导体工业发展的神奇的摩尔定律(Moore’s Law)。

1975年,摩尔对摩尔定律进行了更加精确的修正:半导体集成电路的密度以及性能,每两年翻一番。同牛顿定律不同,摩尔定律并非纯粹的自然科学定律,而是一条融合了自然科学、高技术、经济学、社会学等学科为一体的多学科、开放性的规律。从摩尔定律不难发现普赖斯科学文献指数增长规律和科学知识翻番时间理论的深刻印记和研究模式。

3 网络环境中的布拉德福现象

康柏公司研究实验室、IBM研究中心,以及AltaVista公司的科学家们通力合作,成功绘制出世界上第一张互联网结构全景图。此次基于对6亿多个不同网页的研究结果表明:WWW网站的链接指向,实际上集中构成四个部分,这四部分之间的相互位置关系,恰似一个“领结”。这就是互联网世界著名的领结理论(bow-tie theory)[10]。

实际上,领结理论就是一种网络连接的模式,他将所有网页分类成核心网页、目的网页、起源网页以及分离的网页。按照领结理论,约75%的WWW网站位于领结上,剩下的25%远离领结并且完全隔离。其中领结可再划分为三部分:核心部分,各网站紧密联系,用户可通过超链接在其中双向随意来往,约占全部网站的1/4;左端点部分,从该部分可以单向访问核心部分,但是从核心部分却很少访问该部分,约占全部WWW网站的1/4;右端点部分,从核心部分可以单向访问该部分,但是从该部分很少访问核心部分,也约占全部WWW网站的1/4。这三部分的形象正如蝴蝶结,形式上很类似布拉德福定律中依照专题论文相关性强弱的分区。当然,概念意义并不相同,因为网站作为网页的载体更应该对应于期刊,但也不失为一个很好的研究方向。

4 网络环境中耦合与同引理论的应用

这是将文献计量学中的“文献耦合”、“同被引”等概念应用到网站或网页的链接分析中,Rousseau将其称之为Co-Sitation。Abraham和Larson被认为是这方面研究的开创者。他们把互联网当作一个未来的分布式数字图书馆,将基于印刷型图书馆知识结构的分析工具和方法,例如同被引理论,应用于互联网环境的信息资源。

Larson[11]的研究主要是对超过30千兆字节的网页进行分析,并应用AltaVisa搜索引擎工具。搜索结果产生115个互联网界面,其中含有链接到其他网页的43个网页被保留,而单独的主页、参考文献页和链接则被排除。结果产生7 209个按字母分类的独立URL,Larson排除了引用少于3的链接和在核心区之外的引用,并保留他判断较好的站点,最终将核心区减少为34个站点。他将这核心区中的网站制作成原始同被引矩阵,并设计一个“Web机器人”用了5个小时进行原始同被引矩阵所需的搜索。

Abraham[12]为了探索互联网网页中信息的形态结构,选择群体领域作为互联网网站,使用AltaVisa搜索引擎去显示每个网站中包含网页数目和网页间链接数目。他以加利福尼亚大学系统作为研究实例,此系统包含9个大学和独立的9个URL地址,利用AltaVisa搜索引擎,他获得连续性阵列原始数据,并记录下包含至少有一个链接连接到另一地址的HTML文献的数目,这样AltaVisa就显示出链接的数目,从而可进行网络环境下信息资源的同链接分析。

值得一提的是,耦合链接和同链接也成为现代搜索引擎的重要应用工具,用来加强其寻找“相关网页”的功能。类似于文献计量学中的“耦合”和“同引”,同链接也可以用来帮助鉴别内容相近的网站。

5 结语

随着网络计量学研究的深入开展,人们发现越来越多的文献计量学定量规律在网络环境中同样适用。这为进一步定量化研究网络信息资源的开发和利用,揭示网络信息资源的内部结构和潜在规律,提供了理论基础和技术方法,具有非常重要的研究意义和广阔的应用前景。运用数字化信息技术的处理手段以及现代数学的理论和方法,面向用户的不同需求,对于各种类型的网络信息资源进行定量化的管理、利用、计量与评价,已经成为现代信息社会的重要标志,将在未来的社会、经济、科技管理中发挥越来越大的促进作用。

标签:;  ;  ;  ;  ;  ;  ;  

网络环境下文献计量学的经典规律_文献计量学论文
下载Doc文档

猜你喜欢