网络计量学的研究方法与应用_文献分析法论文

网络计量学的研究方法与应用_文献分析法论文

网络计量学的研究方法及应用,本文主要内容关键词为:计量学论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 前言

20世纪90年代中期,随着计算机网络技术的迅速发展,信息资源越来越呈现出数字化、网络化的特征,网络信息资源的交流日益频繁。原有的信息计量方法已不能够对电子和网络信息进行测度和计量,这就促成了网络计量学的诞生。

网络计量学是应用文献计量学、科学计量学及信息技术,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以揭示其数量特征和内在规律的一门新兴分支学科。最早在1990年Paisley就提出了将情报计量方法应用于电子通信领域。1997年Almind等人在“Journal of Documentation”上发表了《万维网上的情报计量分析:网络计量学方法门径》一文,提出了“网络计量学”(Webometrics)一词。认为可以将情报计量方法用于万维网信息的研究,并且“情报计量方法所使用的手段完全可以应用到万维网上,只不过是将万维网看作引文网络,传统的引文由Web页面所取代”。将传统文献计量方法使用在Web分析上,通常可统计任何方面,诸如语言、单词、词汇、频次、作者特征、作者合作的能力和程度,还有对作者的引文分析,学科或数据库增长的测量,新概念、新定义的增长、信息的测量、信息措施的形式与特征。

本文的目的在于探讨其类型及具体应用,重点介绍链接分析法和图形理论法,以期对网络计量学研究方法作一个较为全面的梳理和概括。

2 网络计量学研究方法的分类

在现阶段网络计量学的研究对象是十分广泛的,包括网络技术、网页中文献计量方法,万维网的电子数据库分析及网络结构、电子数据库资源的产出量、主页、电子引文分析、电子媒介和资源研究、数字图书馆、虚拟图书馆、电子信息系统、域名分布等。归纳起来主要涉及到三个层次:(1)网上信息的直接计量问题;(2)网上文献、文献信息及相关特征信息的计量问题;(3)网络结构单元的信息计量问题。

网络计量学是在传统的文献计量学、情报计量学及科学计量学的基础上发展起来的,因此它们的研究方法和规律存在着相似性。如对网页简单的记数及内容分析与传统出版物分析基本类似;Web页面的增长符合函数规律;网页的链接数量符合布拉德福定律等。在研究方法方面,可以借鉴其文献信息统计方法、数学模型分析方法、引文分析法、书目分析法、系统分析法等各种计量方法。但由于网络信息的无序化、动态化及可选范围的扩大,又不能将文献计量方法简单地套用到网络信息资源的计量。网络计量学要有其新的内容体系和研究方法,需要制定新概念、新指标和探索新的规律和模型。从20世纪90年代中后期以来,许多文献计量学家已从不同角度进行这方面的探索研究。Abraham和Larson将Web当作一个分布式数字图书馆,将基于印刷的图书馆知识结构的分析的工具和方法,用于网络计量,实现基于网络环境的转变。Almind用多种文献计量方法对北欧国家的网页链接种类及类型作研究,其方法包括对网页的分等级取样以及为了对网页进行分析而采取的网页下载。Rousseau用AltaVista研究某一特定领域的Web站点的链接。他对网址的分布模式和进入网页的链接作了分析,发现域名的频率和网站间的链接频率符合洛特卡分布。Bar-Ilan针对某一主题的新闻组的讨论作了调查,发现布拉福德分布也同样适用于网络环境。

以上介绍的一些网络计量学的研究,其研究方法大致可分为以下几种类型。

2.1 运用统计方法对数据进行统计分析

网络计量学使用概率论与统计学对网络中的数据进行科学分析,得出网络本身所适用的数学模型,从而揭示网络文献及信息资源的新规律。应用统计方法进行研究是网络信息定量研究的基础。与传统文献统计分析法类似,网络信息资源的收集、整理分析中都会用到统计学方法。很多研究机构,如中国互联网实验室、中国网络研究与发展中心、中国互联网络信息中心、赛迪资讯顾问公司等就是通过对网站和服务器的数量、网络用户特征及网络发展的增长率指标进行统计分析的。传统文献信息统计分析有其相对完善的指标体系,而由于网络信息丰富性、分散性及网络结构的复杂性,对于网络计量学来说,需要构建针对网络信息测度的宏观的统计指标体系。在形成指标体系后,在实际研究中,将各因素与指标建立对应关系,进行统计分析,从而建立数学模型,再将模型投入到科研工作中,在应用中不断修正,使模型趋于合理。

2.2 运用图论的方法对数据进行可视化研究

即运用网络绘图和信息技术研究网页间超级链接的拓扑结构,直观反映网页间的链接关系。近年来的许多研究工作已从图形的角度对网络进行研究,并且将由图形理论所得出的算法模型用于网上问题挖掘。人们将图论方法(Graph Theoretical Methods)和传统及新的研究方法综合运用,并扩充和确认了这种方法的研究和应用。图形理论分析与统计方法一样,促成了对域名结构和分类的进一步研究。Broder等利用两亿网页和15亿个链接给出了看起来像“领结”形状的网络结构曲线图,构建了网络曲线的数据库模型。

2.3 运用提示数据聚簇和分散的工具进行数据挖掘研究

Frawley将数据挖掘定义为对数据中隐含的、以前不知道的、潜在有用信息的有价值的提取。数据挖掘技术包括:信息检索、统计学、机器学习、模式识别等。与统计方法相比,数据挖掘可用于对一个站点上的各种特征进行深度研究。数据挖掘在文献和引文数据库中所应用的方法之一聚类分析技术,在网络环境下也同样适用。例如,可对一个站点的各种特征进行深度研究,包括站点的交通测度以及各个国家的IP地址的分配。如运用多重相关分析研究欧美大学、政府、行业之间的联系。方法是对112个网页服务器进行三方面变量(关系变量、内链接变量和网络服务变量)的计量,将计量结果进行多重相关分析,在二维图上观察出它们相关关系的聚簇位置。得出结论,美国的大学、政府和欧洲大学的域名服务器位于相互活动和高链接的递增位置;相反,欧洲政府和中等域名服务器则位于相互活动和高链接的递减位置。

2.4 运用解释和模拟网络结构和增长理论工具进行模型研究

这种方法是通过构建网络结构的模型来研究网络,诸如研究各个国家的域的等级——频次分布、网页之间和网页内部、外部的超链接情况。

3 网络计量学研究方法的具体应用

本文主要讨论链接分析法及图论分析法在网络计量学中的具体应用。

3.1 链接分析法

引文分析法是评价传统期刊质量的重要工具。利用引文分析可以研究学科情报资源分布、确定核心期刊、研究科学交流和信息传递规律、研究文献老化和信息利用规律等。在网络环境下,可以将Web网站中的链接看作类似于印刷型出版物中的引文。传统的引文分析所需的大量数据是由科学引文索引(SCI)、社会科学引文索引(SSCI)或艺术和人文引文索引(A&HCI)所提供的,因为这些数据库几乎是得到引文信息的唯一所在。同时在评价时,人们广泛采用期刊影响因子这一指标。在网络环境下,搜索引擎(例如AltaVista)为网络文献计量提供数据源;与期刊影响因子相类似,1998年Ingewersen提出了“网络影响因子”(WIF)。他用Alta Vista的指令来测量链接网页的数目,计算出站点的链接数目比率。Ingwersen计算了三类Web空间的Web影响因子:自链接Web影响因子、外部链接影响因子、整体Web影响因子。

3.1.1 链接分析研究实例

Alastair Smith认为网络影响因子可以作为评价站点和域名的一种工具,为了检验这一观点,他以澳洲和东南亚的站点为例,计算WIF,以此作了研究。

Alastair在计算方法上沿用了Ingwerwen的方法学。在选择搜索引擎时,他比较了AltaVista、基于Inktomin搜索引擎的HotBot和InfoSeek,由于AltaVista具有布尔操作能力,能进行复杂的操作,并且搜索结果较为稳定及其他一些原因,他选择了AltaVista来搜索数据。Alastair接着对东南亚和澳洲的几套Web空间进行了WIF的计量。

①东南亚及澳洲国家间的站点(.nz,.au,.pg,.id,.sg,.my,.th,.hk)。他计算了这些站点的三个WIF,域中的网页数量和人均GDP。

②澳洲大学的站点。计算了三个WIF,域中的网页数。ISI索引出版物,教师人均出版物。

③澳洲的电子杂志。计算了三个WIF,网页数量,ISI索引数量。

④澳洲国家图书馆的站点。计算了三个WIF和网页数量。

在对计算结果分别进行了比较研究后,他得出结论认为:由于WIF计算的是每个网页的平均链接数量,所以受到外部链接和Web空间的网页数量的影响。在国际间进行比较时,拥有网页数量多的域的外部WIF就低,反之,则高。因此,外部WIF在进行国际域名的比较时要谨慎,而只对具有相似特征的域间比较时,才比较有效。以大学和国家图书馆的站点为例,在组织层次的Web空间,WIF似乎可以作评价比较站点影响的有效工具,但也要和其他测量方法结合使用。由于Web站点之间的链接不同于传统文献引用,并且电子杂志的许多链接是对杂志本身的链接,而不是对文章的链接,所以将WIFS应用于电子杂志的评价不是很有效。

3.1.2 研究链接分析的意义

研究链接分析的意义在于:

①促进网络环境下的科学信息交流,研究学科发展规律。通过分析站点被其他站点“引用”的情况,也就是对其它站点指向某站点的链接的数量进行统计分析,可以帮助确定核心站点。核心站点的确定,可以帮助用户快速查找和选择利用网络信息,引导科研方向。通过共引分析,可以识别相关站点群落,方便同行之间的学术交流。

②为网络信息资源的评价提供依据。可以通过计算网络资源被检索或引用的次数来测定网络资源的重要性,也有专家通过引文分析法来评价网络信息资源。

③指导网站建设和网络管理,完善搜索引擎的功能。高度链接的站点被认为是“核心站点”,这样就可以增加网站的知名度,推动网站建设。根据链接深度分析结果,使网络机器人对不同类型的网络进行不同深度的遍历,同时删除无效链接,以提高其检索质量。美国斯坦福大学的数学图书馆计划开发的Google搜索引擎就可以通过对搜索到的网页的超级链接进行定量分析来对其搜索结果进行排序。

3.2 图论分析法

Broder等人用AltaVista收集了分别包含200M网页和15亿个链接,采用图论分析法对本地和全球网络图形结构进行了研究。

采用图论分析法时,将静止的网页看成是图形的一个结点,将网页间的超级链接看成是图形中的弧。他们针对从1999年5月到1999年12月的Web搜索结果进行了三组实验。在第一组实验中他们归纳出链入链出度分布(in-and out-degree distributions),确认了以前研究报告中的指数函数定律。在第二组实验中,他们研究了网络图形的有向链接和无向链接,结果显示,指数函数定律同样也适用于这些链接成分的规模。最后,他们以随机选择的结点为起点,采用BFS算法进行了一系列的研究。

他们的研究分析得出了一个非常有趣的类似于一个大的“领结”图形的网络宏观结构。这个图形很自然的分成了四个组成部分。第一片是一个中间核心(SCC),其中的所有网页都可以沿着有向链接到达另一个网页。第二和第三片分别被称为“IN”和“OUT”。“IN”中的网页可以到达SCC,但不能由SCC到达“IN”,“OUT”中的网页可由SCC到达,但不能链接回SCC。第四片被称为“TENDRILS”,其中的网页既不能从SCC到达,也不能到达SCC。SCC的规模相对较小,大约由56M网页所组成,其他三部分各包含有44M网页。他们的研究结果还显示,从一个随机选定的源网页到目标网页的任意路径存在的概率只有24%。

Broder等人的研究结果表明,网络的宏观结果比以前人们以小规模范围内所构建的模型要复杂得多,他们的研究对人们更好地了解网络结构特性有一定的价值。

4 结束语

网络计量学是网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门新兴的交叉性的边缘学科。其理论技术和方法还未成型,处于实验探索阶段,如目前实证研究多于理论研究,因此网络计量学的研究方法也处在不断探索和发展阶段。随着研究的深入,网络计量学的研究方法也必将会得到进一步的完善。

标签:;  ;  ;  

网络计量学的研究方法与应用_文献分析法论文
下载Doc文档

猜你喜欢