从情报学角度看链接分析(ISLAA)_搜索引擎论文

从情报学角度看链接分析(ISLAA)_搜索引擎论文

论情报学视角的链接分析(ISLAA),本文主要内容关键词为:情报学论文,视角论文,链接论文,ISLAA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网络链接分析研究可以追溯到1996年。当年,Larson在《万维网的文献计量:网络空间结构初探》一文中明确将信息技术从文献计量学移植到网络中。[1]早期的链接分析研究同时出现在几个学科中,包括计算机科学领域中的搜索引擎开发,数学领域中的结构和复杂性分析等。1997年,Almind和Ingwersen提出了“网络计量学(webometrics)”一词,旨在定量分析网络现象。[2]此后,链接分析便成了网络计量学的主要研究内容之一。1998年,Google的创始人Brin和Page公开了PageRank算法的核心部分,[3]作为Google的核心技术之一,这一链接分析算法支撑着Google在商业上取得了巨大的成功。

链接分析自诞生后一直是多个学科的研究热点,Mike Thelwall根据不同学科的侧重点将链接分析研究划分为:[4]情报学视角的链接分析(Information science link analysis approach,ISLAA)、计算机科学视角的链接分析(Computer science link analysis approach,CSLAA)和社会科学视角的链接分析(Social science link analysis approach,SSLAA)等。不同的研究视角之间虽没有绝对的界线,但研究目标不同,理论基础也不同。CSLAA的主要研究网络动力学(Web Dynamics)、链接与内容的关系、链接和信息检索、网络挖掘(Web Mining)、网络建模(Web Modeling)等。SSLAA主要研究网络空间分析(Web Sphere Analysis)、虚拟民族志(Virtual Ethnography)、超链接网络分析(Hyperlink Network Analysis)等。而ISLAA则以文献计量学中的引文分析为理论基础,核心观点为“链接代表引用”。

国内情报学领域的链接分析研究存在两个误区:①直接套用链接分析法做实证分析而很少探讨链接分析的内涵、研究对象、研究内容、操作步骤、应用范围、不足之处等基本问题;②很少进行区分不同视角的链接分析研究。本文在区分不同视角的链接分析的基础上,尝试阐明ISLAA的基本问题。

1 ISLAA的内涵、研究对象、研究内容与操作步骤

按照Mike Thelwall的定义,链接分析就是采用并改进现有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析。[5]根据链接分析的定义和ISLAA的理论基础可将ISLAA可定义为:以引文分析为基础,采用并改进理有的信息技术与方法,借助文档之间的相互关联,对文档自身的特征进行深入分析。从概念上看,链接分析以文档为研究对象,这里所说的文档包括四个层面:页面、目录、域名、站点。从本质上看,ISLAA是一种新兴的研究方法,在情报学、计算机科学、社会科学等领域有广泛应用。

根据十余年来国内外ISLAA的相关文献,笔者将其主要内容概括为以下几点:①Web结构研究:将文档视为节点,将文档之间的链接视为连线,便可将Web理解为一张抽象的结构图,图中的节点与连线的属性都值得深入研究;②链接增长规律研究:链接的建立不是随机的(“均匀链接”),而是服从某种规律的,Web环境中,小世界现象已不再适用,不同类型的页面间的链接增长规律不同,纯粹的幂定律模型(“优先链接”)已难以概括这些规律;③链接分类研究:链接可以传达信息,因此,判断创建链接的动机可用于判断学术网络上信息交流的类型,不仅如此,解释链接分析结果时,也需要从链接分类的角度入手;④链接分析算法:Pagerank算法、HITS算法等链接分析算法应用于搜索引擎检索结果排序,极大地提高了检索效率,网络在发展,改进算法与修正算法也层出不穷;⑤ISLAA工具研究:搜索引擎与网络爬虫一直是ISLAA研究中获取数据的主要工具,但二者都有自身的缺陷,如何合理的使用ISLAA工具以提高链接分析数据的有效性一直是ISLAA研究中讨论的热点问题。

为了保证统计分析的效果,ISLAA通过要遵循一定的步骤。Mike Thelwall总结了一般性的9个步骤如下:[6](1)提出合适的研究问题;(2)初步研究;(3)确定适用于做研究的一些网页或网站;(4)用商业搜索引擎或者个人爬虫搜集链接数据,采用适当的安全措施来保证结果的准确性;(5)借助数据清理技术提高数据的准确性;(6)利用相关性检验的方法来验证链接统计的结果是否有效;(7)利用链接分类验证对结果的解释是否合理;(8)根据链接分类的结果下结论,其中包括对分类的详细描述,或举例说明各个类别;(9)说明该研究的局限性,以及在数据搜集和处理过程中所使用到的参数。

可以明显看出,这9个步骤遵循了“大胆假设,小心求证”的科研思路。大胆假设体现在第1步;小心求证体现在第2步的初步研究、第6步的相关性检验、第7步的链接分类。初步研究旨在试探性的判断合理的样本量,以期能得出准确、有效的链接统计结果;相关性检验旨在对链接统计的结果进行验证,并在此基础上下结论;链接分类旨在从链接的类别着手论证所下结论的可信度。而在第9步,还必须说明实证研究中的不足,需要解释统计过程中所用到的各种参数,即指明研究的特定意义。链接分析的结果通常只在特定条件下有特定意义,而不具有普遍意义。

2 ISLAA的应用范围

ISLAA与CSLAA、SSLAA的视角虽不同,但可以有共同的应用范围,这也是当前多学科交叉发展态势下的一种必然现象。笔者试图结合情报学的研究热点解释ISLAA的应用,概括而言,主要包括信息检索、信息构建和知识挖掘三大领域。

2.1 信息检索——检索结果排序

早期的搜索引擎如Infoseek,Lycos等采用的是词频统计——词位置加权排序技术,现在流行的两大搜索引擎Google、百度采用的是超链分析排序技术。1998年,Pagerank算法的诞生改变了检索结果相关性排序的历史,Pagerank算法在网络中的影响如此之大,以至于催生了SEO(Search Engine Optimization)。事实上,Pagerank算法的假设前提沿用了ISLAA的基本观点,即“链接代表引用”。当前,很多研究ISLAA的学者也开始着手优化链接分析算法,以提高检索结果排序效率。

2.2 信息构建——网站结构构建

从内部链接的角度看,ISLAA可为网站结构的构建提供指导。借助ISLAA可详细了解网站信息构建状况,如网站结构(层级结构、环路结构、或互联结构),网站在搜索引擎中的可见度(即搜索引擎覆盖网站的范围),用户可访问度(取决于网站中的死链数),用户访问深度(取决于链接结构),以及链接与内容之间的关联(根据链接可判断内容的主题)等。在了解这些信息的基础上,可重新构建网站内部链接结构,以获得更高的用户可访问度与用户可理解度。

从外部链接的角度看,ISLAA可用于判断网站是否国际化。通过分析网站上的入链数与出链数、共入链数与共出链数、入链页面类型与出链页面类型等数据,可以判断网站在web中是否有较好的连通性、是否处在核心位置、是否能在搜索引擎中处于靠前的位置等,而这些因素都决定着该网站是否国际化。在了解这些信息的基础上,可重新构建网站的外部链接结构,以获得更高的网络影响力。

2.3 知识挖掘——知识地图构建

当前,借助ISLAA构建的知识地图主要有两种类型:

(1)SPSS知识地图。SPSS知识地图是借助SPSS统计软件的多维尺度分析功能构建的二维平面图,图中通过散点之间的距离反映其关联程度。SPSS知识地图的数据通常来源于网站之间的共链分析(Web Colink Analysis,WCA)结果,而网站之间的共链次数反映网站之间关联的紧密程度。1996年,美国加州大学伯克利分校的情报学家Ray R·Larson率先研究了共链现象。[7]他利用Altavista搜索引擎获取的数据分析了地球科学、地理信息系统、卫星遥感三个学科的相互关系以及发展趋势,并构建了“MDS maps of www cocitation”图,即SPSS知识地图。后来Mike Thelwall[8]、Vaughan[9]等人都做了类似的研究。

(2)Pajek知识地图。Pajek知识地图是借助Paiek可视化软件构建的二维平面图。与SPSS知识地图相比,Pajek知识地图中多了点与点之间的连线,而不再是散点,即一幅由节点与连线共同构成的网络图,从图中可以明显的判断出节点的重要程度以及节点间关联的紧密程度。Vlado.A以网站域名为对象,根据不同域名之间的链接关系构建了Pajek知识地图。[10]

值得一提的是,ISLAA在科学评价(尤其是网络信息资源评价)中的应用也有很多学者提及,但笔者并不赞同ISLAA能够直接用作一个评价指标。Mike Thelwall坚持用链接数(包括入链数、出链数、共入链数、共出链数等)探究web的结构与内容,而并没有直接将其用于评价,且通过实证分析明确提出:链接数与网站质量(或科研机构的科研生产率)之间存在相关关系,但目前还未能证明二者之间存在因果关系。[11]

“网络影响因子(Web impact factor,WIF)”是Ingwerson在1998年提出的链接分析算法,用于评价网站吸引链接的能力,[12]但后来被很多学者用于网站评价以及其他网络信息资源评价等。笔者详细论述过WIF的三大缺陷:适用性差、算法自身存在缺陷、赖以存在的假设前提难以成立。[13]WIF的分子是网站的入链数或剔除自链后的入链数,那么,用“入链数”评价网络信息资源质量必然存在同样的问题。

由此可见,ISLAA应用于科学评价还有待慎重考虑,至少需要论证链接指标(入链数、WIF等)的合理性,还需要详细论证链接指标与评价对象之间的因果关系。

3 ISLAA的不足之处

ISLAA作为一种新兴的研究方法,为我们了解web提供了全新的视角。ISLAA以数理统计为基础,是一种定量研究web结构与内容的方法,目前已在检索排序、信息构建、知识挖掘等领域中得到了广泛的应用,并给情报学的发展带来了新活力。然而,毕竟是新兴研究方法,其理论基础与数据支持等方面存在明显不足。

3.1 ISLAA的假设前提难以成立

M.R.Henzinger认为ISLAA以两条假设为基础:[14]①从网页A指向网页B的超链是网页A对网页B的推荐或认可;②如果一条超链接将网页A和网页B相互链接起来,则网页A和网页B可能有共同的主题。

Smith A,G将链接分为两类:实质性链接(substantive links)和非实质性链接(non-substantive links),[15]实质性链接是指符合M.R.Henzinger提出的假设前提的链接,而非实质性链接则相反。文中,作者通过统计分析得出:所有链接中,实质性链接的比例约20%,链接到大学网站的链接中,实质性链接的比例略高,约27%。Heting Chu从学术机构网站的入链中统计得出:可用作评价的链接不足27%。[16]笔者以图情类学术博客为对象,统计出其中符合M.R.Henzinger假设前提的链接只占17.133%。[17]如果把符合M.R.Henziager提出的假设前提的链接看作是ISLAA假设前提成立的可能性,那么不同的实验证明:ISLAA假设前提成立的可能性都不足30%,即链接分析的假设前提难以成立。

3.2 ISLAA工具难以提供准确有效的数据

当前用于获取链接数据的工具主要包括搜索引擎和个人爬虫。

(1)搜索引擎用作ISLAA工具时,主要存在两个方面的问题:首先,商业搜索引擎用作ISLAA工具最大的缺陷在于其检索结果的“不一致性(Inconsistency)”。[18]其次,不同的商业搜索引擎的网页收录范围不同,因此,对于同一研究对象,使用不同的搜索引擎作为工具,便会得出不同的结论。

(2)个人爬虫用作ISLAA工具时,有以下因素阻碍其获得准确数据:①动态链接:个人爬虫难以获取非标准HTML链接,如Javascript格式的链接等,因此,漏掉非标准HTML链接的统计数据显然是不够准确的;②蜘蛛陷阱:蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合,遇到蜘蛛陷阱,蜘蛛便无法返回准确的数据;③异常;异常包括自链、副本链接、镜像站点等,这些异常都将降低爬虫统计的数据的准确性。

4 结束语

笔者着重解释了ISLAA的涵义、研究对象、研究内容、操作步骤、应用范围、不足之处等基本问题。事实上,在ISLAA大范围应用之前,仍有很多基本理论有待深入研究,如ISLAA沿用引文分析理论的可行性、链接分类体系与方法等;也仍有很多实证分析的结论有待深入论证,如“入链数越高,网站质量越高”、“网络影响因子越高,网站质量越高”等。

收稿日期:2007-11-16

标签:;  ;  ;  ;  ;  ;  ;  

从情报学角度看链接分析(ISLAA)_搜索引擎论文
下载Doc文档

猜你喜欢