文献计量学方法在网络计量学应用中的局限性_文献计量学论文

文献计量学方法在网络计量学应用中的局限性_文献计量学论文

文献计量学方法在网络计量学应用中的局限性,本文主要内容关键词为:计量学论文,局限性论文,文献论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 网络计量学的产生和发展

Paisley[1]在1970年曾指出:“现在的书、刊、报纸中的大部分文本信息将来都会被包含在电子数据库,……所收藏大量电子信息将来会成为文献计量学研究的主流。”随着计算机技术和网络技术的发展,越来越多的纸本文献被转换成电子文献,或直接脱离纸本,以更方便的渠道在网上传播。从此,网上数字信息的计量研究迅速成为新的研究课题,直接导致了网络计量学的产生。

对于网络计量学做出开创性研究的是Abraham和Larson,他们利用网格计量措施建构Web认知图和数学模型,利用完整的模拟程序对Web页连续性进行测量,使用搜索引擎来显示每个站点的网页数目和网页间链接数目,从而得到链接的相关网页数目[2]。网络计量学的概念是Almind[3]等在1997年发表的文章《万维网上的信息计量分析:网络计量学方法门径》中所提出,英文为Webometrics。文中指出:信息计量方法完全可以应用于万维网,只不过是将万维网看作引文网络,传统的引文由网页来代替。1999年的第七届国际科学计量学与信息计量学大会展示了网络计量学研究的新成果,代表作为“网络信息检索时使用关键词检索命中结果数量的时效性评价”。1997年,网络电子期刊Cybermetrics在西班牙马德里创刊,该刊是科学计量学、信息计量学和文献计量学的国际电子期刊。它的创立,标志着网络计量学研究已经逐步从传统信息计量学中分离出来而形成一个新兴的研究领域。

网络计量学采用数学、统计学等方法,对网络信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,揭示其数量关系特征和内在规律,是由网络技术、网络管理、信息资源管理和文献计量学等相互结合、交叉渗透而形成的一门边缘学科[4]。网络计量学的应用范围很广泛,一般适用于文献检索研究、引文分析、站点评价、搜索引擎分析、信息资源建设和网络信息优化处理等。

2 网络计量学研究中存在的问题

由于网络计量学是在文献计量学的研究基础上发展起来的一门学科,因此在文献计量学研究中得到广泛应用的文献信息统计分析法、经验模型分析法、数学模型分析法、引文分析法、书目分析法、系统分析法等定量分析方法在网络信息计量研究中得到广泛应用。但是,由于网络环境的特殊性,这些方法在应用的过程中也出现了一些问题。对于网络计量学研究中存在的问题,国内也曾有文献对其进行过简单的论述。例如,夏旭等人提出网络计量学研究中存在的问题是研究对象的不确定、实验结果的不可重复性、信息老化的不确定性、引文分析的复杂性和实验对象的重复性[5];霍丽萍则指出网络计量学研究中的问题则是统计工作的局限性、信息资源引用的局限性、信息的时效性和信息质量的稳定性[6]。

然而由于国内此类研究较少,对网络计量学中存在的问题还缺乏深入地研究;研究中只是围绕着网络环境的复杂性进行论述,而对文献计量学的研究方法在网络环境下的有效性则缺乏分析;往往主观地判断文献计量学研究方法同样适用于网络计量学的研究,而对网络计量学独立的理论研究和方法研究则缺乏足够的关注。本文通过分析文献计量学中的经验模型分析法和引文分析法在网络计量学应用中的局限性,阐述加强网络计量学理论研究的重要性。

3 加强网络计量学理论研究的重要性

3.1 经验模型分析法在网络计量学应用中的局限性

经验模型分析法是在大量文献分布数据的基础上建立经验模型来分析文献计量学的研究规律,它主要包括文献计量学的三条基本定律:布拉德福定律、齐普夫定律和洛特卡定律。目前有关网络计量学的研究中,在方法应用方面大多都是将这些经验模型直接应用于网络信息的分析当中,其根据就是Almind所提出的将万维网看作引文网络和传统的引文由网页代替的观点。但笔者认为,考虑到网络计量学和文献计量学研究环境上的差异,万维网与引文网络和引文与网页的对等性质的更进一步的研究,因而在网络环境的研究当中,应用经验模型分析法时应该对其适用条件加以严格的限定才有可能得到正确的结果。这就要求我们对经验模型成立的条件有着正确的认识,这里就以三条基本定律成立的条件作简单的说明。

(1)布拉德福定律的成立需要三个条件:一是论文的学科、专业领域或课题范围应当清楚地划定;二是被分析的相关学科、领域或课题的期刊清单,以及对这些期刊中刊载的相关论文的统计应该是充分的;三是被分析的期刊的时间应该清楚地限定。此外,布拉德福定律受限于人为定量规律的数学表现,分布公式和数学模型的精确性会对结果的准确性起到很大的影响作用[7]。

(2)齐普夫定律被用于揭示语言统计规律和语言文字处理方法,但是值得注意的是,齐普夫定律是以英语为基础的,其后的研究也大都限于印欧语系。而我们汉语与它们差别很大,所以应用当中还有很多问题需要解决。

(3)洛特卡定律主要有两方面的局限:一是定律本身的局限。它只是对两个学科(物理和化学)领域抽样的简单推广而建立起来的一个通式,并非一个精确的统计分布,并且其规律性对其他学科是否适用,尚需要严格论证;二是统计数据的局限,由于统计数据不够全面和充分,缺乏代表性,因此并不能得出正确的结果。

由此看来,这三条基本定律在实际应用当中是有着严格的限定条件的,并不是任何条件下都是适用的。对于其在网络计量学的应用而言,经验模型分析法的使用更是需要考察其适用的具体环境。笔者认为,对于现有的网络数据库而言,这三大定律的适用性是毋庸置疑的。网络文献数据库是期刊文献的电子化,其本质上与馆藏文献是一样的。因此,在文献计量学中适用的经验模型分析法在网络文献数据库的分析当中也是同样适用的。美国科学情报研究所(ISI)所编的引文数据库,包括《科学引文索引》(SCI)和《社会科学引文索引》(SSCI),为网络计量学的研究提供了强有力的工具并极大地提高了文献分析研究的效率。但是,除了网络文献数据库之外,在进行复杂的网络信息分析中,其适用性则需仔细分析。

蔡明月[8]曾应用文献计量学的经验模型分析法,以三条基本以及普莱斯根号定律来界定核心网站和检验网站生产力分布。实验结果表明,网页制作单位的生产力分布与洛特卡定律不符。此外,根据普莱斯定律,最多产的20个单位制作的网页数目应为2925,而实际数据为3589,相差甚大,所以结果与普莱斯定律也不符合。

由此可以看出,文献计量学的经验模型分析法不能完全适用于网络计量学的研究,实践结果与理论分析并不完全符合。这一方面是网络环境的特殊性造成的。以搜索引擎为例,网络是一种由各种人生产并检索的非结构化而且高度集中的复杂信息,与结构化的资料库并经由指令语言检索的查询系统完全不同,即网络上数据的收集完全取决于各种搜索引擎的检索特性[9]。而现在大多数的搜索引擎功能过于简单,更重要的是许多主题相关的网页并非真正建立一个具体的网站,而是仅仅提供相关网页的链接。如此一来网页的计量将无法识别真正的生产力分布,洛特卡定律的适用性也就值得怀疑。另外大多数的搜索引擎都无法将所有的网页加以索引,其收录的范围都不相同并且变化很大,缺乏稳定性。使数据的搜集存在很大的困难,从而导致文献计量学的定律在这方面的应用变得非常困难,难以得出有意义的结果。另一方面则可能与定律的数学模型的精确性有关。定律的不同数学模型的精确性在复杂的网络环境中受到了一定程度的影响,很难满足其应用的特定条件,因此得出的结果存在差异性,试验的可重复性受到了影响。因此,在将文献计量学的经验模型分析法应用于网络计量学的研究当中,为了提高其结果的可靠性和可重复检验性,可以运用概率论、随机过程理论和统计学的工具,考虑网络环境中多种综合因素的影响,寻求建立更为精确和适用于网络计量学的分布公式和数学模型。这对拓宽定律的应用范围,并从根本上建立网络计量学自身的理论体系是非常重要的。但是非常可惜的是,这种定量化的研究文献计量学定律在网络环境下的应用在国内尚未得到足够的重视。

3.2 引文分析法在网络计量学应用中的局限性

引文分析法就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者、核心期刊等各种分析对象的引用或被引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量方法[10]。引文分析法是文献计量学中重要的研究方法之一,在测定学科的影响和重要性、研究学科结构、研究学科情报来源分布于确定核心期刊等方面都有广泛的应用。引文分析法中的测度指标很多,这里我们以影响因子为例来说明引文分析法在网络计量学中的应用。

在网络计量学的研究当中,引文分析法可以被用于探讨网页的重复性及高度内连,相当于被引用的网站,从引用的情况来进行网络内容的评估。而其中对网络影响因子(Web Impact Factor,WIF)的研究是目前网络评估当中的热点问题。网络影响因子的概念是从引文分析法中的影响因子的概念引申而来。简单来说,影响因子就是在两年内某期刊上发表的所有文章被引用的总次数与这两年该期刊上所发表的文章总数的比值,它是引文分析方法中一项非常重要的量化指标[11]。由此,Ingwersen于1998年提出网络影响因子的定义为:如果某一时刻链接到网络上某一特定网站或区域的网页数为a,而这一网站或区域本身所包含的网页数为b,那么其网络影响因子的数值就可以表示为WIF=a/b[12]。Mike Thelwall在其2000年发表的研究论文中则提出网络影响因子是链接到某网站或特定区域的网页数与该网站或区域的大小之比[13]。该网站或区域的大小并不一定局限于该网站的网页数,也可以用其他指标来进行衡量。如对学术机构的网站进行研究时也可以是该机构的研究人员数、该机构的研究经费或者全日制学生的数目。就像传统的影响因子可以对期刊、科学家、研究机构等进行评价一样,网络影响因子也可以用于对网站进行评价。

关于网络影响因子的研究,国外的学者自1997年以来已经做了较为深入的研究,但是对于网络影响因子在实际应用中的有效性和普遍性来说则尚未有明确的定论。Ingwersen在1997年选择了7个国家、4个顶级域名和6个学术机构的网站,利用Alta Vista的高级检索功能得到了网络影响因子的数值,结果表明:网络影响因子对于国家和顶级域名来说具有很大的可信度,但是对于学术机构来说可信度却值得怀疑。Alastair G.Smith在1998年10月选取了澳大利亚的大学网站和电子期刊网站,采用了与Ingwersen类似的方法,并将研究结果与传统的研究方法得出的结果进行了对比[14]。得出的结论是:大学或者研究机构的网络影响因子是评价其网络影响力的一个有用指标,但是对于电子期刊来说则可信度要大打折扣。此外,Alastair G.Smith还与Mike Thelwall利用自己设计的爬行器和商业搜索引擎Alta Vista对英国、澳大利亚和新西兰大学之间的相互连接部分进行了统计[15]。他们采用了同样的算法来处理网络影响因子的分子部分;在对分母部分进行处理时,则采用了两种计算方法:一种是统计网站所包含的网页数目,另一种是统计学校的研究人员数目。结果表明:网络影响因子的数值与传统方法得出的结果相关性很低。商业搜索引擎Alta Vista和专门的爬行器得出的结论比较类似,Alta Vista可以用作网络影响因子的测度工具,但是更适合作探索性的研究,而爬行器则在验证性的研究上要更好一些。网络影响因子的数值与传统结论的相关性很小,可能是网络影响因子的数值有问题,也有可能是传统的方法本身就不科学,所以得出的结论并不准确。上述研究当中,用于测度某一网站所包含的网页数目是host语法。如host:www.scan.edu.cn表示华南农业大学网站所包含的所有网页。Owen Thomas和Peter Willett在1999年对英国大学图书情报学系网站的网络影响因子做了分析,所使用的工具是Alta Vista搜索引擎,但他们是用了与上述研究不同的url语法[16]。即以url:www.scau.edu.cn表示华南农业大学网站所包含的所有网页。他们发现链接到图书情报学系网站的很多网页是来自非图书情报主题的网页甚至是商业性的网页,因此得出的结论是链接分析的数据不适合用于对图书情报系的研究能力进行定量的研究,即由这些数据计算得出的网络影响因子数值不足以反映该网站的影响力。

由上面的研究可以看出,现有的网络影响因子的概念在实际应用中还是一个非常粗浅的提法。其有效性和可信度是非常有限的,因而所得出的结论也存在很多的问题。这种问题固然在一定程度上是由网络环境的复杂性和搜索引擎的局限性造成的,但是另一方面也说明了从目前的研究来讲,简单地将引文分析法中的概念应用到网络计量学中还是存在着缺陷的。方法的应用或者概念的引申没有足够地考虑到网络计量学研究的特殊性,如用网页文本的超链接点来取代传统文献中参考文献的作用尚值得商榷。网络计量学的研究不仅包括了网络数据库的分析,也包括了浩瀚如海的网站或网页分析,并且后者要比前者复杂得多。这样就使得引文分析方法的有效性在新的条件和环境中受到了很大的限制。这方面的研究成果再次说明了在网络计量学的研究当中,直接应用文献计量学的研究方法难以得到准确和一致的结果,并更进一步表明,在原有的理论基础上寻找更加有效的研究方法是以后研究的重点。

4 网络计量学理论研究的进展

由此,加强网络计量学的理论研究便成为一个迫切需要解决的问题。针对这种情况,国外在网络计量学方面已经进行了一些初步的理论研究,主要有Egghe提出的超链接双重理论,Bar-llan的新闻组用户研究,Larson进行的WWW信息计量模拟研究,以及Almind等的方法论研究,Rosseau的站引研究等等[17]。我国在理论方面的研究尚处于初步阶段,目前所做的工作还大多是将文献计量学的研究方法直接引入到网络信息分析当中,进行实证性的研究。例如网络内容评价、网络影响因子分析、搜索引擎的比较研究、网络计量学在医学图书馆的应用、网络知识发现与跟踪等等,几乎没有单单从理论层面上进行研究的。此外,研究当中仅仅限于简单的数学和统计学分析,而没有在建立数学模型和分布公式方面做探索性的研究。这种现状使得网络计量学的研究还停留在初级阶段,没有建立本学科的理论,在很大程度上限制了它的深入发展和应用。

因此,现在当务之急是借鉴国外的研究经验,在理论研究方面做更深一步的探索。提出新的概念,善于总结实证性研究的结果,利用数学和统计学的方法建立精确的数学模型和经验公式,对于建立网络计量学的新理论进而推动我国在网络计量学方面的发展有着重要的意义。

收稿日期:2004-03-20

标签:;  ;  ;  ;  ;  

文献计量学方法在网络计量学应用中的局限性_文献计量学论文
下载Doc文档

猜你喜欢