基于Blog的链接分类系统设计_博客论文

基于博客的链接分类体系设计,本文主要内容关键词为:体系论文,链接论文,博客论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在链接分类研究中,国内外学者们针对各自研究对象对链接进行了相应的分类,并构建了对应的分类体系,但是他们的分类只是对链接的类型进行了简单的归类,并没有区分不同类型链接之间的重要性程度,并以此作为链接分析研究的一个衡量指标。所以,就需要建立一套较为完整的分类指标体系,并对不同的指标根据其在链接分析中所占的地位赋予不同的权重,从而更有针对性地选择对研究有帮助的链接指标进行网络链接分析。

1 链接的动机

链接的建立基本都是有一定的目的,它反映了创建者的某种动机,不同的人创建的链接价值差异极大。笔者综合多位学者的观点,把链接原因或动机大致归为如下几点[1-2]:

(1)帮助访问者根据需要翻页和返回,起到导航作用。

(2)链接反映了一部分引用关系,而大部分链接并非真正意义上的引用,因为大量网络参考文献未作链接,它还不能准确反映文献引用情况。这类链接与传统文献引用基本等价,其链接动机与传统文献引用动机基本一致。

(3)基于某种合作、协作关系等特殊关系而相互推介对方的网站,或是网站具有某种权威性,网站制作者向访问者推介内容相关的网站,使访问者能够获取范围更为宽广的信息内容。如Park等发现两个合作网站,每个网页均含有一个指向其合作机构主页的链接[3]。这类情况影响了每个链接都与其他链接同样重要的假设。

(4)出于商业目的建立的链接。为提高网站的知名度,并提高其所载广告的点击率,对访问者最多、内容上最受欢迎的各种网站作广泛的链接,使自己的网站成为信息中转站,成为网络访问者的“必经之道”。再如由同一个网页制作公司为不同的公司制作的企业网站,它们之间很可能以友情链接的方式出现这种情况,从而增加网站的链接,提高彼此的网站威望。

(5)链接反映了网站的信息来源,表明知识产权归属与责任归属。邱均平等[4]发现在电子期刊的网站上所有的外部链接几乎都链接到主页。

(6)向访问者展示该网站的空间结构,使访问者能够根据访问目的选择不同网站,或根据自己的上网方式、地理位置选择访问速度最快的网站[2]。例如,用户在访问南京大学图书馆提供的中文电子图书和期刊CNKI数据库资源时,可以根据自己所在的不同网络类型,选择它所提供的三种链接访问途径:南京大学图书馆镜像站点入口,教育网入口和公共网入口。

(7)网站为了提高其在搜索引擎中的排名,网站之间相互设链。这实际上是一种虚假链。这影响了链接的另一个重要假设,即网站A对网站B设置链接,说明网站A对网站B的重要性投了赞成票。

2 链接分类研究现状

在国外,学者们从不同的视角对链接类型进行了相关研究。Woodruff[5]于1996年在他关于网络链接的计数研究文章中将链接分为自我链接(Self-links)和外部链接(External-links)两类进行计量分析。Trigg[6]根据网络节点之间的关系以及学术文章内部和学术文章之间的链接关系,将超文本中存在的超链接分成两大类:普通链接(Normal Links);和评论性链接(Commentary Links)。Joslyn C[7]根据链接在网络节点中所起的作用将其分为实质链接与语义链接。Ellen Spertus[8]根据从文档URL中反映出来的文件层次结构,把超链接分为四类,分别是:Upward(向上)、Downward(向下)、Crosswise(交叉)和Outward(向外)。Yoshiaki Mizuuchi和Keishi Tajima[9]在研究如何利用页面在Web中的访问路径信息来提高页面索引的完整性时,对URL中所包含的链接信息进行了分析,将链接分为5种链接模式,分别是Intradirectory Link、Downward Link、Upward Link、Sibling Link和Intersite Link。Harter和Ford[10]则使用了内容分析和预先确定的分类表来检测链接动机。他们在研究中将294个链向期刊网站的链接分为13类,并认为超过一半的链接是来自指向具有相近主题的网络资源的网页,而只有7.8%的相当于文献引用的链接是来自电子期刊论文和会议论文或介绍性文字的链接。

在国内,学者们也从不同的视角对此进行了阐述。借鉴传统引文分析中的引用动机分析理论,国内学者们通过实际调查和数据分析提出了基于链接关系的分类体系,其中以俞培果和刘雁书等人的研究最为突出。俞培果等[6]对内部链接和外部链接进行了全面划分,将链接分为内部链接和站外链接,然后再分别细分成网站结构链接以及信息关联链接、信息推荐链接和信息来源链接。而刘雁书等[11]主要是对站外链接关系进行的特征分析,将链接分为推荐链接、合作链接、相关链接、资源链接、通讯链接和广告链接。吴国柱等[12]从网络链接自身所起作用的角度将链接分为参考链接、网络功能链接、广告链接和网络结构链接。袁毅[5]则针对学术网站的特点将链接分为推荐链接、相关链接、引用链接、扩展链接、评价链接、关系链接及其他等类型。

3 链接分类体系的缺陷

目前在链接分类的研究中,学者们在理论方法和实证分析方面都得出了很多有意义的结论,但是也存在如下几个问题。

(1)链接的分类是仁者见仁,智者见智,不同的学者根据不同的标准建立了不同的分类体系,甚至一个学者建立了几套分类体系,这是不利于链接分析研究的。因此,如何建立有效的理论和方法体系是当前链接分类研究中的不足之处,有待深入研究。

(2)链接类型同级设置缺乏逻辑性。在同一等级中往往有不同等级、不同层次的链接类别共存,且链接的同级类型内容交叉从属缺乏规律性。

(3)链接分类欠缺必要的工具。当前国内外的链接分类研究主要依赖于小样本的主观分类,而对于海量链接,主观分类不现实。

(4)链接分类之后没有显示出彼此之间的重要程度,而无法区分各类链接在实际研究中的价值,因此,就有必要通过一定的方法区别出各类链接的权重,从而更加有效地进行链接分析研究。

4 链接分类体系的设计

笔者综合国内外各位学者对链接类型的划分,比较赞同A.G.Smith[13]对链接的划分,即根据对链接作用的“认可”(或“推荐”)与“不认可”,将网络链接分成实质性链接和非实质性链接两大类,前者即表示对链接对象的“认可”,后者则表示“不认可”。在链接分析中,一些链接测度指标,如网络影响因子,都受到链接本身质量的影响,即很多无关链接影响到了网络计量指标的准确性和可信度,因此,首先识别出被“认可”的链接,这样,在进行测度分析时准确度将更高。

分析发现,之前国内外学者针对不同的研究对象(网站)给出了不同的链接类型分类,所以笔者认为,在进行链接分类时,不同类型的网站(或网页)所包含的链接类型是不同的,或者说,在对研究对象进行链接类型识别时,不能等同视之,不过,可以在对同类型网站(或网页)进行分析研究后,给出一个互相借鉴和参考的分类模型(体系),那么在把互联网上不同类型的网站进行定义分类后,可以参照此模型,设计出各自的分类体系,进行有针对性的链接分析研究。因此,笔者在对新浪博客圈的网页链接动机进行分析后认为,根据链接在网站中所起“认可”作用的程度的不同,可以将实质性链接再分为推荐链接、引用链接、关系链接和评价链接四类。非实质性链接又可以分为结构链接、功能链接、广告链接、通讯链接和无效链接五类,并且同时赋予这九类链接及各项子类不同的含义和划分标准。下面,笔者将分别阐述各类链接的意义。

(1)推荐链接。推荐链接是指施链网站(网页)对被链网站(网页)某种认可和肯定,其在内容上可能具有或不具有相关性,据此,推荐链接可以再分为相关推荐链接和无关推荐链接。刘雁书[11]和袁毅[1]在他们的文章里都认为推荐链接是指施链网页与被链网页之间不一定存在相关性,如一个学术网站上可能有对sina.com网站的推荐,它通常以“热站推荐”、“精彩网站”、“优秀学术网站”等形式出现。另外,他们认为相关推荐链接是指施链网页与被链网页之间在内容上存在相关性,如科学评价的网页与科研管理指标网页的链接,一个网站软件网页与另一个网站相关软件网页的链接等。而杨涛[14]则直接从内容上的相关性定义了一类链接叫内容链接。他们在这里是从内容上的相关性将链接进行分类,不过,笔者认为不管这种推荐在内容上是否存在相关性,它们都是对链接对象的一种“认可”和“推荐”,所以笔者把它们统称为推荐链接,其含义和范畴更加充实和宽泛了。

(2)引用链接。这类链接是指施链网站(网页)对被链网站(网页)内容的引用,根据引用内容的不同,可以再分为资源链接和扩展链接。资源链接是指对被链网站(网页)上的某种资源的直接引用,如数据库、文献、软件等,而扩展链接是指施链网站(网页)在内容上需要对自身进行补充说明而对另一网站内容的引用,是一种内容上的扩展,包括解释性或说明性文字链接、图片链接、音频和视频链接等。

(3)关系链接。这种链接体现了施链网站(网页)和被链网站(网页)存在的某种程度上的现实关系。笔者通过分析新浪博客圈内成员博客首页发现,在网页里存在大量的诸如友情博客链接、访客链接、好友链接、博客圈链接等类型的链接。因为博客圈里基本上都是许多博主之间的联系,这不同于刘雁书[11]和袁毅[1]在他们文章中对学术网站所分析出的那种关系链接,这里没有诸如纵向和横向的机构链接,服务商和客户之间的用户链接等。所以,笔者在这里把这种博客之间的联系也称为关系链接,同时通过对这些链接的URL进行分析发现,这些链接有些是新浪博客圈内的关系链接,如访客链接、好友链接等,而另外一些是网络上新浪博客之外的博客链接,如友情链接中的大部分链接。所以,基于这种关系,笔者在这里又将关系链接分为内部关系链接和外部关系链接,分别反映了内外不同层次的关系。

(4)评价链接。在博客页面里存在许多网络访问者对博客或博文的评论性文字,而通过这些评论的文字对做出评论的网络访问者自己的博客的链接,称这种链接为评价链接,同时评价链接根据访问者所评价对象的不同,可以分为评论链接和留言链接。笔者根据分析评价性链接产生的动机,把评论链接定义为访问者对博客内部博文的评价,而留言链接则是访问者对整个博客或是博主做出的评价。袁毅[1]在她的文章中将评价链接定义为施链网页对被链网页的评价,同时还认为这种评价类似于传统文献的评价,既可能有肯定评价,也可能有否定评价,并且比传统文献评价更为丰富,评价的可能是文章、著作、观点、网站或网页、软件、网络社区、人物、产品等。笔者认为在博客之中的评价也具有这种特征,只不过博客中访问者对博客或博文做出的评价不具有商业目的,只是反映出访问者对所访问博客或博文的肯定或否定,所以,笔者认为博客中的评价链接可以用来对博客做出评价,而具有计量价值。

(5)结构链接。结构链接是指在一个网站内部不同目录的文档、不同的网页、同一网页的不同部分之间的链接,它起到一种指引和导航的作用,为网络访问者浏览网站或网页提供方便。再根据这种链接指引或导航范围的大小,笔者把结构链接再分为内部结构链接和外部结构链接。内部结构链接是指在一个博客内部的结构性链接,如在“图林老姜(http://blog.sina.com.cn/tllj)”中出现的“图林老姜的‘空间’、‘博客’、‘播客’、‘相册’……”链接就属于博客内部的结构性链接,再如当一个博客里的博文比较多时,出现的“上一页”、“下一页”等起到翻页和换页的链接也是属于这个博客内部的结构链接,而出现在页面顶部的如“新浪首页”、“博客首页”、“社区搜索”……就属于博客之外的结构性链接。当然,如果根据邱均平和黄晓斌[15]的观点,像这种结构性链接还可以再细分为“目次链”、“注释链”、“实例链”、“索引链”、“扩展链”……链接类型,但是笔者考虑到由于分类标准的不同,这些小类与前面的大类在某种程度上有一定交叉和重叠,所以笔者把这些链接分别归类到相应的大类里面,避免出现交叉和重复现象。

(6)功能链接。笔者把网站内为访问者提供某种服务功能的链接称为功能链接,这之中包括服务链接、版权链接和标签搜索链接。服务链接是指网站本身提供的一些具体服务而产生的链接,如:新浪博客网络中几乎每个网页都会出现的“会员注册”、“产品答疑”、“网站律师”、“点击此处查看原文”等链接,因为这些都是网站本身提供的某种功能性服务,所以笔者将它们统称为服务链接。版权链接是指网站为维护自己网站的权利所作的某种声明而产生的链接,如网站中的“版权所有”或“All Rights Reserved”,这种链接非常少,但是每个网页几乎都有。标签搜索链接,这是笔者在对博客中链接的分析中发现的一种新型链接,这种链接是博主根据博文的内容自己提取出反映文章主要内容的词语或短语所生成的链接[16],利用标签可以通过后台的搜索引擎检索到网络上具有同样的标签的博客或博文。这类链接在博客中大量存在,但是由于这种链接只是提供一种检索功能,不能反映出对所在博客或博文“认可”,所以笔者把这类链接归为非实质性链接,并且认为是新浪网提供的一种搜索服务功能。

(7)广告链接。广告链接在各种类型的网站都会出现,但是在学术性博客网络里这类链接相对较少。网站服务提供商为了某种商业目的而以文字、图片、动画等形式做的一种链接类型。根据广告发布者的不同,可以将广告链接分为外部广告链接和内部广告链接。前者是指网络服务提供商为了商业目的所作网站之外的所有广告内容链接,后者是指网站内部各个成员为宣传或是其他目的所作的内部广告链接。这种类型的链接在博客内是比较少的。

(8)通讯链接。这类链接是指新浪博客中提供很多通讯服务功能的链接和博主留下或网页内部出现的电子邮件链接。但是由于它们通讯机制和通讯范围不一样,本文再把通讯链接分为内部通讯链接和电子邮件链接。如“写留言”、“发纸条”、“给博主留言”等只在博客内部通讯的链接就属于内部通讯链接,而博主或是网络访问者留下的电子邮件地址链接就属于电子邮件链接。

(9)无效链接。这是指网络链接中的一些机器无法处理或识别的链接,如“javascript:void(0)”和“javascript:”等为执行某项网页指令的脚本链接,以及诸如“file:///C:/Documents%20and%20Settings/mmlib/……/……/1.jpg”等文件性的链接,还有其他一些无法识别的链接,本文把它们统称为其他链接。这些类型的链接与网页内容无关,更与链接的“推荐”或“认可”无关,并且无法进行链接统计分析,所以本文把它们看做是无效链接,并在链接指标计量时剔除掉。

基于以上分析,笔者建立了如图1所示的链接分类体系。

图1 基于博客的链接分类体系结构图

5 链接分类体系指标权重计算

针对指标权重的专门生成方法较多,陈敬全在他的博士论文中作了详细的总结[17]。一般来说,要组成评价权重分配专家小组,由专家根据自己的知识和经验、判断各项指标对评价对象或下一级指标对上一级指标的分辨率、重要性、难易度、贡献率或影响力大小,然后对专家意见进行数理统计分析并计算评价指标的权值,本文主要利用层次分析法[18]。

层次分析法(Analytic Hierarchy Process,AHP)是美国运筹学家T.L.Saaty教授于20世纪70年代初提出的一种定性和定量相结合的多目标决策方法,它把一个复杂问题分解成若干组成因素,并按支配关系形成层次结构,然后应用两两比较的方法确定各因素(包括指标和方案)的相对重要性,然后计算各因素的权重,并以此为基础实现对不同决策方案的排序。

5.1 建立层次结构模型

根据前面的提出的分类体系,笔者构建出如图2层次分析结构模型,其中O为目标层,A为准则层,B为子准则层,C为方案层。链接分类的指标体系,是反映在网络环境下的不同链接属性指标,按一定层次结构和隶属关系有序组成的集合按照全面性、层次性、交叉性和科学性等原则,将链接分类的指标类型分为非实质性和实质性,并对各自类别下的子类别加以系统分析和合理综合,建立四层结构的链接分类指标体系(如图2所示)。

图2 链接分类体系层次结构图

其中B层和C层分别表示不同性质的指标集,具体意义可以参考第一节内容。

5.2 构造判断矩阵

指标权重一般使用专家咨询的定性方法或者用数学测定的定量方法来获得。本研究采用基于指数标度(e^(0/5)~e^(8/5))的层次分析法来计算获得各项指标的权重。权重的计算过程全部采用层次分析法软件(yaahp v0.4.1)[19]实现。

在本文中,笔者在网上向网络计量学和链接分析领域内的专家和学者,以及熟悉博客及其应用的网友发出《基于博客圈的链接分类体系专家评分表》,专家根据其专业知识和工作实践填写后,给出他们的评分。调查过程如下。首先,设计调查表。在广泛文献调查的基础上,本研究设计了专家评分调查表。调查表分为三部分,一部分是一级指标调查表,一部分是二级指标调查表,还有一部分是三级指标调查表,并且在每一级指标调查表的最后一行列出“您认为还需要增加哪些一级指标请列出,并给出相对重要程度”。关于重要程度,给出了10、9、…、2、1十个评分等级。从10~1表示重要性逐渐递减,10表示最重要,1表示最不重要。专家对每项指标的打分在1~10之间,通过对每项指标各专家的打分情况进行统计,分别计算出该项指标打10分、9分、…、2分、1分的专家人数比例。其次,选择专家。本研究选择了熟悉该研究领域,有着深厚的专业理论和丰富的实践经验的并且对博客有着深刻了解的专家,共向40多人发出了专家评分表,最终有35人参与了整个调查和评分,剔除不合格的问卷,共获得32份有效评分表。最后,数据统计。统计每一个指标不同专家打分的算术平均值。比较出同级指标之间的相对重要性,然后根据它们之间的差值判断它们相互的重要程度,以此来构造判断矩阵,并进行一致性检验。

5.3 最终数据结果

本文采用的标度类型为e^(0/5)~^(8/5),所有计算全部是通过层次分析法软件(yaahp v0.4.1)来完成,并且所有判断矩阵均通过一致性检验,所得最终结果用直方图表示(如图3所示),从中可以直观地看出每个三级类目在总体系中所占权重大小。

图3 三级指标重要程度直方图

从数据结果中得出,在实质性链接中占比重最大的是关系链接,占到了实质性链接的35.5%,其次是评价链接,约为实质性链接的2/7,这可能是与本文分析的对象是博客有关,因为在博客中更多的有效链接是通过博客之间相互链接和各个博主相互之间对彼此的评论和留言评价,从而导致在博客的实际链接数据中大量的是关系链接和评价链接。在非实质性链接中,结构链接和功能链接都占了较大的比重。与其他类型的网站相同的是,博客网络中结构链接也是起到了非常重要的作用,网站结构的好坏和方便程度也影响到网站的可浏览性。在各个子类细分指标中,推荐链接中的相关推荐链接相对于无关推荐链接来说,比例更大,这可能跟博客的文章内容相互之间存在着较强的相关性。而引用链接、关系链接和评价链接中的各个子类比重相差不是很大,几乎都是各占50%。这说明在博客中实质性链接内部各类链接的区分差别不是很大,在链接分析研究中同样具有较高研究价值。作为非实质性的链接,各个子类在彼此的父类中也占有不同的比例。这说明即使是非实质性链接,虽然在进行链接分析测度指标统计时重要程度不如实质性链接,但是由于结构上的性能对网络本身影响力也有很重要的影响作用,因此各个子类也视其重要性程度的不同而权重不同。经过上述一系列的调查与统计汇总,以及每项指标权重的计算,最终确立了链接分类指标体系的各项指标的权重,如表1所示。

6 结语

从结果来看,链接分类体系的核心因素是实质性链接(占80.22%),其中的关系链接(占17.75%),即链接分析中评价目标最重要的指标是关系链接。这与之前相关研究结果接近,如Smith A.G[13]认为网络链接中真正具有实际研究价值的是实质性链接,也就是说在链接分析中,真正能够起到衡量作用的是实质性链接,因此,在进行链接量等数据统计时考虑更多的是具有较高权重的实质性链接类型。不过,还需要考虑到链接类型在网络中所占的数量比例,如李江[20]在他的硕士论文中认为网络中的链接在数量上非实质性链接占总量的82.867%,其中结构性链接占了76.435%,而实质性链接仅占17.133%。也就是说,链接的质量和数量之间的关系正好符合“二八规律”,即“80/20效率法则”[21],因此,链接数量和链接质量是链接分析中非常重要的两部分内容,针对链接在重要程度和数量上的关系笔者将在后续的研究中进行论述。

标签:;  ;  ;  ;  ;  

基于Blog的链接分类系统设计_博客论文
下载Doc文档

猜你喜欢