Web2.0信息排序机制*_访问量论文

Web2.0信息序化机制*，本文主要内容关键词为：机制论文,信息论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 Web2.0及其特点

随着互联网的飞速发展，新兴的第二代互联网(Web2.0)已经成为学术界、IT业界和广大网民所研究和关注的热点。目前，Web2.0没有公认权威的定义，它只是相对于传统互联网服务而言的一种新的服务模式：以Flicker,Craig list,Linkedin,Tribes,Ryze,Friendster,Del.icio.us,43Things.com等网站为代表，以Blog,TAG,SNS,RSS,Wiki等应用为核心，依据六度分割、XML和Ajax 等新理论和技术实现的互联网新一代模式。Web2.0使得整个网络信息组织的方式出现了革命性变革，信息自组织方式在Web2.0中得到了充分体现，也给情报领域的有序性的研究添加了许多新的活力。从个人网站到博客，从在线大英百科全书到维基百科站点，从门户式的标题目录到个性化的标签，无不体现着Web2.0中有序性的特征和功能。

Web2.0的兴起和应用创造了一个全新的信息空间。Web2.0将复杂的技术移至后台，在简单规则的约束下，用户广泛参与，知识信息的生产、传播和利用在多元化、多样化、个性化、去中心化模式下实现了自组织和有序化。从博客信息交流社区的形成到维基百科的协同组织编辑，以及社会化书签产生的分众分类等等无不体现了Web2.0的信息自组织功能和序化特征。网络信息数据的方便获取性也为情报学的理论研究提供了一个广阔的平台，使得我们可以从不同角度、不同侧面来研究人类情报现象的有序性，并且可以通过实验和实证方法来模拟知识信息序化过程的动力机制和演化趋势。为进一步有效地组织知识信息提供全新的视野和方法，揭示信息链不同节点的序化特征，以及从低端节点向高端节点演化的规律。

研究和揭示Web2.0的自组织功能和序化机制将对情报学的发展产生重大影响，我们很早就开始关注Web2.0的序化特征和机制。随着Web2.0应用的迅速发展，互联网越来越表现出自组织、开放性、去中心化、聚合性、高度交互性和创新性等特征，草根阶层在互联网上扮演着越来越重要的角色，因此才使得Web2.0的服务应用增长十分迅速，如图1所示。

在现实生活中，许多系统都具有复杂适应系统(CAS)的特点，特别是有人参与的系统，更是一种适应性系统。由于人的智能性、主动性和适应性，要对它进行有效的研究，采用传统的方法已经不够。复杂适应系统理论的提出对于解决和解释Web2.0环境下网络信息自组织过程中的复杂现象和问题，具有重要的意义。我们将运用CAS理论，采用starlogo软件模拟wiki的演化过程。

2 wiki的特点与功能

维基百科是本多语言、完全公开、共同协作编写的百科全书，依照GNU许可证授权分发，使全人类都可便利使用，也是目前世界上最大的wiki系统。创建之初，其目标就是建立一个更开放的百科全书。“开放”、“中立”与“百科”是维基百科的根本原则，任何人都可以对其条目等内容进行编辑、修改以符合事实。国外的wiki网站比较多，如Wikipedia，LittleWiki，Wetpaint等，国内的wiki网站有维客网、互动维客、天下维客、维客中国等。

图1 Web2.0服务市场

wiki由美国电子工程师Ward Cunningham首创于1995年。wiki的真正繁荣得益于Wikipedia网站的成功。据统计，Wikipedia和大英百科全书的准确性相当，在随机选择的各40篇文章中，维基百科有4处错误、大英百科全书有3处错误，而就总的规模而言，截止2005年前者是后者的12倍多。2007年，Wikipedia网站的访问量超越中国的腾讯网QQ.com，一举成为全球第八大网站，并成为世界头号新闻和信息提供商。

Ward Cunningham为wiki总结了开放、增长、有组织、通俗、全民、公开、统一、精确、宽容、透明和汇聚等设计原则。wiki的功能十分丰富，而且在不断地增加和完善，以Wikipedia为例，最主要的功能包括编辑格式、新增内容、修订内容、IP禁止、页面锁定、版本对比、版本追溯等。IP禁止和页面锁定功能只有管理员才能使用，而且用得很少，因为这些功能违背了wiki的基本原则。

3 starlogo对wiki演化过程的模拟

starlogo是一个用来探索分散系统(有组织而无组织者，能协调而无协调者的系统)的可编程建模环境。利用starlogo可以模拟和深入了解许多现实现象，例如鸟群、交通堵塞、蚁群和市场经济等。

starlogo是由麻省理工学院(MIT)多媒体实验室开发的、基于主体(agent)的建模方法，它以软件的方式描述了主体以及主体与环境、主体与主体之间的交互过程，从而可以研究由多个主体组成的复杂适应系统的运行机制。starlogo为用户提供了良好的操作界面，如图表、按钮和窗口等，用户可以通过界面来进行仿真分析、控制和结果的显示。在编程语言上，starlogo提供的是一种类似于logo的并行语言，可以通过向仿真主体发命令来生成图片和动画，非常形象直观，容易理解。starlogo的目的就是通过提供一种简单、直观、构思巧妙的建模仿真工具，从一种新的视角帮助人们分析和理解复杂适应系统。

starlogo定义了三种角色：海龟(Turtles)、点(Patches)和观察者(Observers)。用户通过建立这些角色来构建复杂系统，模拟现实世界的各种复杂现象。通过对海龟和点进行编程，使得海龟和海龟所处的环境都具有自己特定的行为方式。海龟和点之间的交互作用体现了主体与环境的关系，海龟与海龟之间的相互影响则体现了主体与主体之间的关系。在程序运行时，所有的海龟和点都按照各自的行为规则并行运转，系统涌现出有序的整体行为，并直观地显现出来。这一点非常贴近现实世界，例如，市场经济系统中的每一个成员就是一只只的海龟，每个时刻它们都根据自己的利益采取行为，买进或卖出商品，而不受其他成员的支配，但是它们的行为又与整个市场的状况、其他成员的行为以及市场管理部门的行为息息相关。

结合wiki内容和用户发展演化实证研究的已有成果，我们用starlogo软件建立模拟模型，突出的核心思想是：用户数量的增长促进了wiki内容规模的增长，用户的协作与交流促进了wiki内容质量的显著提高。

starlogo程序运行窗口中的黑色屏幕是各种主体(即海龟)的活动场所，该屏幕由50×50个小方块组成。本模型将wiki用户抽象为7种主体，程序开始运行后，它们向随机方向移动，每一次移动3步，按各自的行为规则在屏幕上涂色，并根据环境的变化，退出屏幕或介绍新的主体加入到屏幕上来。红色表示正确的内容，黄色表示创新内容，天蓝色、蓝色和绿色分别表示三种不同兴趣领域的内容，它们和黄色都属于不准确内容，白色表示错误内容。各种主体及其形状、颜色、初始数量、上限数量、行为规则和模拟意义根据参与wiki的各个主体来定义和描述。

4 模拟结果

图2截取了程序运行到100次时各观测指标的变化情况。此时已有2070个方块被填色，占屏幕上方块总数的2070/2500=82.80％。黄色、天蓝色、蓝色和绿色(不准确内容)占已涂色方块总数的1606/2070=77.58％，红色(正确内容)占已涂色方块总数的455/2070=21.98％，白色(错误内容)占已涂色方块总数的9/2070=0.43％。用户数量已增长至449，占上限数量的449/500=89.80％。由此可见，程序开始运行不久的一段时间里，屏幕上的大部分方块会被迅速地涂色，其中绝大多数颜色为黄色、天蓝色、蓝色和绿色等，红色方块数量在不断增长，但增长速度较慢，白色方块的数量较少。这些数据表明，在wiki产生的初期，其内容数量会快速增长，但多数内容为不准确内容，正确内容在不断增加，但增加速度较慢，错误内容得到了有效的控制。

图2 程序运行到100次时的状况

图3截取了程序运行到2718次时各观测指标的变化情况。红色(正确内容)几乎充满了屏幕，占总数的2406/2588=92.97％；黄色、天蓝色、蓝色和绿色(不准确内容)占总数的176/2588=6.80％，其中黄色(创新内容)占总数的130/2588=5.02％；白色(错误内容)占总数的6/2588=0.23％。用户数量迅速增长至上限值500之后，在500左右小幅度波动。不难发现，此时各观测指标的值都相对稳定下来，系统达到了一个动态平衡的状态。这些数据说明，系统经过较长一段时间的演化后，wiki内容的质量(正确性)显著提高，不准确内容大幅度减少，创新内容不断涌现，错误内容得到了很好的控制。

图3 程序运行到2718次时的状况

综观整个演化过程，不难发现各种角色在演化过程中的作用：专家虽然能写出权威的文章内容，但其数量有限，活动频率较低，因此他们不是wiki内容的质量提高的主要贡献者；破坏者虽然有机会对wiki的内容进行恶意破坏，但其数量有限，而且有IP禁止规则的限制，再加上大量用户的修复，所以其破坏作用并不是很明显；创新者不断创造出新的内容，他们是让wiki保持生机活力的重要力量；一般作者数量最多，他们是wiki内容数量增长和质量提高的主要贡献者；一般用户(浏览者)虽然不直接参与编辑wiki内容，但他们对wiki的内容的利用、关注和支持也是促进wiki演化的重要因素。

5 序化过程分析

该模型形象直观地演示了wiki演化的大概趋势，较好地体现了wiki有序演化的动力机制，即用户数量的增长是wiki内容数量快速增加的主要驱动力，大量用户之间的交流与协作是wiki内容质量迅速提高的主要驱动力。本文认为该模型的有序度指标主要有三个：即用户数量的增加、wiki内容数量的增加和内容质量的提高。系统达到有序状态的主要标志是：用户数量和wiki内容数量接近上限，内容质量达到较高的水平，并相对稳定，系统达到一个动态平衡的状态。从模型演化过程及结果的分析可以看出，随着模型的演化，系统不断向有序的方向发展。用户数量不断增加，最终达到上限值500后稳定下来，在500左右小幅度波动；wiki内容数量不断增加，最终达到最大值2500后稳定下来，在2500左右小幅度波动；wiki内容质量不断提高，正确内容最终接近92.97％并稳定下来，在92.97％以下小幅度波动。至此，系统从无序状态逐渐演化成为有序的状态

6 Blog信息动态有序性

这里将采用分形自相似和幂律分布来验证Blog的动态有序性。我们选择CSSIG(中国社会科学信息门户)为模拟对象。该门户于2006年9月开通，是武汉大学信息管理学院985工程重点项目——数字信息资源的规划、管理与利用的成果。它的博客模块有添加链接、评论、反向引用等功能。

首先，CSSIG博客系统是开放的。用户撰写、阅读、评论文章以及添加博客链接等行为是系统的输入，用户从博客中获得的信息是系统的输出。CSSIG博客开通已有一年时间，用户对系统的输入达到了一定的阈值。由于每个用户都可以注册博客，因此对系统的输入均衡。其次，CSSIG博客系统的注册用户知识水平的差异使其满足远离平衡和非线性相关的条件。最后，由于CSSIG博客中信息不断输入，系统的宏观信息结构(如信息的广度、深度等)可能偏离平均值，因此系统中存在涨落我们以三个不同时间间隔分析用户访问行为。首先，从全部访问日志中选出2007.10.22-2007.12.19这段时间的日志，统计每天的访问数量，如图4所示。之后，选出这段时间内访问量最大一周(2007.10.22-2007.10.28)的日志，统计每小时的访问数量，如图5所示。最后，选出访问量最大一天(2007.10.22)的日志，统计每分钟的访问数量，如图6所示。

图4 2007.10.22～2007.12.19每天访问量

图5 2007.10.22～2007.10.28每小时访问量

图6 2007.10.22每分钟访问量

从这三个图形不难看出，分别用一天、一小时和一分钟的时间间隔记录用户的访问行为，得到的用户访问图形是相似的，说明CSSIG博客访问信息在一定程度上表现出有序性。由于分形自相似概念与幂律分布紧密相连，通过进一步验证，发现CSSIG博客信息符合幂律分布。两个角度都验证了博客的动态有序性。

对wiki的演化过程和Blog的动态有序性进行模拟研究是一个很有意义的课题。本文的模型只是一个简单的尝试，还需要进一步的改进和深化。starlogo是一款比较简单的软件，功能还不够强大，可以考虑用swarm等大型CAS模拟软件，通过优化硬件配置，增强主体的自适应特性和引入外界环境变量来提高模拟的精确度。CSSIG是一个专业性门户，用户数量相对较少而且特征单一，今后还要从百度和谷歌等综合性blog采集数据，进一步加以验证。

*本报告基于“专题研究：Web2.0信息自组织功能及序化机制研究”，图书情报知识，2008年第3期。

标签：访问量论文;

Web2.0信息排序机制*_访问量论文

猜你喜欢