Web2.0环境下的网络信息检索_信息检索论文

Web2.0环境下的网络信息检索，本文主要内容关键词为：信息检索论文,环境论文,网络论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

2004年以来，随着Web2.0及其相关的典型应用 Blog、wiki、RSS、Tag、SNS等的发展，用户成为信息制造和利用的中心，他们拥有了更多点对点传递信息的渠道。这种发展和变化不仅带来了网络产业的升级，也给传统的网络信息检索方式带来了巨大冲击，提出了更多新的需求。研究这些需求和新的检索进展，有助于更好地为信息用户提供优质搜索服务。本文旨在分析Web2.0环境下的这些新的需求，探讨和评价新的网络信息检索模式。

1 Web2.0发展及其网络信息检索需求

Web2.0这一概念由美国著名的O'Reilly媒体公司总裁兼CEO提姆·奥莱理提出，[1]目前被普遍接受的Web2.0概念是指以Flickr、43Things.com等网站为代表，以Blog、Tag、SNS、RSS、wiki等社会软件的应用为核心，依据六度分隔、xml、ajax等新理论和技术实现的互联网新一代模式。[2]Web2.0让更多草根拥有了发言权，能够进行更广泛的交流和信息共享。更健康崭新的网络以新式的内容分类、网站架构深链接、诸如可视化的内容展示模式等等展现在人们面前。[3]如何充分利用Web2.0带来的诸多新平台、新观点、新理念，提供更为高效的网络信息检索模式显得至关重要。

1.1 传统网络信息检索模式

传统网络信息检索主要依靠以下方式：以搜索引擎为代表的基于关键词的检索；以Yahoo分类体系为代表的基于主题目录的检索；以主题网关为代表的以元数据为基础的检索，例如AHDS、EELS、MathGuide等；[4]基于数据库及相应数据模式和检索语言的深层网络资源(Deep web)检索；专业门户网站检索等等。它们多以网站编辑选择的或者事先建立好的专业数据为主要数据，无法处理大众产生的海量知识；这些检索对于不同的用户搜索的结果都是一样的，无法实现个性化的服务；信息之间语义关系的残缺，使得作为网络检索最常用方式的搜索引擎也仅对客观的、基于事实的检索有很好的检索结果，而对于主观的、基于个人观点的检索，显得无能为力，一般都无法提供高质量的结果，或者干脆没有结果。[5]这样的检索显然不能令人满意。

1.2 Web2.0环境下网络信息检索的新需求

Web2.0环境下，信息呈现与Web1.0不同的特征并因此对信息检索提出了新的需求，为新的检索方式的出现提供了可能性。

(1)信息生产的大众化与海量化。在Web1.0时代，网络信息的产生集中在相对少数的专门公司和网站编辑手中；而在Web2.0环境下，大量的用户为网络提供海量的信息内容。然而随着Web2.0用户的不断增多，网络原创信息也呈现出了井喷趋势，这无疑为想要在银河系量级的原创信息中去获取精华有价值信息的用户带来巨大难度。

(2)信息构成的微内容化和语义化。微内容的英文是Microcontent。微内容来自于用户产生的各种数据，比如一则网志、评论、图片、收藏的书签、喜好的音乐列表、想要做的事情、想要去的地方、新的朋友等等。 Web2.0每天都生产众多的微内容，也消费着同样多的微内容，因此如何帮助用户管理、维护、存储、分享、转移微内容成为用户能否有效利用信息的关键。[6]虽然Web1.0中也产生不少微内容，比如在线相册、论坛的发言和回复等，但这些内容相对于外界是封闭的，从根本上无从谈起重新组织和利用，但Web2.0下的应用可重用这些微内容，这使我们在任何地方都自由地使用这些微内容成为可能，从而可以聚合、管理、分享、迁移这些微内容，并可以进一步组合(remix and mashup)成各种个性化的丰富应用。[7]另外传统的 HTML网页数据是没有语义标注的，其传达的语义要靠人来识别，而这种识别可能会与信息提供者的原意大相径庭，这也是传统信息检索往往只能采用简单的关键词或者是关键词之间的布尔逻辑以及其他组合检索方式，而无法找到信息检索者和提供者信息契合点的根本原因。而Web2.0下，Tag就是一种语义标注，其他的语义标注还有资源相互关系的标注、根据资源的使用情况有机器自动赋予资源的标注等等。这些语义标注目前虽然还不能完全为机器所自动识别，但是起码可以做到语义匹配以及聚类等等，[8]甚至还可以根据用户提供和关注的语义标注，对用户进行检索习惯和检索特性的记录。

(3)信息质量更加良莠不齐。信源的大众化与分散性使得信息的发布缺乏必要的控制，信息的质量更加良莠不齐。对于知识结构不同的信息用户而言，如何对这些信息进行甄选、过滤和利用是个不小的难题，也增加了信息检索工具的识别难度。同时Tag的使用，也使得信息的语义更加复杂化：这些由信息提供者本身或者信息消费者提供的语义标注的可信度以及准确度是否能够直接成为信息获取的重要依据是 Web2.0环境下的检索应用不可逃避的问题。

(4)信息传播的双向性。由于Web2.0网络是可读写的，用户的信息反馈可以随时进行，信源同时也可以随时更新信息，这是一种真正的双通道交流模式，可以很好地实现信息的分众传播，即多点到多点的传播，例如人们可以通过RSS订阅自己想要获取的信息源。因此传统的那种用户被动接受信息、不同需求用户获得相同信息检索结果的局面可以得到了改观，也为推拉技术的进一步完善提供了可能。

鉴于信息具有的以上特征，Web2.0环境下的网络检索应该是一种大众化的、社会化的、个性化的。第一，有足够大的信息检索范围，能够提供多种信息源的检索，以适应Web2.0环境下的大众和海量信息的增长；第二，能够提供类似集成搜索引擎功能的一站式检索，使用户不必登录多个站点获取类似信息，同时能够对微内容的重用和存储提供支持以充分利用 Web2.0的技术优势；第三，能够对信息之间的语义关系进行分析，并根据这些关系为用户提供一定的信息评价、筛选和聚合服务，这样可以在一定程度上降低用户对信息进行判断和选择的难度；第四，用户能够通过搜索行为快速及时地获取自己感兴趣的信息，快速驱动知识的更新，检索工具能够记录并评估用户搜索行为以保障知识更新的准确性以及检索结果的个性化；第五，以用户搜索行为为用户识别标志建立社区，并能够根据用户的兴趣主动推送高质量的信息源。利用这样的搜索，用户可以快速找到他们想要找的信息；可以完成他们工作或生活中的任务或目标；能够和朋友一起分享知识或者在分享中找到新的朋友；能够利用“草根智慧”来丰富全球信息知识库。[9]

2 Web2.0环境下新的信息检索模式

2.1 搜索引擎的扩展服务

作为网络检索最主要的方式，搜索引擎经历了雅虎为代表的目录式搜索引擎到以Google、百度等为代表的基于蜘蛛抓取、全文索引、链接分析等技术的网络搜索引擎页的发展，其收录的网页数量也从百万向百亿级别突破，网页搜索、新闻搜索、音乐搜索等方面也得到了长足发展。但根据上述分析可见，未来的搜索应该是社会化搜索，搜索引擎更应该关注用户产生的知识内容，这样才能够满足Web2.0环境下用户的需求。

搜索引擎提供这些功能虽然在一定程度上可以帮助人们获取Web2.0下的信息，但仍然存在以下问题：(1)搜索范围窄。搜索范围局限于网络内部，例如 Google的网上论坛只能搜索在Google上注册的论坛信息；百度的知道、雅虎的知识堂、新浪的爱问知识人都只能检索各自数据库中网友交流的知识内容。(2)检索途径有限。仅提供少数属性的检索，例如奇酷的博客检索仅提供博客文章和博客作者两个检索途径，缺少其他诸如博客空间网址、博客文章评论、博客所属类别等的限定。(3)搜索结果缺乏语义分析。对于搜索的结果仍然与传统的网页搜索一样缺少语义分析，仅是关键词匹配的排序结果，无法针对不同的检索者反馈不同结果。(4)搜索信息缺乏必要的过滤和筛选。由于缺乏必要的评价机制，这些扩展的Web2.0搜索功能多不能对反馈的资源进行过滤和筛选，因此检索结果难以令人信服，甚至有些黄色垃圾信息出现。

2.2 垂直搜索引擎

垂直型搜索引擎顾名思义就是指搜索一个行业或只搜索同一类的信息源，简单地说就是将大而全的搜索引擎分割成各个专业类型的搜索引擎。搜索引擎的垂直化是与Web2.0密不可分的。随着Web2.0的到来，大量专业网站的兴起，为垂直搜索带来了动力和资源。也正是因为这些Web2.0的应用伴随着信息量大、更新快速、时间性强等特点，使得传统的搜索引擎显得力不从心，因此发展垂直搜索也就变得理所当然了。[10]

目前Google、百度、雅虎等综合搜索引擎也进入了垂直搜索领域，更多的则是专业的垂直搜索引擎。常见的有地图搜索、音乐搜索、视频搜索、新闻搜索、交友搜索、地区搜索、学术搜索、职位搜索、分类信息搜索、购物信息搜索等等。从本质上讲，很多的垂直搜索引擎不能归入Web2.0搜索范畴，因为它们缺乏 Web2.0的核心思想：用户创造内容。但毋庸置疑的是垂直搜索引擎给用户的信息查找带来很多便利，人们可以利用垂直搜索引擎获得与生活息息相关的信息，并可以因此增加信息的传播和交流渠道。同时也有一些垂直搜索引擎结合Web2.0进行了成功的尝试，例如职友集(http://www.jobui.com)利用垂直搜索解决信息聚合，通过Blog展现自己，帮助每一个求职者找最合适的工作。

垂直搜索引擎目前面临的最大问题是如何对专业信息进行深层次的挖掘，同时能够对用户的行为进行分析记录，通过Web2.0的技术平台将这些专深的信息提供给合适的用户使用。

2.3 网络收藏夹

网络收藏夹是一种社会化书签免费服务，又称“网摘”。例如del.icio.us、雅虎收藏+以及百度搜藏。利用del.icio.ue提供的工具和服务，用户可以对自己收藏的书签进行标签(Tag)，然后通过含有标签关键词的界面对其进行导航；雅虎收藏+提供便捷、高效且易于使用的在线网址收藏、管理、分享功能，帮助用户任何时间、任何地点、通过任何电脑终端对搜索到的网页实现存储、访问、管理、RSS订阅及基于标签(Tag)的网页检索。[11]此外，雅虎收藏+与搜索引擎相结合，帮助用户随时随地将搜索到的网页保存并分享到雅虎服务器上，并轻松分享他人精彩收藏，让搜索体验更加便捷、高效，更具互动性。随着收藏+用户到达一定量级，社会化效应也日益彰显：数千万用户将自己喜爱的页面贡献出来，为其添加Tag供其他用户搜索，实现了网页的从无序到有序的演进，帮助所有用户建立自己感兴趣的“黄金内容区间”。这个可供搜索的黄金区间可以丰富和优化搜索结果，提高用户体验带来更大价值。“百度搜藏”是免费的网络收藏夹，为从学术研究人员、网络小说爱好者、Blogger到普通网民等各类人士提供功能强大的资料收藏及搜索服务，帮用户高效地收藏、整理网络资源，无论到哪里都可以随时随地浏览、搜索和使用。更重要的是在百度搜藏中，用户之间可以共享搜藏。[12]同时，百度知道和百度百科等都可以添加到百度搜藏。另外还有抽屉(http:// www.chouti.com/)、收藏吧(http://www.sc8.cn/)、收客网(http://www.shouker.com/)、好网角1314(http:// www.wang1314.com)等提供网络收藏夹。

上述收藏夹都各有长处，但也存在下列问题：(1)缺少用户信用。Web2.0强调用户产生知识内容，这也是网络收藏夹的出发点。链接、评论、摘要等都是由用户产生并分享的，但如何对这些用户进行信用评价，并能够按照类别认可、推荐用户是很多上述工具都没有考虑的。(2)无法判断分众分类法(folksonomy)的合理性。大多数收藏夹是根据用户给出的Tag产生分类体系，并以此作为用户搜索收藏的主要途径，还有一些是根据网站对Tag的分析加上人工的编辑而成。这些分类体系自然不能与由专家建立的分类体系相比。(3)检索功能比较有限。多只能通过用户定义Tag的关键词进行查找，没有通过用户、日期、地区等属性查找的功能。 (4)建立用户社区功能有限。虽然可以找到搜藏相同资料的用户，但多数收藏夹都没有提供建立用户社区的服务，大大减少了用户之间交流的机会。

2.4 个人门户

随着Web2.0的不断发展，门户的概念也与搜索引擎走向融合，结果是个人门户工具的出现，例如中搜 IC。IC(Internet/Information Gateway)中国搜索推出的以个人用户为中心，实现互联网信息及时获取、及时传播、及时互动的个性化服务，是基于桌面为入口的互联网个人门户。中搜IC集合了IE浏览器、QQ、MSN等IM聊天软件、搜索引擎、信息定制，个性化信息门户、网址导航、便民服务、BBS、娱乐服务等众多网络服务项目。在中搜IC中，用户可以选择论坛、博客、MP3等搜索使用的搜索引擎（默认为中搜，还可以选择百度、Google和搜狗等），并且可以订阅自己感兴趣的资讯、博客等。另外微软的MSN Live、Google的Google Pack和百度的空间属于这类桌面搜索软件。它们的出现给Web2.0环境下的用户查找和存储信息提供了方便，但并没有从根本上解决上面提到的几个问题，如信息质量的控制、用户级别的判定等，同时在IC的最新版本2.1中，通过关键词查找并订阅的功能只提供贴吧、新闻和论坛途径，没有博客、wiki以及其他网站贴吧、百科等的搜索和订阅服务，范围非常有限。因此，IG也只能看作集成了 Web2.0因素和桌面工具的传统搜索引擎。

3 基于JXTA的P2P网络信息检索概念模型

根据上面的介绍和分析，Web2.0环境下信息呈现了与以往不同的显著特征，这些特征直接影响人们利用和检索信息的模式，虽然目前已有很多的Web2.0检索模式，但仍然没有解决用户利用Web2.0信息的关键问题：用户信用、信息质量、信息共享度等。这里笔者提出了一种基于JXTA的P2P网络信息检索概念模型。

3.1 P2P

P2P(peer to peer)是一种网络应用技术，目前有两大主要应用：P2P档案共享以及分布式运算。P2P从根本上颠覆传统网络应用的模式。传统的网络应用模式采用“服务器－客户端”的方式，用户只能被动地接受来自服务器的信息，而P2P带来的新模式淡化了服务提供者与使用者的界限，使每一个参与的使用者同时也成了提供者。因此，从“人”的角度上讲，P2P的发展点并不单指P2P网络架构如何，而是P2P使人们在网络上连接起来，人们可以在这个更便捷的网络介质上处理需要沟通的问题。这些正是Web2.0信息交流和利用所需要的。

3.2 JXTA

JXTA是Sun旨在建立P2P通用技术基础的计划，它定义了一组P2P协议：Peer Discovery Protocol、Peer Revolver Protocol、Peer Information Protocol、Peer Membership Protocol、Pipe Binding Protocol以及Peer Endpoint Protocol。利用这些协议，可以让消息跨越多个网络，发送到网络上的任意其他Peer，其体系如图1所示。[13]

图1 JXTA体系结构

内核层(JXTA Core)封装了JXTA最根本的东西，包括Peer、对等组、Peer发现、Peer通信、Peer监视和相关的安全原语。服务层(JXTA Services)包括对于P2P网络不是必需的、但很通用的功能，如查找、共享、索引、代码缓存和内容缓存的机制。应用层(JXTA Application)则包括了应用JXTA服务开发出来的完整的 P2P应用程序，例如myJXTA、JXTA-CAD等应用程序，概念模型正是建立在JXTA的架构之上。

3.3 网络信息检索概念模型

基于JXTA的P2P网络检索概念模型如图2所示。其中JXTA内核与JXTA服务层可以完全参照JXTA体系架构，这里主要谈谈检索应用层的工作。

图2 系统结构图

检索应用层主要提供集成检索、数据存取、用户管理及社区管理四项功能。集成检索主要提供检索请求入口以及信息过滤、信息检索与信息排序功能；当有一个用户（信息消费者）发出检索请求后，其请求会同时提交给系统中的社区以及设定的网络搜索引擎（例如google）处理，系统会在与请求相关的社区用户（信息提供者）的进程中查找相应结果，网络搜索引擎也会返回其检索结果，系统将结果进行整合后反馈给信息消费者供其选择符合自己需要的结果，这些被选中的文档可能来自网络也可能来自社区其他用户，即信息提供者，信息消费者将结果文档进行属性标识 Tag后（或者直接选择已有标识）存储在自己的共享进程中，这样在下一个检索过程中，信息消费者也可以成为信息提供者；数据存取负责本地进程所有的数据处理，本地维持一个社区用户检索结果的缓存区，当有同样的用户检索请求时，先从本地缓存中查找结果；用户管理用于用户的注册、登录、所属社区、信用评价等，用户可以自由加入社区，也可以由系统分析用户的检索请求后自动将其归入社区，用户的信用根据其提供的文档数量、文档Tag质量、检索行为给定，在反馈社区检索结果时，该信用值是结果排序的重要依据；社区管理用于管理系统中的社区共享的信息，例如社区中用户的检索历史、社区中用户及其信用等等。

收稿日期：2007-06-07

标签：信息检索论文; 搜索引擎论文; 搜索引擎收录论文; 语义分析论文; p2p模式论文; 社区功能论文; p2p论文;

Web2.0环境下的网络信息检索_信息检索论文

猜你喜欢