第三代搜索引擎的研究现状及发展趋势_搜索引擎论文

第三代搜索引擎的研究现状及发展趋势_搜索引擎论文

第三代搜索引擎的研究现状及其发展趋向探析,本文主要内容关键词为:探析论文,现状论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 第二代搜索引擎的特点及其局限性

1.1 第二代搜索引擎的特点

第一代搜索引擎是基于万维网的搜索引擎[1]。1994年4月,第一个搜索引擎WebCrawler(http://www.webcrawler.com)在美国诞生。同年5月,Lycos(http://www.lycos.com)也在美国出现。1994年底,美国著名门户网站Yahoo兴起。其他比较重要的搜索引擎还有美国的Infoseek,Alta Vista,Excite,Search.com,HotBot,Microsoft等。早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布尔检索模型等。第一代搜索引擎初期还分为目录式搜索和全文式搜索两类。例如,Yahoo属于典型的目录式分类结构,而Alta Vista则属于全文搜索引擎。第一代搜索引擎往往以反馈结果的数量来衡量检索结果的好坏,即“求全”。然而研究表明,在全球11个主要的搜索引擎中,仅能搜索到国际互联网上全部页面的16%,甚至更低。这主要是因为这些搜索引擎没有及时更新资料。同时,第一代搜索引擎检索结果的相关性较差,检索结果数量通常超过用户的接受能力,且排序缺乏合理性,用户往往找不到与检索提问最相关的结果。

1998年,随着Google的出现,第二代搜索引擎诞生。除Google外,Yahoo在2004年也推出了自己的第二代搜索引擎——“一搜”(Yiso)。在国内,百度逐渐取代新浪、搜狐,成为中文第二代搜索引擎的老大。第二代搜索引擎中最具代表性、最成功的是Google。Google公司是硅谷新兴的高技术公司,Google搜索引擎使用了数据挖掘技术和网站评级方法,与其他搜索引擎的主要区别在于:①搜索任务一般在0.5s内完成;②页面简洁,除一个搜索框外没有其他多余的东西;③Google服务器能自动识别每一台电脑所属的国别,并用该国文字进行显示。总的来说,第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准率,检索思想、方法和目标有了根本性的改变。

1.2 第二代搜索引擎的软肋

与第一代搜索引擎相比,第二代搜索引擎的检全率、检准率和检索速度都有了很大的提高,但是目前的搜索引擎还是不能满足网民的各种信息需求,用户在信息检索过程中仍存在以下几个主要问题:①查全率低。在现有的搜索引擎当中还没有一种能覆盖整个因特网的信息资源,Google所收录的网页数急剧下降,这里说的下降不是从90%降到80%之类的,而是几万页、几十万页降到几百页。②查准率低。现有搜索引擎的检索结果相关性不高,对检索到的信息仅采取机械的关键词匹配,不能理解自然语言,缺乏知识处理能力,导致对信息的判断力较差,往往造成信息丢失,检索结果存在大量垃圾,常出现答非所问的情况。③检索多媒体信息的能力差。随着网络的发展,信息媒体变得越来越多样化,网络信息除文本信息外,还伴有图形、图像、声音、动画,等等。迄今为止,虽然出现了图像、声音、气味等检索技术,但是大多数搜索引擎几乎没有任何应用,还不能满足用户检索多媒体信息,实行文字、图片、声音的统一存储、检索和输出的需求。

2 第三代搜索引擎的研究现状

2.1 “技术驱动型”与“服务驱动型”理念的区别

如果从2003年算起,全球第三代搜索引擎的发展方向问题,在经过了5个年头的探索和市场“历练”之后,今天终于露出了一线端倪[2]。但是,这一线端倪却有两个发展趋向:一个是以Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是以Jwmguagua(精武门呱呱)为主的“服务驱动型”理念。

技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。持有“技术驱动型”理念者认为,传统的搜索技术存在很大的局限性,网民需要搜索提供者研制更完美的搜索技术,以满足更快、更准、更方便的查询需求。为此,需要解决自然语言理解技术问题、可视化输出技术问题、P2P对等网络等很多问题。

服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为,随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。由于搜索业务所关联的领域和界面大幅扩展,互联网大量资源与搜索引擎技术形成了紧密的“资源共生”关系,如果将这一资源优势进行进一步的优化组织,就可以构造一个经济内涵和服务内涵空间极大的搜索引擎系统产业链,并可以实现将全球经济资源聚拢在一个统一交换机制模式体系下的产业聚合体。这就是形成建立“搜索引擎系统产业”的基础条件。

2.2 第三代搜索引擎的研发历程

从第一代搜索引擎到第二代搜索引擎是一个质变过程,即由人工转向计算机的过程。而第三代搜索引擎是一个量变与质变的结合,不仅使检索技术提升,还向着人机结合的方向发展[3]。第三代搜索引擎是智能搜索引擎,它具有信息服务的智能化、人性化特征,允许检索人员采用自然语言进行信息检索,提供了更方便、更确切的检索手段。它还具有一定的推理能力,能综合用户在一次次的检索结果中的取舍,自我学习并进行推理,使自己变得更聪明,从而调整其检索策略,完善和提高检索效率。

2003年8月20日,中国搜索CEO陈沛首次提出了第三代搜索引擎的概念。2004年12月,中搜推出的网络猪3.0被陈沛看成是第三代搜索引擎个性化信息门户的开始。陈沛认为以后人们不用打开浏览器,敲入关键词,针对特定内容,搜索的部分是由搜索公司完成,不是由人来完成,“这是我们下一代搜索引擎主要完成的方向,中搜作为一个专著于搜索技术的公司,一直致力于这方面的研究,我今天讲的内容,很多已经展现出来了,我们会向人们证实确实有更好的搜索引擎,我们的网络猪4.0版本,会很快发布,我们会让大家感受到未来的搜索更具魅力”[4]。2006年4月18日,中国搜索发布了客户端搜索软件IG(Internet Gateway),而IG是网络猪的升级产品。

另外,2004年8月,搜狐CEO张朝阳也提出了第三代互动搜索概念。在2004年的互联网高层峰会上,搜狐公司副总裁王建军先生也说智能和互动问题:“我觉得智能的概念比较广,应该说互动是智能表现的一个方式、一个具体的体现。互动就是网民在输入一个关键词时,后台会根据这个内容来缩小搜索的范围,互动应该是互联网发展的方向。我可以演示一下搜狐公司在6月份推出的一款刀剑游戏。刀剑有两个理解,一个是舞枪弄棒的刀剑,还有一个是网络游戏的刀剑。在搜索里可以看到有各种各样的刀剑信息,但是上面有一个是收集爱好的刀剑,点下去都是跟体育爱好相关的。这个搜索提示里有一个网络游戏刀剑,你在点击网络游戏时这下面完全是跟网络游戏刀剑相关的信息了。这次搜狐推出的还有一个购物搜索,以数码相机为例,搜索出来的结果有各种品牌的数码相机,以及各种型号的数码相机。还有数码相机的一些附件,前面点了一个柯达数码相机之后,里面都是柯达数码相机”。另外在国外,2005年9月,美国政府提出开始研制第三代搜索。2005年10月,微软公布了该公司做第三代搜索引擎的构想。2007年3月2日,日本经济产业省召开公开征集说明会,公开征集新一代信息搜索技术国家开发项目——“信息大航海计划”的参与企业。预算规模预定为20亿日元。研发时间为委托开始之日到2008年3月31日。2007年4月,中国Jwmguagua率先提出了第三代直潜全能搜索引擎技术系统。

可以说,全球第三代搜索引擎技术发展前期的技术主流,是以陈沛为主要领军人物的一个趋势。在这个进程中,Google,Yahoo,微软等国际厂家,属于中搜前期“第三代”搜索技术的追随者。

3 第三代搜索引擎的发展趋向

目前第三代搜索引擎研究多基于技术驱动型理念,从技术的角度改进搜索引擎来更好地满足用户需求。同时,以Jwmguagua等为主的搜索引擎本着“服务驱动型”理念提出了第三代搜索引擎直潜全能搜索技术系统,使搜索引擎具有了直潜全能搜索能力。基于以上两种发展理念,第三代搜索引擎呈现出不同的发展趋向。

3.1 具有智能词组效应和编辑功能

美国Hakia(施乐公司)和旧金山的一家公司Powerset,以及总部设于悉尼的Lexxe等一些搜索引擎,正在试图超越精确匹配查寻词的功能,它们正在试图先弄明白你要查找什么,然后根据它们对相关内容的理解找出最佳页面。美国布法罗大学计算机学家罗西尼·斯里哈里说:“在大多数情况下,你要找的文件不一定包含你要查找的所有关键词。而且如果你希望找到突然成为热门话题的人或物,你甚至都不知道要搜什么样的关键词”。智能搜索引擎也许会知道,当你输入“巴黎”、“东京”、“纽约”和“最热门餐馆”时,你要查找的是世界各地最热门的新餐馆。

无论电脑程序多么聪明,它对搜索质量和相关性的判断永远比不上人脑[5]。包括Mahalo(创始人J.Calacanis)和ChaCha(www.chacha.com)在内的一些新搜索引擎都依靠部分编辑人员或导航人员,预先对一些搜索的结果进行筛选,选出最相关的页面。你可能获得比Google更棒的搜索结果——但前提是你的搜索词是在编辑们曾经研究过的范围之内。新一代搜索引擎应该更加智能化,这种功能需要耗费大量的人力和时间,有待进一步的改进,使得搜索引擎能自己对搜索结果进行筛选工作,无须人员的参与。即使不如人脑的判断那么准确,也可以大大提高检索结果的质量。

3.2 具有引导查寻能力

猜测哪些关键词能找出最相关的结果很难,但一些搜索引擎能通过提供提示语来帮忙,就好像雅虎和新生代引擎Accoona所做的那样,或者如同美国的Ask.com和Clusty一样将搜索结果根据不同的侧重话题分门别类[6]。例如,在Ask.com键入“斯皮尔斯”(原文为Spears,是歌星小甜甜布兰妮的姓氏,直译为矛),引擎会提示要查找有关锐利武器还是流行歌曲方面的内容。谷歌只是把它们罗列在一起。许多采用尖端技术的引擎,包括法国的Kartoo和KooltTorch,以及成立于莫斯科、现在总部设在弗吉尼亚州的Quintura,都通过图形来展示不同的类别,从直观上提示哪些类别可能最有用。

中国搜索的智能导航就可提供关联检索功能,引导用户查寻所需内容[7]。当用户输入一个查寻词时,搜索引擎尝试理解用户可能的查询意图,给予多个主题的搜索提示,引导用户更快速准确地定位自己所关注的内容。这种与用户的“对话交流”,大幅度提高了搜索相关度。例如,用户输入“猎豹”一词,搜索引擎会快速将猎豹可能出现的主题进行关联分类,在智能导航中给出汽车、体育与竞技、生物、极限运动等主题提示,分类明确,用户第一眼就联想到相关的内容,点击自己所需的类别就可以轻松找到答案。

3.3 具有公众参与能力

美国的Nosyjoe,Squidoo和Sproose等搜索引擎让其他用户来帮助确定哪些网页是最有用的,剔除在谷歌根据链接数量排序的方案中时常无关紧要和充斥着垃圾信息的搜索结果[6]。如同与人人都能参与编写维基百科一样,美国的维基亚公司正在打造一个基于用户贡献的搜索引擎。维基百科,英文名为Wikipedia,自由的百科全书。它是一种基于Wiki的百科全书,是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地,目前已经成长为全球最大的网络百科全书,百度百科创作模式的原型也是维基。网页书签服务商美国的del.icio.us公司能够通过搜索其他人标注的书签来找到相关网页。雅虎于2005年购买了这一搜索引擎。提高公众参与度,一方面可以增强检索结果的准确与全面;另一方面还可以提高用户对该搜索引擎的了解。

3.4 具有整合搜索能力

Google在前一段时间发布了一款叫“Universal Search”的搜索引擎,或称之为“整合搜索”。李开复对“整合搜索”这样描述:“现在我想谈一下在未来搜索会走向什么样的一条路。未来方面我认为最重要的一点就是整合搜索,我们整合搜索的概念,就是又回到了一个搜索框,我们去处理一个很困难的技术问题,就是当你搜索周杰伦的时候,他跟他的博客,还有粉丝俱乐部,我们要把它做一个排序,怎么去做排序,当然是我们公司的机密,在这里不能够分享……”[8]。

网页搜索根据不同的排名方式把很多的文字做一个排序,每个排名都体现着网页的权威性,另外还对搜索的词和网页的词有没有出现做一个匹配,这些都是传统的网页搜索非常重视的一些特征。但是,后来不少的网站发现用这些特征来排名网页和文字很好,但是不适用于特殊信息。整合搜索就是把多元的信息整合起来,然后做一个动态的排序,这样的情况之下,用户就不需要知道垂直搜索。但这并不表示垂直搜索就要灭亡了,那些知道自己要到哪儿找的用户,可以去垂直搜索,只是那些不确定的用户,或者要开始做一个搜索的用户,整合搜索会指给其不同的路线,让他发现一个比如我的蔡依琳,看到了蔡依琳的视频,点击看更多蔡依琳视频,这时候用户可以去看更多的内容。这样就降低了用户的负担,他不需要去认识1 000个不同的垂直搜索。整合搜索已经开始推出了。

3.5 具有“一页到位”搜索能力

2007年6月5日,雅虎中国发布了基于“一页到位”技术的搜索引擎OmniSearch,这一最新搜索被雅虎中国称为对搜索3.0概念的尝试。OmniSearch是全球首个实现了“一页到位”的搜索平台。在传统的搜索模式上,用户无论使用网页搜索还是垂直搜索,通常只能得到一个种类的搜索内容,如图片、歌曲。但在OmniSearch搜索平台上,用户能够在一个页面上得到各类搜索结果。另外,还可以对用户查寻需求进行智能化的分析与预判。即主动根据用户查寻的时间、地点、历史、语境等,去判断一个关键词背后丰富的用户意图,并最终产生一个“复合型”的搜索结果。例如用户试图查寻刘德华,在同一结果页上不仅能够看到普通的页面搜索结果,还能看到刘德华最新的图片、最热音乐视听以及刘德华本人的博客和与其相关的博客搜索结果。

3.6 具有垂直搜索能力

垂直搜索是对特定的专业领域或行业信息进行专业化的、深入的分析挖掘和精细分类,信息定位更精准,专于自己的特长与核心技术,保证该领域信息的完整收录、及时更新[3]。垂直搜索引擎与各综合搜索引擎采用的技术基本相同,因此它的建立不存在技术障碍,实现比较容易。综合搜索引擎也有向垂直搜索发展的趋势。从现有搜索引擎的频道访问统计中,已经能够观察到一些现象,比如百度的Mp3和图片搜索功能,其访问量总和已经占到该网站总访问量的1/4[9]。同一术语在不同的学科具有不同的意义,设计不同的学科版搜索引擎,细化可能产生误解的术语,能够使搜索到的结果更准确,减少搜索时间,并能推动各学科术语的规范化。再者,不同层次的用户对同一专业的需求也不同,因此可以设计同一专业的不同版本,如普通版、专业版、图像版等。

3.7 具有直潜全能搜索能力

第三代搜索引擎Jwmguagua在2007年4月率先提出了第三代搜索引擎直潜全能搜索技术系统,并依据该系统的技术特征和设计理念,首次在全球搜索行业提出“搜索引擎系统产业”概念的互联网搜索产业系统(Internet Search Industry,ISI),将搜索引擎服务作为一个全球最大的产业标准进行技术架构和功能设置。它是一款社会化架构通用工程软件,适合于个人和一切经济、社会组织用于对信息的搜索、整理、利用,对生产、经营、交易的沟通和完成,以及适合于网络和移动的通信和交流。通过搜索引擎一体化技术的系统架构,搜索引擎成为一个“互流贯通”的中枢导引系统,并提供系列化的信息搜索、交换渠道和建站空间,多项复合结构服务功能的互联网新兴产业模式。用户通过搜索引擎系统产业链,能完成更有效率的网络间和现实间相关联的交互运动。

Jwmguagua直潜全能搜索系统,是一款超大规模的互联网界面与现实界面无缝衔接的“多方位数据交换中心”,主要有以下技术特征:(双网双库)索引库自建技术;多角搜索精确定位技术;桌面短信息互换配流技术;个人、企业集约化交互主页技术;无限商定位链接交换系统;桌面创新型视频媒介、新闻资讯营销系统。以此为基础,直潜全能搜索技术体系实际上是一个以搜索引擎技术服务为前提的“神经中枢”系统,并以此为基础,形成了一个多交互功能、多交易功能的、巨大的“搜索引擎系统产业”链模式。这是一款面向国际化的软件工程,用户通过ISI系统能与世界上任何语种、任何文化、任何经济体、任何服务机构、任何个人和家庭、任何媒介形式发生由因特网界面向Reality界面的转换(双网双库系统),也就是实现虚拟和现实的无缝隙链接。

3.8 具有个性化搜索能力

个性化搜索将搜索建立在个性化的搜索环境之下,跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据,充分考虑用户的特点、动机和需求来提高用户搜索效率,并为用户提供全程帮助和服务,使得个性化搜索更符合每个人的需求[10]。

现在的搜索引擎,用户无从选择其显示什么样的信息内容,排列什么样的搜索结果。一次普通的查寻,搜索引擎返回结果众多,且大多数并非用户关心的。并且,用户的地域、兴趣、知识背景、目的等不同,输入不同的检索词却经常会出现相同的结果[11]。未来的搜索引擎,可以通过两种方法获得用户的信息:一种是把关键词分类并表示其特征,定义标题特征程度并统计,应用兴趣描述文件,动态获取用户的信息;另一种是根据用户的书签文件,检索时输入的关键词、用户反映等,动态更新用户信息。通过提供符合用户个性化需要的信息,增加检索结果的准确性,排除无关信息,并且能够存储、共享。搜索引擎的个性化还体现在提供特色的服务和功能。如Google在2004年3月推出了个性化搜索引擎测试版(Google Personalized),用户可以设定自己感兴趣的领域,让它只返回与该领域有关的链接。中国搜索提供了12个一级类目、102个二级类目,用户可添加其感兴趣的类别。

3.9 具有桌面搜索能力

当前,个人需要存储的资料越来越多,很多搜索引擎如微软自带的文件搜索已经不能满足用户需要。未来搜索引擎将具有桌面搜索功能,即在不打开浏览器的情况下便可浏览网页,在Word文档中发现生僻的词汇时选中它,点击搜索或寻址就能搜索到需要的结果。另外,还可以输入关键词,以桌面为入口进行检索。桌面搜索不仅能搜索用户个人电脑上的信息,也可搜索互联网上的信息。

目前,各搜索引擎相继推出了自己的桌面搜索工具。它属于搜索引擎的附属工具,直接安装在用户桌面,而不是嵌入在浏览器中[12]。用户可直接输入关键词检索,输出结果与微型阅读器一起弹出,可在微型阅读器中进入相关网页。Google的桌面搜索可为用户计算机上所有的可搜索信息(除压缩文件、PDF文件和除IE外的其他浏览器)创建索引并将它存储起来,这样用户在下载安装该应用程序后,就可以像使用Google搜索因特网一样搜索自己的个人文档。HotBot(http://www.hotbot.com)推出了HotBot Desktop Search,不仅可以搜索因特网文件,还可以对本地计算机上的Email、Office文档和浏览器历史记录等文件进行索引。百度推出的硬盘搜索与HotBot Desktop Search相似,对PDF文档、zip与rar等压缩文件的处理效果也非常好。

3.10 商业化、集成化、多媒体化

搜索引擎以竞价排名等形式实现了商业化,实现了收费,但还不是真正意义上的商业化。这里的商业化,是指未来随着我国电子商务的成熟,搜索引擎的全面商业化。目前已有的收费服务项目包括快速检索服务、有偿信息查询服务、竞价排名服务、网际专递服务、收录审查费、访问点击收费等,百度,Overture(即以前人们所熟知的“GoTo.com”),Look Smart(美国)等都高举收费大旗,发展搜索引擎营销市场。搜索引擎为网上商家带来的“眼球”将商业化,未来我国企业电子商务收入比重将增加,搜索引擎将以搜索结果和链接形式直接为商家带来顾客。并且随着B2C(Business to Customer)的广泛应用,搜索引擎将能够为目前一些免费的服务寻找到盈利模式,进一步促进搜索引擎商业化的发展。

面对数以亿计的网页,任何一个搜索引擎都不可能百分之百地检索到所需的网上信息,这时就需要将多个独立的搜索引擎集成在一起,提供给用户一个统一的操作界面,用户的检索指令发出后,该系统将其传送给各独立搜索引擎,将独立搜索引擎检索的结果返回并经过综合整理后反馈给用户,这就是集合型搜索引擎。它涉及多个数据库,拓宽了检索范围,取长补短,极大地方便了用户。元搜索引擎就是一种基于搜索引擎的搜索引擎,用户只要提出一次检索请求,就可以获得多个独立搜索引擎的服务。国外已经出现了很多知名的搜索引擎,如Mamma(http://www.mamma.com/),Profusion(http://www.profusion.com)等老牌的搜索引擎,Yahoo,Google等也开始采用元搜索引擎的检索方法来提高检索效率。

未来的搜索引擎将在搜索内容上向多媒体化发展。视频、音频等多媒体信息的检索数据量高速增长,多媒体搜索引擎的发展迫在眉睫。瑞典一家公司已经研制推出被称为“新一代搜索引擎”的动态的多媒体搜索引擎,它对以文本信息为代表的离散媒体和以图像、声音等为代表的连续媒体的内容进行检索。美国在线的Singing Fish搜索引擎专门搜索音频和视频文件。不同的多媒体搜索引擎侧重于不同方面的发展,如Ditto(http://www.ditto.com)只能搜索和浏览网上图像资料,Images Google只能检索Google所抓去的图像,Music-finder用于搜索音乐家歌曲等。另外,美国Purdue大学正在研发以图像为“关键词”的搜索技术。同时,搜索引擎在向用户提供检索结果时仍可以向多媒体方向发展,使得检索结果形式多样化、生动化,更好地满足用户的需求[13]。

收稿日期:2007-03-28

标签:;  ;  ;  ;  ;  ;  ;  

第三代搜索引擎的研究现状及发展趋势_搜索引擎论文
下载Doc文档

猜你喜欢