互联网分析索引:乌托邦之梦_搜索引擎论文

互联网分析索引:乌托邦之梦_搜索引擎论文

因特网的分析索引:乌托邦的梦想,本文主要内容关键词为:乌托邦论文,因特网论文,索引论文,梦想论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

与物理材料不同,数字资源具有的特点使得细节分析与访问这些细节的确切地址成为可能。但万维网访问尽管有些令人心动的链接表明某个具体的信息条目或数字内容距他们仅一个网站之遥,但真正找到它们又谈何容易。事实是“信息就在眼前,只是我们无法在所需的时间和地点获取它。”

一般来说,“查询某个具体数据得花上整整一个下午,而得到的虽不全是风马牛不相及的信息,也往往是障碍重重、线索茫茫。”“即便我们聚集了焦点,小心翼翼地选择URL,在被访问的十多个网址中, 有价值的也就一两个。除了冗长的下载网页之外,还有大量的图像和基本无用的插入点和特别脚本。在网络上查找信息实在是耗时而低效。许多情况下,查询者干脆放弃了网上查找,两步并作一步地奔向图书馆的书架。”频繁访问因特网的用户得出结论:数字信息的查询比通过一本书作漫无目的的查询并没方便到哪里。一本书前后翻翻,在所需的几页之间比较是最为快捷的方法,中间不存在任何命令结构和窗口容量的障碍。

对于查找某一本具体的书来说,未经编目,随意堆放在书架上的书是无价值可言的。同样,在开发出直接查询互无关联的信息条目和数字目标的手段前,网页是不可能成为一种真正的研究工具和资源的。“信息高速公路不会魔术般地把自己理清楚。”本文讨论的焦点在于建立因特网资源中分析索引的概念。

1

搜索引擎的结果常常象不标出页码只有若干数字花样的书目索引

如果用户没有某个具体资源的地址,通常的访问办法就是运用关键词搜索引擎、分级主题索引、专题索引以及链接汇编。各种方法在数字环境中都占有一席之地,但却没有一种具有哪怕是最简单的联机图书馆目录的专指度,因此无法连贯地引导用户找到相关资源。

1.1 关键词搜索引擎

诸如Altavista(http://www.altavista.com )等关键词的搜索引擎所提供的联机帮助只不过象一些吐字的蜘蛛,从一个网站爬到另一个网站,根据数字而非逻辑的方法来判定内容。因此很可能把新闻发布归类到新闻调查的高度,将所有细节都包括了进来。由于搜索引擎只能识别ASCII码的文本,不能识别图像格式的文本。 如果某个网站只包含基于图像格式的文本而不包含相应的纯文本版本或足够的元数据说明,那么搜索引擎就根本无法访问这些网址。

搜索引擎的搜索结果常常象不标出页码,只有若干数字花样的书目索引。网页上有关键词,但它在哪儿,处于什么背景环境,往往无法予以确定。也许它藏掖在某个元数据声明中,只有在查看该网页来源时才能发现。若该声明包含对整个网站的总结,而不仅仅是搜索引擎访问的那一个网页,这就加大了该网页不包含被搜索信息的可能性。同时,由于搜索引擎只能间歇地重访已被编入该搜索引擎数据库的网址,那么即使某网页的内容已经改变或已从网上撤除,也要等上几周或几个月才能在该网页上反映出来,而该搜索引擎的数据库仍将保持着上一次访问该网址时自动生成的网页数据。

关键词搜索引擎在分析这一概念中效能最低。由于没有通过该网址其他内容的链接,有时背景环境会整个消失。访问者须从主页开始才能访问该网址,并得按退回键回到上一级查看过的界面。形象地说,支离破碎的网页就像胡乱从书上撤下几页给读者。

此外,搜索引擎开发者为输入查询内容设计出不同句法,即必须以特别方式输入关键词才能得到结构最佳的搜索结果,而每一个搜索引擎均有自己的一套搜索参数。可用户“现在想得到的只是信息,而不愿花力气先去学会如何正确运用每个搜索引擎——他们只想坐下来使用系统。”

1.2 分级主题索引

毋庸怀疑,“需要人的智力来弥补搜索引擎的不足,将技术转化为一种功能研究工具。”Yahoo!也许是最著名, 最仿真的分级主题索引。这种资源是以可搜索的分级表形式出现的。其出发点是搜索者“从宽泛到具体,自上而下逐级搜索,以期达到搜索目标。”Yahoo! 数据库每条信息源的收集、整理均通过人力,而非机器,因此表现得整齐划一,让人想起书目记录。如同对联机图书馆目录进行的关键词搜索能到达某个书目记录的不同著录项,对Yahoo! 数据库的关键词搜索也包括了网站标题、为该标题准备的评述、关键词表和URL。

与关键词搜索引擎结果不同的是,主题索引将“hit ”表指向整个网站,而不仅仅是其中的一个网页,所以它和许多图书馆联机目录一样缺乏查询深度。同时由于许多此类主题索引的创建者缺乏专业图书馆员具有的评估与描述的训练,因此质量控制还存在问题。但它毕竟将包括各种智力工作在内的图书馆书目流通的整体流程概念移植到了因特网资料上。正如对一套藏书进行主题分类是对一个未经分类的图书仓库的改进,主题索引较之于关键词搜索引擎来说是一个更好的选择,因为它可以就某个具体主题迅速找到相关网站。

1.3 专题索引和链接汇编

某些专题索引(其中不少是由图书馆员自己编纂的),以一种有组织的格式——通常为主题的形式——向访问者提供因特网资源。这类索引与Yahoo! 分级主题索引不同的是资源内容已经过质量与精确度的评估。

优秀超值的索引有《因特网搜索计划》(http://www.scout.cs.wise.edu/scout/repot/)。这一雄心勃勃的计划试图向因特网用户,特别是高教系统的用户提供流行的、有选择性的和有明确解释的指示标记,引导访问者到达因特网提供的最佳站点。”这项工作多数是由专业图书馆员及主题专家共同完成的,资源分类使用的是国会图书馆主题标目与分类系统,以及都柏林核心元素集。这些已被编入《搜索报告指南》的档案(http://www.signpost.org/signpost/index.html )以备迅速查询。

编纂热链接或相关链接似乎已成为一般网站设计的组成部分。由于创建链接很容易,因此即使在图书馆的网站上也会出现不加选择的倾向,即希望网页中的链接越多越好,不管其链接的资源有多么遥远。此类链接收藏中良莠不齐,尽管就某个特定论题(如主题目录)简单明了地收集起来的链接可以成为一个极有价值的资源,但需记住一点,即“从一个优秀网站陷入一个毫无意义的网站沼泽,其间只需瞎按一个链接。”

《因特网搜索计划》的管理者明白“有效地获取信息首先需要信息的有序收集和良好的索引系统作保证。”尽管与关键词搜索引擎和分级主题索引相比,此类索引已接近这一目标,但网站本身的性质构成了查询的最大障碍。

1.4 浏览网站

在开发出图像用户界面(GUI)之前,因特网资源是文本文件。 只要无需用图像与声音来说明文本,这一格式工作起来就不会产生任何问题。但由于人类是通过视觉与听觉等不同途径进行交流的,因此许多基于ASCII的因特网资源就受到了限制,而必须通过有形材料予以补偿。

早期的因特网在传递信息方面无法与书本相比,更不用说优越于书本形式,因此从未对书本构成过威胁。也许有一天网络会复兴物理的格式,除非访问者也同样能游刃有余地运用不断创新的网页设计与界面技术,否则这种局面将不会出现。即使到了那一天,有关技术也无法解决所有访问的问题,因为搜索因特网依然是“一个在浩瀚的信息海洋里淘金的复杂工作。”理论上说,这听起来跟浏览一定范围内的图书馆藏书没什么区别,但图书馆支架上的书通常是根据一种合乎逻辑的、一般是基于主题的分类系统排放的。而关键词搜索,甚至分级或专题索引,都不能保证其链接中的任何逻辑性,或者相关性。

在发现可能有价值的因特网资源后,查询具体信息的问题依然没有最后解决。书籍允许读者尽情在正文和插图间前后翻阅,无需等待各要素被下载和再次下载到浏览器中。其浏览工具如索引和详细的目录表标明了读者想要查询的词或概念的页码,省去了浏览每一页的麻烦。

而网站的设计通常不考虑如何在迅速一瞥或浏览中就可获取大意的功能。网页的独特之处——图像、声音、动画和数字化等等使得网页发展为一种刺激的、革命性的媒体,但同时也变得混乱、无序。多数的网站没有指向具体文本、图像或声音的详细索引。这意味着用户须逐页地查询,象是“透过眼罩看信息”。要是网页构造不好,很容易造成混乱和跑题。有时还得等着各种图像、长文本段落、图标和各种插入点以及脚本被下载到服务器中(往往超过实际发现所需信息的时间),而用户想做的只是迅速瞥一眼该网页。

由于网站设计缺乏逻辑的界面,因此网页不象图书馆那样被设计成“提供有组织地发布与获取信息的渠道。”许多网站设计者只注重本网站或自身的创建目的,而忽视了关键词搜索引擎会肢解网站,并把网站的条条块块纳入搜索结果。尽管正在为网站制定一个“通行标准”,但仍有许多老站点和网络新手制作的新站点不可避免地犯同样的设计错误。总有一天,无论什么内容和如何设计,快速查询网页在技术上都将不成问题,而此前只有找到一个取代目前这种全面访问因特网资源的方法,才有可能细化信息单元,使访问者迅速获取所需。

编纂一个令人满意的因特网主题索引是有可能的,同样,编纂分析索引也是有可能的。如果说《搜索报告指南》是图书馆馆藏的“近亲”,那么分析索引就象是一部百科全书。由于“用户感到不便的并非缺乏信息而是信息过剩,”一种百科全书式的查询方法对基本信息需求来说也许更为有用。

2

凡是超出获取书架上的材料这一基本目的的做法都是在浪费时间与资源

在书目控制领域,分析法总是一个“继子”,处境无奈。理想中传统的分析编目应对每个项目做一个记录,多卷文献的各分卷、每部著作等均是如此。分析法还可包括诸如书籍章节、声频轨道、艺术代表作页码等内容。不幸的是代表一个独立的题名、一个丛书系列或期刊的书目记录是图书馆信息检索的最基本单位。在这些模式中想查阅多种作品几乎是一种奢望。

在卡片和联机编目中运用的分析法始终存在着各种问题。由于书目控制长期以来被认为是图书馆花费昂贵但又不能没有的事情,因而查阅隐性资源的能力从未被彻底开发过。为藏书中特定的部分加大查询力度,往往取决于编目员所不能控制的因素,所以凡是超出获取书架上的材料这一基本目的的做法都是在浪费时间与资源。为了填补这个空白,有人编纂了索引和其他种类的参考书,以提供查询某些类型材料的途径,如专题系列、微缩格式的作品等,但只有在用户了解这些资源的存在及如何使用时,这些资源才会发挥作用。

早期的联机系统只不过是一些自动化的卡片目录,因此未能改进查询途径。有专家指出,“MARC提供的链接场和分析记录之精致与某些当地系统处理这些记录时的粗糙形成极大反差。”当联机编目启用关键词搜索后,检索效能增强了目录表,在书目记录贩子中成为一个受欢迎的卖点,并对查询作品中的作品提供了帮助,但受物理格式呆板的局限,即使查询力度增强,仍不能直截了当地获得具体信息。

有意思的是,1998年有关专家在对一个图书馆联机编目的不同种类分析法的研究中断定,分析法将在搜索某个具体作品时:①调出该作品的所有特征;②无误检索地调出作品本身;③无需二次检索;④清楚地组配所有调出的作品题名。

这些特点正是因特网搜索者期望获得的。然而,因特网深不可测的规模,不统一的内容,以及缺乏最大限度查询离散信息的方法等等,使得上述期望难以实现。事实上,有理由相信,尽管一度存在过某套制约创建编目的规则,但却从没有过,今后也不太可能有这么一套规则来制约以电子形式出现的大范围信息的组织结构。查询方法必须象数字材料本身那样高速运转,灵活自如,即使在数字环境发展的情况下仍然有用。

由于网站不同于书籍,因此有理由相信传统的书目控制方法应用于因特网资源时须进行重新评估。在试图达到更高的可查询率时这点变得尤其突出。传统编目是用简明的、标准化的方法来建立一个有形收藏的代表,能很容易地用不同方法作出索引。编目卡片是对有形收藏的过滤,同时兼具定位功能,通常以图书索书号或入藏号的形式出现。由于卡片自己不能跳出抽屉,引导读者到相关的有形收藏,因此读者必须了解如何使用定位手段。尽管对网络的不稳定特性已有过许多讨论,但同样也有可能使某个网站定位在某个链接的另一端,就像书架上某一本书,它原本就该在那里。

如果把一个网站看成是一个整体,就象一本书那样,统一结构的书目记录是一个可操作的查询形式,其附加优点是定位手段直接指向有关资源。与有形信息材料不同,索引员或编目员并不需要指向整个网站才能查询到该网站的某个具体部分。如果分析方法选择得当,有必要的背景环境描述,那么查询整个网站就变得不那么重要。重要的是把用户直接引向信息目标。如果同一种分析索引被运用到有形收藏上,那么背景环境只会因为用户必须在得到所需信息前首先查询更大范围的信息包时才会变得重要。

检查某些简单信息时没有必要进行深入总结和描述。如果分析法指向一幅灰鲸的照片,那么百科全书查询法便是设计出尽可能多的关键词以引导用户到达该资源。用户可通过点击链接直接来到那幅照片前,就象首先阅读该条目的描述或总结那样快捷。这就是查找有形信息材料与查找数字化信息之间的主要区别。前者牵涉到首先要拿到书这一步,因此有必要对有关资料进行明确的描述,以确保该资源有进一步查找的意义。在数字环境里,有关资料相距仅一个链接,因此用户尽可以翻阅浏览可能相关的网页。诸如都柏林核心元素集(Dublin Core MetadataSet)的格式要素应和条目一起提供给用户, 尤其是对总体网站的描述以及对可能引起下载的因素或查询问题的警告。总的来说,主题关键词通常向用户提供了足够的信息以使其能决定该资源是否与自己所需的信息有关。

有形信息材料与数字化信息材料的另一重大区别在于编目员必须创建一个唯一的、逻辑的分类,以便将有形收藏放置到某个具体的有形位置。 而网站则已经在电脑空间中被“安放入架”, 此外由于通往某个URL的链接可以用文本或图像来标记,因此指向某个唯一的URL的不同索引条目不受数量的限制。

3 分析索引应该是两方面的结合, 既能迅速查到简明答案或数字目标的位置又能成为继续搜索的起点

数字分析法的书目信息应该灵活多变,以适应不同的网站设计和内容介绍。都柏林核心元数据声明对于习惯根据编目标准工作的编目员来说是有吸引力的,然而把花在一本将流传几百年的珍藏图书上的努力用于网站上就不值得了,因为一个网站也许持续不到一年时间,且依赖的技术往往昙花一现。与读者不同,阅读与理解数字形式的信息需要设备与软件,而这两者都在不断变化,也许几年功夫就会销声匿迹。

在重新思考用于数字化信息的书目控制时,需要考虑的独特因素是,书目信息也在同样的技术上运作,与其查询的资源用的是同一种格式。书目信息不仅与网络的其他部分天衣无缝地连接在一起,而且也和所有因特网资源一样受到同一种不稳定性的影响。另一方面,如果为内部网或为永久存储截取到某种资源,那么该资源的查询方法也会同时被截取到。通过仿真技术环境,资源就可以被查询和研究,而无需对其重新编目。这种便携性与百科全书的精神颇有相同之处。

3.1 分析索引

具有讽刺意味的是,因特网分析索引的最佳格式便是网站格式。网站的设计能对索引的易用程度与用途产生影响。易用性、导航的明确性和直接明了的说明等因素,不仅对用户十分重要,对任何维护该网站的人都同样重要。由于查找合适的因特网资源及准备适当的书目查询途径费时费力,因此一种简易的方法,诸如快速增删、变更条目应该成为该索引的重要特点。与访问者在各个层面上的互动也可以强化网站的作用。比如用电子邮件形式通报出现的问题,推荐资源,允许访问者最大限度地定制个性化的网页,以编入他们喜欢的链接或存储搜索套件。最有效的索引将是动态的,并与因特网的资源和支持技术的发展变化保持同步。

编纂此类索引最大的问题是挑选资源。从理论上说,几乎所有的网站都包含了访问分析索引的人可能打算搜寻的东西。要搜集离散的信息就得一次筛选一个网站,每次都得费力,这是不可行的。反之,试图面面俱到统归一体的做法也将减损对这一资源的直接需要。如同一部百科全书,分析索引应该是两方面的结合,既能迅速查到简明答案或数字目标的位置又能成为继续搜索的起点。

作为印刷品的百科全书的编纂方法和因特网资源的分析索引被访问的方法,两者之间的区别会妨碍对所需信息涵盖幅度的查询。百科全书条目中的信息来自主题专家和该领域内的各种印刷材料。它们被合并为一种简明、综合的表述,并常常附有书目。因特网的索引则只是收集,而不编制款目。这样用户就得依靠网站作者处理某个主题的方式,甚至通过增加信息含量来扩充每一资源,除非分析索引包括了把相关资源链接到一起的方式。因此要提起重视的是,应将信息“打包”,再“打包”,以服务于大众,这始终是图书馆员的特长,也是图书馆事业的特点。

在网络的背景环境中挑选资源是不可能的。数字环境浩瀚无垠,即使是作一概览也无能为力。尽管可以利用不同领域的专家来定位与评估潜在的索引条目,但缺乏概览使得我们无法将已查找到的信息放到一个适当位置进行评估,甚至跟因特网不断涌现的新资源都难以同步。此外许多项目包含重复资源,正如不少图书馆花了很大力气在自己的网站中建立链接,而实际上只是建立了类似的网站。

想象一下自己漫步在世界上规模最大的书店,同时学习如何收集、组织书店里的藏品以及发展策略等有关学科的所有内容。其名目之繁、数量之大令人眼花缭乱,你会立即意识到要把所有东西都收集起来进行编目、处理、入库简直是天方夜谭。即使只挑出“精品”资源也绝非易事,因为在挑选前把所有资料过目一遍都是不可能的。每一个选择都必须基于材料本身的价值以及与此前已评估过的材料的关系。这是一个缓慢而效率低下的过程,因为许多款目要进行重新评估、选择及撤除。大功告成以前这一过程也许要重复多次。

假设上述挑选过程成立,查找优质资源的任务仍然是荆棘载途。试图在此之前为隐性的因特网资源而盲目摸索完全是件劳而无功的事。问题是我们应该将大量时间用来决定是否收入某个资源或只是把它加入索引呢,还是用来查询更多的资源。因为在因特网这样不稳定的环境中,重复资源或许一周内便从网站上消失而被其它几个同主题不同内容的资源所取代。

作分析索引的某些步骤是可以自动化的。例如URL 地址可以被自动地添加到现有的主题关键词表中,达到迅速查询的目的。这甚至可以在发现资源的同时进行,即只需将该URL 简单地剪贴到索引员的联机格式中。此外,其他要素可以同时加进对该资源的描述中去。与物理材料不同,其编目与“上架”之间没有任何时间延迟。网上资源一经输入分析索引的数据库,立即就可以为访问者所利用。反之,更改或撤除资源内容也会随时反映在网上。

然而分析索引完全自动化也是靠不住的,因为网络上的文件结构无法使程序可靠地抽取那些手工索引员一眼就能发现的例行信息。此外,专业索引员能够描述从文本到视频各类文件中具体网页的组成部分,并能阐明这些部分如何与数据库的信息融合到一起。因此,最佳方案是在人工与技术之间找到一个完美的平衡。

3.2 袖珍乌托邦

因特网及其技术不会在时光的隧道上停顿下来,等待图书馆员去发明某个合理的方法来组织与查询网上的现有资源。图书馆和图书馆员必须适应网络的动态性与灵活性,以便真正利用它来方便我们的用户。访问因特网资源的现有方法经历了漫长的发展阶段,从缓慢的调制解调器、迟钝的CPU、神秘的UNIX命令、 不合人意的通讯协议、 鲜为人知的ETP站点、到基于文本的界面,但这些并没有使查询变得连贯一致, 而这正是我们对基于联机图书馆的编目所寄予的期望。从分析法的角度去解决资源问题有可能提高某些种类的信息和数字目标的查询质量。由于用户所面对的是海量的信息,因此“少就是多”这一格言变得越来越适用。

本文根据1999年第6期《College & Research Libraries 》中Ananalytical index to the Internet:Dreams of Utopia编译,原作者Carol Casey, 美国拉法耶特市路易斯安那大学杜波图书馆编目部主任。

(收稿日期:2000—03—12)

标签:;  ;  ;  ;  ;  ;  

互联网分析索引:乌托邦之梦_搜索引擎论文
下载Doc文档

猜你喜欢