搜索引擎与网络信息资源的分类与组织_搜索引擎论文

搜索引擎与网络信息资源的分类与组织_搜索引擎论文

搜索引擎及网络信息资源的分类组织,本文主要内容关键词为:信息资源论文,搜索引擎论文,组织论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G254.0 TP393.092

1 对网络信息资源和网络用户的分析

要想对互联网上的信息资源进行科学而实用的组织,必须研究网上信息资源的特性和网络用户信息查询的特点,因为网络信息资源组织的目的就是为了信息的查询和利用。

1.1 网络信息资源的特点

● 数量多而庞杂。Internet是一个基于TCP/IP协议的联结各国、各机构数以万计的计算机网络的通信网,是一个集各种信息资源为一体的信息资源网,因此,网上的信息资源不计其数,并且每天都在迅速增加。又由于政府、机构、企业、个人都可以在网上发布信息,因此成为无所不有的庞杂信息源,并具有跨地区、分布广、多语种、高度共享的特点。

● 变化快且不稳定。网上的信息具有高度动态性,不但各种信息都处在不断更新、淘汰的状态,它所连接的网络、网站、网页也都处在变化之中。

● 类型多。网络信息资源包括网上出版物(电子报刊、电子工具书等)、动态信息(新闻、会议、广告、交通、天气、股市行情等)、书目数据库、联机数据库、软件资源以及其他信息(个人主页、BBS、E-mail、MUD)。这些信息既有文本的,也有以声音、图形、 图像存储的。

● 范围广。网上信息涵盖了人类知识的各个领域,既有人文科学、社会科学、自然科学、工程技术信息,也有各种生活服务、娱乐消遣等信息。

● 超文本链接。与传统印刷型文献截然不同,网上信息的组织以超文本技术链接,构成立体网状的联系,各个国家、各种服务器、各种网页、各种文章上的相关信息都可以通过结点链接起来。

● 从宏观上看,由于互联网上的信息没有统一的控制,信息的质量参差不齐,网上的信息是分散、无序、不规范的;但从某个局部,如某个网页、数据库来看,是有控制的、相对集中的、有序和规范的。

1.2 网络信息用户的特点

网络用户的范围十分广泛,从科学家到工程技术人员,从企业家到股民,从政府工作人员到艺术工作者,从电脑爱好者到球迷,乃至家庭主妇和中小学生无所不有。他们受教育的程度差别极大,用户个体的认识和认知特征、知识储备和知识结构各不相同,对知识体系的了解也不同;他们的工作岗位和专业不同,对同一概念、同一事物的内涵与外延理解不同、描述的语言不同,对它们在知识体系中的位置认识也有所不同;各种用户上网的目的和利用信息的种类存在明显差异:有的是为了进行科学研究,有的是为了收集经济信息,有的是为了下载软件,有的是为了参加专题讨论或交友,有的是为了学习某门课程或了解某种知识,有的则是为了娱乐消遣,这一切导致各种用户查询和利用信息的视角不同、方法不同、类型不同、深浅程度不同。

2 综合性搜索引擎应具备的功能

对网上信息资源的特点和网上用户的需求特点进行分析,是对网上信息资源进行组织的基本出发点。从上述分析可以看出,综合性的中文搜索引擎在信息资源的组织和查询方面具有以下功能:

● 适合对各种类型信息的组织,包括不同媒体的以及正式出版的、半非正式出版的、非正式出版的信息。

● 组织的范围包括人类知识的各个领域,不论是系统知识还是零散的知识,不论是人文社会科学知识还是自然科学知识,不论是学术研究性知识还是生活服务及娱乐性知识。

● 对搜索的信息进行必要的控制和过滤,防止大量无价值、质量差、盲链接的信息进入数据库,否则将大大加重用户筛选信息的负担。

● 根据搜索引擎的性质和侧重点,相关信息的搜索要全面,形成各搜索引擎的特色。

● 满足网上信息动态性的要求。尽量缩小搜索引擎的信息库与网上信息更新的滞后性,必须有高智能的自动搜索、分析、标引和著录系统,以最短的搜索周期将变化了的Web页的信息加以标引, 并追加到数据库中;及时剔除已成“死链”的链接;建构的知识组织体系和术语系统应具有动态性,以适应网上信息知识的变化;根据需要增加新的检索手段以满足新类型信息检索的需要;具有动态的帮助系统。

● 有完善的检索手段。既能满足一般用户的浏览检索(简单检索),又能满足专业用户的专指检索(高级检索);具有布尔检索、截词检索、邻近度检索、自然语言检索、概念检索等功能;能从字段、范围、时间、语言、信息类型、网站等方面进行限定;能保存检索式并对其修改;可在返回的结果中进行二次检索。

● 有满足不同需要的输出形式。用户可以选择显示的格式以及详简程度和结果排序的标准,如匹配的程度、URL、域名、搜索引擎、 字母等;合并返回结果、删除重复的链接。

● 搜索引擎应是面向所有终端用户的。为充分发挥它的导航作用,易用性是极为重要的,利用率不高的搜索引擎,几乎谈不上检索效率。检索过程是以完善和改变用户知识结构为目的的过程,提高搜索引擎的智能化程度,也是提高易用性的重要方面,系统应在学科领域知识和语言知识方面对用户予以充分的支持,具有扩展通向相关信息路径的支持,使用户通过与系统的交互作用以及磨合,逐步缩小信息表述的差距,将用户的认知负担降到最低程度。不同用户利用网络信息有相对稳定的一面,搜索引擎应为不同用户建立自己的知识分类系统提供相关的功能。

3 对网络信息进行知识组织使用的语言

在信息的知识组织和查询中,涉及作者语言、标引语言和用户语言。作者在表达概念和主题时,由于受个人主观条件限制和客观条件的制约,对语词符号集合中词语的选择是有限的。在作者所熟悉的领域,较多从学科体系角度采用专业术语的表述方式。标引语言是对知识进行描述的语言,不管是受控语言还是关键词语言,更多的是作者语言结构的反映。标引语言有助于信息描述的准确性和规范化,但从用户的角度来说,表述是不甚透明的,自动标引由于主要从标题、文摘乃至文章中抽词,使这种倾向得到强化,增大了与用户语言的差距及匹配的难度。用户语言是表达信息需求使用的语词符号和表述形式,用户产生信息需求,表明存在知识的某种缺陷,但也只能根据自己的知识水平、认识水平和利用信息的目的选择语词和表述方式,相对其内在需求,往往是不准确和不完全的。

作者语言、标引语言与用户的差异越大,检索效率越低。因此搜索引擎对信息进行标引时,也要反映一般用户的语言结构,以之作为标引语言的重要词源之一。主要方法是建立用户语言表征集合与作者语言、标引语言表征集合之间的联系,作为用户语言与作者语言、标引语言转换的基础,这里不仅仅是自然语言与受控语言的转换,因为作者语言和用户语言都属于自然语言的范畴,虽然两者之间是有差异的。检索语言的后控词表技术则为这种转换提供了理论和方法。

4 网络信息的知识组织模式

对网上信息资源进行知识组织,是指对网上的各种概念、数据(包括声音、图像、软件等)、事实、文献等,通过分析(明确信息中包含的知识本质)、标引(分类的和语词的)、著录(信息特征的描述)、链接(把相关的信息加以联系)、排序、存储等手段,形成一个有序的、便于用户理解和查询的信息系统,这个系统揭示知识的整体联系和相关知识间的联系。信息中的知识通过什么方式来组织,才有利于人们查询和利用呢,基本的方法有两种:

4.1 使用语词组织知识

就是用语词(自然语言和受控的自然语言)来描述知识并按语词的字顺排列。由于知识本身是用概念来表术的,所以人们直接表达知识需求的语词与概念表述最接近,按语词描述和排列的知识,接近按概念描述和排列的知识,使概念相同的知识聚集在一起,就能为用户提供最直接、直观、简便的查询途径。用语词描述知识还有一个好处,就是无论知识多么专深、时新,都可以充分地加以表述。正是这个原因,语词(主要是关键词)检索成为搜索引擎的主要检索方法。使用语词组织和查询知识,用户能够对各网站及每篇文章中(如果是全文搜索引擎的话)的每个词进行搜索,真正向用户提供了对网上所有信息资源进行检索的手段,给用户以最全面、最广泛的搜索结果。其缺点是检准率很低,返回的信息多而繁杂,且夹杂着大量不切题和无用的信息,如果搜索引擎提供的信息是未经筛选的,那么用户还要花很多时间继续在里面“淘金”。其原因在于关键词并不是主题概念,只要网站或文章中包含有与检索提问匹配的字、词、短语,就都算命中。

4.2 使用分类法组织知识

分类是人类基本的思维方式,是从本质上揭示和把握事物之间的区别与联系的重要手段。知识经过分类组织后,就能揭示知识的全貌及其内在联系,提供分门别类查询知识的途径。现有的中文搜索引擎都具有“目录分类式”(或称主题指南、列表浏览)查询功能,即将信息进行分门别类后、按逻辑层次加以组织。也就是说,首先建立一个知识分类大纲,然后将每个大类由宽到窄逐层划分为若干级类目,构成一个知识树,再按照信息的属性予以系统组织。用这种方法组织知识,可使用户思路清晰地以浏览的方式查找某一类信息,符合传统的信息查找习惯,对于希望查找某一范畴、学科、专业方面信息(主要是网址)的用户很适用。由于信息被分别组织在不同的类中,起到了过滤和筛选的作用,因此可以提高检准率。但它不像语词检索工具那样,能将网站上所有的文章和信息都加以组织,因此搜索范围要小很多。

4.3 理想的知识组织模式

单纯使用语词和分类的方法组织知识,都满足不了网上信息查询的需要。理想的模式是用“分类—主题”的方式对知识进行组织,从而为不同层次和需求的用户,分别提供分类的、主题的、分类—主题的信息查询功能。它包括3个部分:

● 建立一个结构简明的知识分类体系,通过对信息的系统分类,实现对信息知识领域的宏观控制。当信息分别组织到各个类中之后,其含义就受到了类目的限定,为过滤不需要的信息创造了条件。这种分类体系既是浏览检索的工具,也是主题检索的限定工具。

● 建立一个智能化的控制词表,实施对作者语言与用户语言的控制和转换。自动标引系统可以把采自信息源的作者语言转换为标引语言;查询系统则可以把用户语言转换为标引语言,使用户语言与作者语言通过标引语言达到最佳的匹配。通过控制词表的后台工作,实现知识多种语词组织的统一。这个系统具有自学习功能,除能不断建立和调整控制词表中的词间关系和词与类的关系外,还能根据作者语言和用户语言的使用频率和表述方式,不断调整或更新标引语言。

● 建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系(通过标引语言进而也将作者语言和用户语言纳入分类体系),这样除可以直接使用自然语言检索外,也可以在任何类下进行语词检索(相当于类与语词组配检索)。在某一类下进行语词查询,实际上,是在选定的范围之内查询,结果会接近用户的要求。例如在“工程技术”类下查询“汽车”,就可以把体育运动的汽车、玩具汽车、汽车交易、文艺作品中的汽车等无用信息过滤掉,大大提高检准率。

上述知识组织的模式,是把知识的自然语言表述与查询、受控自然语言表述与查询融为一体;把知识的分类组织与语词组织融为一体,满足网上信息资源组织与查询的需要。

5 中文搜索引擎的分类组织与传统分类法的比较

5.1 搜索引擎分类查询工具的特点

中文搜索引擎的类目是完全根据网上信息的类型和特征及一般用户查询的重点设置的,并且具有动态性,因此,有很高的适应性和实用性。充分利用计算机操作环境与技术,建构多维的分类体系,可揭示多维知识空间的联系。例如,一个子类可以隶属于多个母类(类似于主题词表的“范畴索引”)、一个母类可以用多种标准进行划分(多重列类)、少数大类下(如“国家地区”)另编涵盖各大类内容的体系;互见和分析方法也有不同程度的使用;利用超文本技术把类与类、类与记录链接起来,可以自由跳转;有友好的用户界面和帮助。这些都是传统分类法所无法匹敌的。

5.2 搜索引擎的分类体系与方法所存在的问题

现有中文搜索引擎分类大纲的设置不够科学,主要是知识领域不全和知识体系不严密,如“悠游”未设置自然科学和政治大类;类目之间逻辑性差,常有隶属关系混乱的情况,如“东方网景”把教育列于自然科学类下、“网易”在文学类下列出人文历史和宗教、“搜狐”把留学与移民列于工商经济类等;类名用语不准确且缺少注释,难以判断其外延,如中文雅虎的“另类科学”、搜狐的“生育药品与药店”、网景的“观点”等类,如无注释就不知都包含什么内容;类目按字顺排列或随意排列,割裂了类目之间的逻辑联系,不利于查询,例如:

雅虎的疾病类 搜狐的教育类 网易的财经类

癌症 高等教育 工商产业

艾滋病国内院校 分类广告

白化症幼教 商业资讯

地中海型贫血 聊天与BBS 商学院

高血压教育理论 消费者

肝脏疾病 音乐教育 资本运营

除此之外,类目划分缺少规范,无规律可循,跳跃式的类目划分等也是普遍存在的问题。还有一些搜索引擎的分类体系动态性过强,影响了必要的稳定性。这些问题主要是缺少严格的词汇控制所致。

5.3 传统分类法的特点及对网上信息组织的适应性

传统分类法以印刷型文献为主要处理对象,对网上不同媒体、不同类型、不同性质信息的知识组织有很大的不适应性;传统分类法是一个相当稳定的知识体系,对网上高度动态的信息资源也缺乏适应能力;在传统分类法的线性体系中,尽管采用了交替列类、编制注释和参见加强类目的横向联系,但要客观而充分地揭示知识空间的立体联系还远远不够;传统分类法是以学科分类和逻辑划分为基础的严密而深细的分类体系,隐含的联系和限定贯穿于整个分类体系,对用户来说缺少易用性,不但类目本身的含义和类目间的逻辑联系是绝大多数用户无法准确理解和掌握的,复分、仿分技术连专业人员都不易掌握。总之,传统的分类法是一个单纯的分类体系,满足不了用户最常用的“在浏览中进行语词检索”的需求,它在知识组织的对象、适应网络技术环境和满足一般用户查询需求等方面都存在很大的差距。

5.4 功能差异的原因

搜索引擎的分类体系由于主要是研究机构、电脑工作者设计的面向网络信息、面向计算机技术环境、面向一般用户的分类体系,故有较好的实用性。但这种分类体系缺少情报检索语言理论的指导和吸收检索语言研究的成果,在知识体系的建构和展示等方面仍有不少缺陷,尤其对于专业人员的信息检索影响较大;传统的分类法和主题法主要由情报语言学专家设计,重视知识体系的完整性和逻辑性,强调词汇控制,面向正式出版的文献、传统的图书馆环境、专业用户和中介用户,以此为基础的检索系统有很高的检索效率,这是现有的搜索引擎所不能比的。但在网络信息迅猛发展的今天,由于忽视对网络信息、网络环境、网络用户的研究,没有以积极的态度在新的组织对象和环境中推广自己的成果并发展自己,所以在本属于自己“领地”的知识组织大舞台上显得有些黯然失色。

6 建构网上知识分类体系的原则和方法

建立网上信息的知识分类系统,必须遵循面向网络信息资源、面向网络技术环境、面向网络用户的原则,突出其实用性和易用性,充分借鉴网上已编制的分类体系的经验和传统分类法理论、技术和成果。它的基本结构和编制方法是:

6.1 有一个涵盖各知识领域、结构清晰、层次简明、 能满足网上信息组织需要的分类体系

这个体系是动态的,又是相对稳定的,类目的级别越高,稳定性应越强,特别是一级类目代表人类知识的框架,稳定性最高。类目划分层次以三四级为宜,类目如果划分得深细,虽然知识的系统性强了,但用户的使用也比较困难,专业搜索引擎可根据需要适当延伸。基本大类(第一级类目)设置,除考虑知识领域的完整性外,还要考虑网上某种信息的重要性与用户的兴趣;聚类的标准不是传统分类法的学科,而是采用将学科、主题、事物结合起来,以主题为主的聚类方法。大体上,类目的层次越高学科属性越强;层次越低,事物属性越强。不完全使用按主题和事物聚类,可以使主题和事物的属性从宏观上得到控制,有利于提高查准率;放弃以学科为主的聚类原则,是因为事物由于学科属性(研究的角度)的不同而分散,而一般用户对事物的认识要比对学科的认识更直观和清晰,按主题和事物聚类可以降低用户查询的认知负担。这个分类体系基本上是一个主题的分类系统,建立的目录是主题的分类目录;类目名称采用通用、规范、内涵外延清晰的术语,当无规范术语可用时,也可采用惯用语、英文或英文缩写,但应通过注释明确涵义。

6.2 采用等级结构展示知识的系统联系, 构成枝干分明的主题树或脉络清晰的知识地图

为了多视角地揭示知识的内在联系,类目划分不局限于单一标准的逻辑划分,同时使用若干标准进行划分,建立若干从属母类的平行子系统。类目的划分也不完全拘泥于逻辑的层次划分,可以根据信息量和访问频率突出某些重要信息的级位,以增强搜索引擎的易用性。知识的多重从属关系采用交替列类的方法揭示,与传统分类法交替类目不同的是,它通过与相应正式类目的链接,可以直接展开各级下位类,用户感觉不到两者的区别。交替列类技术可以较广泛地使用,因为不同层次用户的知识结构不同,对类的认识和选择基于各自的理解也不同。要使他们在不同的路径上找到所需的信息。知识之间的相关关系可大量使用类目参见的方法揭示,用超文本技术将参见的对象链接,用户便可以通过不同的窗口浏览被参见的类目,以作出取舍判断。对某些无知识领域属性的类目,可仿照已建立的知识体系展开,如“国家和地区”、“参考资料”是按地域和文献形式编制的类目,再按已建立的知识体系展开,不但从另一个角度集中了相关知识,也使类目的划分具有很强的规律性,这相当于仿分技术和双表列类技术的结合。在各知识领域有大量属共性区分的问题或事物,例如谈天室、软件、期刊杂志、新闻、法规、广告、人物、会议、USENET讨论组、个人主页等,它们既可以单独聚类,又可以分散在相关的知识领域下聚类。通过上述方法,可以建构成一个多维的知识网络,通过重组的网上信息将变得井然有序,使用户可以多途径、多视角地检索,传统分类法固有的“集中与分散”的矛盾在这里将不复存在。

6.3

类目的排列和检索结果的排列方法虽然对检全率和检准率不产生影响,但对用户使用的便利性、检索速度会产生影响,因此,应采用对用户最有利的排列次序

对于类目排列来说,首先应按知识的逻辑次序和重要程度排列,共性区分的问题集中排列,采用相同标准区分的类目使用相同的次序排列。只有无明显逻辑联系的,才使用字顺排列,这对用户理解和把握知识体系是有帮助的。对于检索结果,不同的用户有不同的需求,应提供多种格式和次序供用户选择,如按相关度、URL、域名、字顺、 搜索引擎、信息的类型、语种等排列。

6.4 分类体系的标记问题

传统分类法的标记是极为重要的组成部分,分类标记是类目的代码,具有类目定位、文献排架、款目排列的作用,读者必须通过含有分类号的索书号才能提取已检索到的文献。在机检系统中,分类号是组配检索的重要因素。在对网上信息进行分类查询时,标记已显得不重要,这是因为网上的分类法也就是分类目录,只是不包含记录的类目不予列出,这与《四库分类目录》相似;用户检索到的信息直接列出,不需要再到什么地方去提取,因此,标记对用户来说基本是无意义的,只有当用户指定同时在几个类中进行语词检索时(相当于类号的逻辑加与语词的逻辑乘),分类标记才有用处,但这也可以通过在检索程序中增加同时选定几个类的功能来解决。对于检索系统来说,分类体系的标记是有用的,它可以作为与语词标引语言连接的中介,实现分类控制下的主题查询,也可以作为与其他分类表连接与转换的中介,这种分类标记是隐含在系统内部的,并且具有高容量和高弹性,以满足动态性的需要。如果搜索引擎直接引入某一传统分类法(当然需要改造),其标记系统应予保留,以供对这套标记熟悉的用户使用。

7 应建立相对统一的中文搜索引擎知识分类体系

7.1 统一搜索引擎分类体系的必要性

现有中文搜索引擎的分类体系,其大类设置与划分、类名的表述与外延、类目的排列等都各不相同,这对于知识组织与信息交流都是不利的。用户网上查询信息一般使用多种搜索引擎,因此要熟悉多种不同的分类体系,而不同的搜索引擎,即便类名相同,外延也不同,因而造成用户理解和运用的困难。例如网景的“社会文化”类包括饮食、服饰、时尚等内容,而搜狐则将这些内容列在“生活服务”类。传统的分类法曾是多种多样的,但目前在国际上占主导地位的只有DDC、UDC和LC,中国占主导地位的也只有《中图法》和《科图法》。综合性的分类法趋向统一,是信息资源共享趋势的结果。互联网上信息资源的最大特点之一就是它的共享性。知识组织方法的相对统一,是网上信息易检性和共享利用的重要因素,众多搜索引擎如果使用相同的分类系统组织信息,对用户来说是十分便利的。

7.2 统一搜索引擎分类体系的可行性

人类的知识是一个统一的整体,知识的体系及其内在联系是客观的,网上信息的知识包含在人类整体知识之中,因此它们有着共同的体系。尽管从哲学和科学上对人类知识的体系还有不同的认识,但对知识领域的划分是基本统一的。实际上,各国乃至世界性组织都在致力于知识分类组织的统一,如我国1992年就颁布了国家标准《学科分类与代码》(GB/T 13745—92),而《中图法》事实上就是文献信息组织的标准。目前国内开发的中文搜索引擎从规模、功能等方面与国外大型的搜索引擎还无法相比,很多专家建议集中力量开发为数不多的大型综合性中文搜索引擎,并积极开发研制各类专业搜索引擎,这也为统一搜索引擎的分类体系带来了一个契机。相对大陆而言,台湾、香港及国外的中文搜索引擎的分类体系的统一就比较困难了,但可以通过不同分类体系的转换为用户提供查询的方便。另外,网上的中文信息源主要在大陆,只要我们的分类体系更适应于组织中文信息,其他中文搜索引擎也会向我们靠拢。

7.3 网上中文信息分类大纲的提出

● 哲学与宗教

包括哲学理论、各国哲学、各科哲学、伦理学、各类宗教及信仰、占卜与巫术等。

● 人文与社会科学

包括人文科学、社会学、社会发展与变迁、社会问题与分析、家庭与婚姻、民族学与民族问题、人口学与人口问题、人类学、统计学及统计资料、管理理论技术等。

● 社会文化

包括语言文字、专题文化、群众文化、考古与博物馆、展览与展览馆、出版、网上书店、民俗风情、神话传说等。

● 文学与艺术

包括美学、文艺理论、文艺创作、文艺作品、文艺团体、文艺人物、文艺奖项等。

● 教育与人才

包括教育理论、教育技术、各国教育、各级教育、各类教育、各种人的教育、远程教育、学校与招生、考试与试题、教材讲义、人才与人才市场等。

● 体育与健身

包括体育理论与技术、运动会与成绩、体育设施与器械、各类体育运动、武术、气功、健身运动等。

● 生活与休闲娱乐

包括户外活动、家庭生活、恋爱婚姻、美容、社交与交谊、服装与时尚、家政与烹饪、居室庭院、购物、爱好与嗜好、游戏、宠物、娱乐场所、公众服务、网上交友、网上棋苑等。

● 旅游与服务业

包括名胜古迹、旅游景点、旅游服务设施、旅游指南、陆路航空水路交通概况及时刻表、订票服务、气象服务、货币兑换服务等。

● 医学与健康

包括医学基础科学、心理学、诊断、治疗、护理、各科疾病、药物、医疗器械、医学工程、保健与养生、心理健康与咨询、医学教育、家庭医学、紧急救护、远程诊断、医院及药店等。

● 经济与金融

包括经济理论、经济计划与管理、各国经济、工业经济、农业经济、房地产经济、交通运输经济、邮电经济、信息产业经济、贸易经济、财政、税务、金融、经济开发区、市场、广告、网上贸易、企业等。

● 政治

包括政治理论、政府机构、政党、国情与政策、外交与国际关系、政治事件、政治人物等。

● 法律

包括法学理论、各国法律法规、国际法、各行业法律法规、法律咨询、司法机构、法庭与审判、仲裁及仲裁机构、律师及律师机构等。

● 军事

包括军事理论、军事史、军事教育、各国军事、战略战术、武器装备、军事工程等。

● 历史与地理

包括世界及各国史、各学科及行业史、人物传记、自然地理、人文地理、经济地理、专类地理、自然考察、探险等。

● 自然科学

包括科学理论、数理科学、天文学、地球科学、大气科学、海洋科学、生物学与生物工程等。

● 农业科学

包括农业基础科学、农业动力、农业机械、农业工程、农艺、园艺、林业、畜牧兽医、水产养殖与捕捞、蚕桑蜂等。

● 工程技术

包括通过技术、矿业与能源、机械工程、电力电子技术、自动化技术、化学与化工、轻工业与手工业、建筑工程、水利工程、交通运输工程、航空航天技术、环境与生态等。

● 计算机与网络

包括通信技术、信息技术、多媒体技术、网络技术、Internet、计算机技术、硬件、软件、计算机应用、计算机安全、市场、个人主页等。

● 新闻与媒体

包括传播理论、时事新闻、专题新闻、广播、电视、出版、电子出版物、新闻组等。

● 图书馆与参考资料

包括图书馆、情报所、信息中心、搜索引擎、工具书、电子出版物、各类参考资源等。

● 国家与地区

在各国家和地区下,按上述各领域展开。

● 综合网站

不易用上述标准区分的。

这个分类大纲大体适用于面向一般用户的综合性中文搜索引擎。以学术和技术为主的搜索引擎、专业搜索引擎最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网上信息的组织和检索,因为其科学的体系和严密的结构是非专业人员所不能独立完成的,如美国OCLC和Net First、英国的BUBL LINK等检索系统都以DDC为分类工具; 中国教育科研网使用《中图法》作为分类工具;英国高教图书馆的“艺术、设计、建筑和媒体检索系统”则依据DDC的艺术类进行分类组织。

面对Internet上五彩缤纷且杂乱无章的庞大的信息资源,信息的整序显得日益重要,主要由计算机和网络工作者设计研制的各种网络检索系统、搜索引擎竞相登台,各领风骚。经过一段时间的探索和实践,一些专家开始呼吁用“图书馆员的思维”管理网上信息资源,这种思路的转变,说明网络信息的组织和管理需要以知识组织的理论来指导,才能达到高度的有序化,因为信息不论以什么形式传播,其知识属性都是不变的。

标签:;  ;  ;  ;  

搜索引擎与网络信息资源的分类与组织_搜索引擎论文
下载Doc文档

猜你喜欢