四大门户分类引擎系统的初步研究(二)_搜狐论文

四大门户网站分类引擎体系初探(二),本文主要内容关键词为:门户网站论文,体系论文,引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

7.分类引擎的微观结构

分类引擎的微观结构由类目(类名、网站著录)以类目关系构成。

7.1 类目

分类引擎的类目由类名与网站著录构成。

7.1.1 立类方式

分类引擎由于使用超链接,对一些热点类目,及时在其相应位置上设类,如除了“搜抓体育与健身>体育赛事>奥运会>2008年北京奥运会”外,还根据使用需要,在作为上一级的类目中突出反映,提前设置热点类以便于用户使用,如在“体育与健身”类之首设立“北京2008奥运会@(30)”。

还根据使用需要组织和显示相关资源,使分类体系能及时反映用户需求和资源的变化,如通过设置镜像类目,以链接的方式,在有关事件临近或进行过程中提前设置类目。如搜狐设立:

热门搜索:奥运 高招录取 大学 高考 哈利波特 mp3 六合彩 flash 音乐 电影 手机 汽车 鲜花 更多>>

热门类目:中国军事 汽车指南 高招咨询 影视 网络 翻译 留学 两性 影视 游戏 军事 考试 鲜花/礼品。某事件如奥运、高招录取、非典过后则可以取消该镜像类目,使之具有动态性。

7.1.2类目的种类

分类引擎是包括分类法、分类目录和网站信息构成的系统整体,其类目包括“子目”和“网站”,“子目”是上级类目划分出来的类目,又可划分下级类目:终点类目则是相关的“网站”,它可链接到具体的网站,具体网站则不再属于分类引擎。如:“搜狐旅游与交通>旅游景点”中的“旅游景点”是“子目”,“搜狐旅游与交通>旅游景点>自然风光>瀑布”之“瀑布”是具体类目,其下的德天瀑布、黄果树之窗、中国溪源峡谷则是“网站”。

从知识内容和形式来说,又可分为内容特征类目和形式特征类目,如管理学是学科性类目,知识管理是专业性类目,物流和供应链管理则是主题性类目。形式特征类目如报纸、杂志、索引、QQ、Flash、免费资源、论坛、网页素材/图库、国家与地区、公司与企业等。

根据类目关系,可分为主要类目和交叉交替类目,如“搜狐首页>生活服务>生活情趣 无线电爱好者@(13)”的“无线电爱好者@”是交替类目,“搜狐娱乐休闲>收集爱好>无线电”的“无线电”是主要类目。

分类引擎多把一个内容宽泛、各下位类目都无法容纳的类目,归纳为“综合网站”,是总论性类目,其他类目则为专论性类目。如:“搜狐电脑与网络>网络互联>综合网站”的“综合网站”是总论性类目,网络安全/黑客@、网络电话和传真、网页制作、域名查询和注册、网络办公等为专论性类目。

7.1.3 类名

分类引擎直接显示类名,如“互联网”;同时通过导航条揭示各级上位类,限定该类的等级和含义,如“新浪首页>搜索首页>计算机与互联网>互联网”,还可点击直接回访相应的上位类。

分类引擎类名采用自然语言,多是网民常见的俗称、简称、习惯用语:自由用语。如大类的娱乐休闲、电脑与网络、生活服务、旅游交通、生活资讯、情感绿洲、个人主页等。

这些类名的确定,更多从商业角度出发,突出网站的吸引力,因此类名往往十分引人瞩目,如:情感绿洲、Flash欣赏、生活时尚、热门游戏等,但其内涵外延没有规范,往往是网民可以意会,却是以牺牲准确性为代价的。而且各个网站对同类资源所设置的类名都不同,“搜狐分类目录:电脑与网络”和“中华网搜索首页>>电脑与网络”有“免费下载”;而“新浪首页>搜索首页>计算机与互联网”则是“免费资源”;“网易首页>>电脑网络”又是“软件下载”,这也给用户的使用带来了许多麻烦。

7.1.4 网站著录

分类引擎类目下列出相关的网站著录款目,摘要地说明网站的内容。

一般来说,分类引擎类目网站著录款目包括:网站名的链接和摘要,有的有网站的网址,网站的编码方式,如[简体]或GB,[繁体]或BIGS,[英文]或English:网站的其他标识,如新颖度标识(多用New)、推荐标识(多用Hot、Cool或推荐)等。其摘要多带有推荐性。摘要分为:

(1)直接采用网站相关资料摘要。如:

搜狐分类目录:公司企业>娱乐>玩具

广东迪士嘉实业有限公司 推荐-生产恐龙系列玩具,迪士尼卡通系列玩具,智能拼装玩具,电动遥控玩具,塑胶玩具。(注:摘要来自:产品系列)

(2)摘采关键词组成,如:搜狐分类目录:娱乐休闲>音乐

校园音乐网(New)-有大量的FLASH歌曲,动画,游戏,以及传奇外挂。

(3)标引人员撰写的摘要,如:

搜狐分类目录:社会与文化>社交礼仪>演讲术/口才学

即兴演讲网<English>-介绍即兴演讲的比赛和评比信息。

7.2 类目的关系

四大门户网站分类引擎类目的关系主要包括纵向关系和横向关系的揭示。

7.2.1 纵向关系一类级显示

分类引擎类目,往往通过一层层级别的类目点击和类目导航条显示其类级。如首页多显示其一级大类和部分二级类目,点击一级大类的链接就显示二级类目,点击二级类目的链接就显示三级类目,如此等等。而且点击一级大类显示二级类目时就出现导航条显示其类级,导航条不但可点击显示其下一级类目,还可以点击其上一级类名,返回其上一级或上几级类目。

7.2.2 横向关系揭示

横向关系的揭示包括序类(同位类的排列顺序)和横向多重关系的揭示。

(1)序类

分类引擎类目序类主要采用了按频率排列的方式。据此,搜狐、新浪、网易分类引擎将娱乐休闲排在大类之首。这遵循了从用户角度出发的原则,强调了重点,但随之而来的问题是用户的兴趣若发生政变,类目的使用频率亦会随之改变,从前述所列表比较知道:分类引擎大类先后排列顺序一类序都发生了变化。

搜狐分类引擎一二级类目于2001年10月7日与2003年8月5日的排列顺序见表3、表4。

表3“搜狐分类首页>娱乐休闲”(2001.10.7--18:06复制)

从资料可知:表3的二级类有23个,表4的二级类减少为21个,其中表3的交友征婚@、手机/寻呼机@、摄影@三类目删去,表4则增加了“Flash欣赏(544)”类目。

●音乐(7535) ●电影/电视(9327) ●汽车/摩托车(201)

●游戏(11356) ●聊天/BBS(2308)

●博彩/彩票(1621)

●时尚(1279) ●图片/壁纸(468)

●收集爱好(637)

●宠物(391)

●幽默/笑话(281)

●组织机构(96)

●电子贺卡(250)

●动漫/卡通(1913) ●新闻与媒体(182)

●休闲运动(782)

●明星/人物(303)

●综合娱乐网站(258)

●旅游景点@(1118)●星座/相术@(311) ●Flash欣赏(544)

表4“搜狐分类首页>娱乐休闲”(2003.8.5-11:36复制)

表3“休闲运动”居首位,在表4中则居6位:“聊天/BBS”在表3是第3,表4中则居9位:“音乐”在表3是第9,表4中则居第1位;“汽车/摩托车”在表3是第4,表4中则居15位;“时尚”在表3是第5,表4中则居3位,如此等等,说明二级类目的使用频率改变,则其类序也随着改变。

分类引擎类目序类另一方法是按类名字顺排列,如国家与地区、公司企业等大类的二级类目是依类名汉语拼音首字的字顺排列其同位类的。如:“搜狐分类目录:国家与地区”的二级类目就是以类名汉语拼音首字的字顺排列其同位类的。

(2)横向多重关系的揭示

在显示形式和揭示范围两方面,分类引擎使用超链接方式,通过在相应类下重复反映,揭示类目的横向关系。最常见的是将横向关系在相关类下重复反映,同时采用@加以表示。不管采用何种方式,都有效加强了类目之间多重关系的揭示。只要你能掌握其中的一个途径即可查到所需的内容。在超链接技术支持下,这种横向联系很容易实现,不但解决类目之间多重关系的揭示问题,而且提供了不同的分类路径入口。

分类引擎对横向多重关系的揭示包括:①交叉学科、边缘学科,如同易“文学>>各类文学>>军事文学”与“政法军事>>军事文学@”;②机构、人物与相应知识门类,如搜狐“社会与文化>人物>中国各科人物”与“科学与技术>人物@”;③多属性主题,如“搜狐计算机与互联网>互联网>网上社区”与“社会与文化>文化类别>电脑文化>网上社区@”;④资源形式与主题,如期刊、BBS、聊天屋、个人主页等及相应主题,如搜狐搜索15大类都有“个人主页”,用个人主页@只有6类:⑤地区与主题,如搜狐“国家与地区>北京>公司企业>文化艺术”与“公司企业>文化艺术>按地区分类>北京@”;⑥总论与专论,如搜狐搜索“个人主页>政治/法律/军事>法律>律师主页”与“个人主页>按职业分类>律师@”、“个人主页>政治/法律/军事>律师个人主页@”等。

8.改进的几点建议

8.1 关于设置专门“分类搜索帮助”网页

四大门户网站分类引擎都设有“帮助”菜单对使用方法加以说明,但对关键词搜索说得多,对分类方法说得少,且没有对分类体系加以说明。建议设置专门“分类搜索帮助”网页链接“帮助”菜单,以简明的文字,深入浅出地说明:大类类目设置(立类)标准方式、同位类排列(序类)、类目命名及使用方法等。

8.2 关于类目设置(立类)

四大门户网站分类引擎的类目设置以主题立类为主、学科立类为辅,主题立类与学科立类相结合,使之优势互补,这是其适应网络信息资源、用户及其需求的突出优点。但学科的网络信息资源、用户学习科研的需求都在不断增长,如据2003年CNNIC调查显示,就网民上网目的来看,位居第四位的学习占到7%多,比例有明显增加;这一变化表明网民对互联网的使用更加多元化,不再只集中于某一项活动和功能。故此,应增加一些重要的学科类目,如在社会科学、科学技术之外,单独为自然科学立类,对安全科学、轻工业、手工业、农业科学、工程技术、环境科学、历史、地理等学科,各网站分类引擎都要设立类目。

8.3 关于同位类排列(序类)

四大门户网站分类引擎的同位类排列,多采用按频率排列的方式,部分类采用汉语拼音字顺排列,分类引擎的二级及其以下类目一般是多重立类,但由于以频率排列,类目间没有内在联系,反而把具有内在联系的类目分散。因此,对国家与地区、公司企业、个人主页等大类仍可依汉语拼音字顺排列,其他大类、二级及以下类目的同位类,应依内在逻辑联系排列,可分成类目群模块,如大类可分为:文艺模块,包括文学、艺术;生活服务模,块包括娱乐休闲、生活服务、体育健身、旅游与交通:科技模块,包括计算机与互联网、科学技术、自然科学等;社会科学模块,包括工商经济、社会科学、教育、政治/法律/军事等;信息传播模块,包括新闻与媒体、参考资料:综合网站模块,包括国家与地区、个人主页、少儿乐园等。

8.4 关于类目命名

为了适应网络信息组织和网民查找网络信息的需要,四大门户网站分类引擎的类目命名,适当采用自然语言网络语言,在注重商业性的同时应注意准确性,标引的准确性和查准率考虑,对类名适当作一些规范处理,对一时难理解或会引起歧义的类名,必要时可以加上类名注释,以明确该类所涉及的范围。既可以兼顾类名的醒目,又可提高类名准确度,从而最终帮助用户提高检索的准确性,节省检索时间。

8.5 分类引擎与文献分类法应互相吸取长处克服不足

文献分类法以知识分类、概念逻辑建立纵横交错的知识分类体系,在组织知识方面具有一百多年的传统优势,在当代仍有重大优势,不可否认。但其先组式列举,无法跟上时代的步伐:其类目单向线性无法适应概念的多向成族,标识的凝固性与知识体系发展无法适应。分类引擎以事物主题与学科相结合设置类目,其实用性、直接性、灵活性、动态性、多维性、易用性可以供文献分类法吸取。由于分类引擎类目的自然语言性质,使其有上述长处,但不规范、不统一,部分类名不确切,类目没有注释,不能显示其在类目体系中的位置及其内涵、外延范围,类目关系的显示也不清晰,部分类目的归属有着不合理之处,类目的设置也显得没有一定的规律。这些方面,分类引擎应吸取文献分类法的长处。

8.6 专业分类搜索引擎应是专业知识分类组织的重要工具和方式

在各门学科(专业)发展过程中,往往将各门学科(专业)研究内容,按照一定的分类标准划分成特定的分类体系。如生物学中按照界、门、纲、目、科、属、种划分而形成的生物分类体系。这些学科(专业)中的知识分类体系,是各学科(专业)研究人员对科学内容进行深入研究的成果,具有很强的科学认识意义,已为许多专业用户所熟悉和使用,故而编制专业性文献分类法是文献分类法发展的一个趋势。

搜索引擎的一个重要发展趋势是向专业化发展,从专业网站来说,如北大第一医院网站的医疗系统,就与医学专业的知识分类体系区别不大。故此,专业分类引擎应与专业的文献分类法相结合,成为专业知识分类组织的重要工具和方式。

8.7 应对搜索引擎的类目和信息内容加以规范控制

如《网络经济的尴尬》所说,色情、赌博类网站被分析家们称作最成功的网络经济。说明网站的大量膨胀,带来网络信息内容的龙蛇混杂、形式多样、变化频繁、结构复杂,信息污染严重。搜索引擎本来是对网络信息的控制手段方式之一,但搜索引擎的数量不断增长,类目和信息内容庞杂,如雅虎搜索引擎为了利润,在美国本土不设立有色情的类目,但在日本等国外分支网站则设立;又如,雅虎中文就在“雅虎娱乐”设立“星相命理”包括:“趣味占卜、星座运势、东方命理”;“新浪搜索首页>娱乐休闲>星相命理>风水:此目录下有网站19条”等。为减少信息污染,许多国家都使用网络过滤器,如我国的“天网门神”保护青少年不受色情、暴力、邪教和反动网站的毒害,滤掉不良网站。为此,必须对搜索引擎的类目和信息内容加以规范控制,应似设置网络信息过滤器一样对搜索引擎加以规范控制。

标签:;  

四大门户分类引擎系统的初步研究(二)_搜狐论文
下载Doc文档

猜你喜欢