学科网关关键技术研究_搜索引擎论文

学科网关关键技术研究_搜索引擎论文

主题网关关键技术研究,本文主要内容关键词为:网关论文,技术研究论文,关键论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近年来,主题网关的研究和建设在国内外得到了广泛重视,并已发展成为一种网络信息资源组织的重要模式。主题网关在我国一般被称作学科信息门户,英文名称为Subject Information Gateway或Subject Gateway或者Subject Port。它是针对当前搜索引擎的不足,对因特网上某一主题或学科范围的信息,由人工根据一定的选择标准进行搜集和选择,并对所选择信息资源进行描述、标引,通过网络供用户使用。其本质是将特定学科领域的信息资源、工具和服务经过人工集成为一个整体,为用户提供方便的信息检索和服务入口。目前这一类型的网络资源组织服务方式所涉及的资源内容范围既有关于某一学科的,例如英国关于社会科学的SOSIG(Social Science Information Gateway),也有关于某一主题的,例如美国关于教育资源的GEM(the Gateway to Education Materials)。

从某种程度上讲,主题网关的建设过程是传统图书馆文献信息处理过程在网络信息组织领域的再现和模拟——从资源的搜寻与发现开始,到资源的选择与评价,再到资源编目及资源的组织与服务的各个环节,都不同程度地对传统文献信息处理的过程、经验和技术进行了借鉴和模拟,从而达到对网络信息资源进行受控管理和组织利用的目的。

主题网关的建设在国内刚刚起步,但与国外相比,无论资源建设还是提供的服务项目都有一定的差距,研究主题网关在资源建设、检索和服务方面所采取的技术措施,对我国的主题网关建设无疑具有很强的借鉴意义。

1 主题网关资源建设的相关技术

1.1 资源的搜集与选择

主题网关的资源是经过人工参与判断选择的,这是它与搜索引擎的通过机器人程序不加判别地从网上抓取资源最显著的区别。

要建设面向特定专题的主题网关,就必须要对目标主题领域作出明确、规范的界定。目前比较科学合理的做法,是在参考和综合现行的图书分类的学科体系(如《美国国会图书馆分类法》、《杜威十进分类法》等)及相关学科分类标准和规范的基础上,结合该学科或主题领域的研究热点、发展趋势和信息需求特点,给出适合目标主题网关建设的、比较规范的主题领域覆盖范围。

目前主题网关网络信息采集根据一定的资源选择标准,通常采取以下三种方式来进行:

(1)是由图书馆员来完成, 一般通过以下途径获得:①搜索需要定期跟踪的相关领域的其他主题网关;②搜索跟踪相关领域的网络目录;③跟踪综合性门户的相关栏目;④跟踪相关重要国际组织或机构的网站;⑤了解相关主题领域的专家并搜寻他们的个人网站;⑥寻求相关领域专家的推荐;⑦利用搜索引擎。由于每个搜索引擎都有各自的特点和一定的资源覆盖范围,为了查全某一主题范围的资源,需要使用多个搜索引擎。这时使用元搜索引擎也不失为一种简便的办法。

(2)设计一种特定的程序来完成。从因特网海量信息中挑出有关某一专题的高质量的信息资源,对图书馆员或信息工作者来说工作负担很重。针对这一问题,有的主题网关主办者设计了适合自己需要的类似于搜索引擎的程序来实现资源的采集和评价。如美国的INFORMINE利用爬行器来发现、评价、选择资源,在其目前的4万条记录中大约有一半是通过这种方式搜集的,另一半则是由图书馆员专家来完成[1]。

(3)接受用户的推荐。 基本上每一个主题网关的站点上都给用户提供推荐资源站点的机会。访问某一主题网关的用户往往是这个专业的专家,他们推荐的资源一般具有较高的可靠性。

1.2 资源描述和元数据标准的选用

经过选择评价的资源,必须经过资源描述形成一条完整的网上资源著录款目。简单地说就是主题网关资源款目的著录和标引。目前对资源的描述普遍采用一定的元数据标准。

主题网关元数据标准的选择和制定一般遵循标准、开放、易用和可扩展的原则。大多数主题网关采用了Dublin Core(DC)这一元数据标准,但许多主题网关制定了比DC更简明的元数据格式对信息资源进行描述[2]。例如英国的BUBL LINK只有资源的题名、描述、作者、主题、分类、文献类型和网址七个元素。而SOSIG 采用的元数据,与BIB-1(Z39.50标准最主要的属性集)和GILS(the Government Information Locator Service)等多种标准具有良好的相容关系,同时采用资源描述框架(RDF),使它的元数据在进行编码、交换、重用时有了基础。RDF的使用也提供了交换受控词表数据的语法和其他应用及服务,增强了元数据的互操作性,从而便于在跨网关检索时实现互操作和数据共享。中国科学院国家科学数字图书馆(以下简称CSDL)的“资源环境学科信息门户”则是以DC元数据及其限定词(Dublin Core Qualifiers)作为它的内容元数据格式的基础,以AC元数据(AC-Administrative Components Dublin Core DCMI Administrative Metadata)作为它的管理性元数据格式的基础,从中选择适用的元素及其修饰词、编码格式和取值,并对一些元素的语义和范围进行细化处理,最终形成了自己的元数据规范[3]。

目前主题网关资源描述元数据的生成主要依赖人工的方式。随着主题网关的发展,需要开发一定的工具对资源进行初步的加工,通过自动标引,自动生成资源描述元数据。曾经有人呼吁那些大的网站在发布网页时就在网页中嵌套关于该网页的元数据,就像目前图书的在版编目一样,这样将大大提高网络信息发现工具(包括搜索引擎和主题网关)的资源发现能力和效率[4]。但从目前的情况看, 这在实际施行过程中很难做到。

1.3 资源的组织与排序

主题网关对资源采用一定的分类体系进行组织,既是一种资源有序化的方式,也是提供服务的一种形式。而在某一类目内对资源采取排序的方式主要有以下四种:按学科专业排序;按资源名称(题名)的字顺排序;按资源类型排序;混合排序即将资源按学科专业、资源类型、字顺进行混合排序。由于网上资源的独特性,有些资源很难准确详细区分其学科专业和资源类型,因此混合排序最为常用。

目前有的搜索引擎允许用户对检索输出结果按自己的需要进行排序。但主题网关由于目前数据量小,大部分不提供这种功能。

2 主题网关的浏览和检索

大多数主题网关都提供浏览和检索功能,对于浏览和检索一般采用不同的技术来实现。

2.1 通过分类实现浏览

浏览是网络用户查寻信息的基本方式。从主题网关的整个情况看,利用某一个通用的分类法,或根据实际情况自己编制分类法,结合超链接技术组织资源从而向用户提供浏览途径是目前普遍的做法。主题网关的这种分类浏览方式基本上与搜索引擎相似。

以BUBL LINK为例,它采用了杜威十进分类法(DDC),在显示时同时显示分类号和类目名称,用户可以按照DDC的分类体系进行浏览。 同一个资源可以互见到多个不同的类目下,以解决跨专业网络资源的分类显示及查找问题,并提供更多的检索入口。用户在浏览时通过点击,逐层打开目录,在每一子类目及底层类目下都有资源列表,用户可直接打开资源的超链接,也可先查看资源的描述信息后再决定是否打开链接。BUBL LINK除了支持以DC分类体系进行浏览外,还自己设计了一套没有分类号的分类体系,以字顺方式提供给用户浏览[5]。

采用分类浏览的主题网关基本上都采取以上BUBL LINK的办法, 并同时显现出各自的特色。例如美国的综合性主题网关INFORMINE采用LCC(美国国会图书馆分类法法),支持通过LCC和LCSH浏览查询资源。除此之外,INFOMINE还采取了把常用的工具性的资源站点(General Reference)单独显示的办法,如缩略语、统计数字、学会、组织、电话号码等信息的站点被以字顺方式组织在一起显示,方便用户使用。

而美国的另一个主题网关LII没有采用现有的分类法, 而是采用了自编的分类方式供用户浏览。LII采用LCSH对资源进行标引,用户可以通过浏览以字顺排列的LCSH查找与之对应的资源,但这对于不熟悉LCSH的用户而言显然很难做到[6]。

国内CDSL的6个学科信息门户和5个特色门户,以及武汉理工大学图书馆组织的“材料复合新技术信息门户”,均采用了自己的分类系统向用户提供浏览[7,8]。其中的“资源环境学科信息门户”还同时采用DDC作为浏览分类体系[9]。同时,这几个学科信息门户还都提供按资源类型如数据库、软件、机构等进行浏览查看。

分类浏览的方式对那些检索提问不很明确的用户尤其有用,他们可利用这种方式查找资源,逐渐明确信息需求,完善检索策略;且用户通过这种方式有可能“意外发现”自己潜在需要的资源。

通过分类途径浏览时,大多数主题网关都采用大类显示在第一层页面,用户使用时根据自己的需要选择一个大类一级级点开,最后到达所需的资源链接,在层层点击的过程中容易迷失在类目中。欧洲的Renardus项目在这方面进行了一定的创新:(1)在用户浏览的每个页面的上半部分显示了在分类等级体系中的可用类目,包括所有的上位类目和一级下位类目,使用户时刻知道自己所在的类目。(2)用扇形图显示出所选类目周围的所有可用类目。这一功能提供快速主题信息总览,提高了用户浏览速度。(3)用户在浏览时,在所有的浏览页面上(除了顶级层次), 系统提供一个检索框“从新页面开始浏览”,使用户可以任意选择新的浏览页面或者直接开始新的检索而不必返回首页。这样那些比较熟悉分类法结构的用户可以直接进入目标页面,避免了层层翻查[10,11]。

2.2 主题网关实现检索功能采用的技术

随着主题网关内数据逐渐增多,仅仅提供浏览功能显然不能满足用户对信息资源直接定位的需求,这也可以说是由学科或主题导航发展到主题网关的原因之一。因此是否提供主题词检索功能是衡量一个主题网关是否完整的一个重要指标。目前大多数主题网关都提供比较强大的检索功能。基本检索中,可以选择在所有字段或在资源题名、主题、描述等字段中进行检索,在高级检索中支持布尔逻辑、截词检索等比较适合英语语言的检索功能,有的还支持邻近检索。可以说,主题网关的检索技术借鉴使用了联机检索的很多检索技术。

在对检索词的控制和选择上,除了直接使用关键词检索外,大多提供受控词表帮助用户选择合适的检索词。

很多主题网关都提供基于自然语言的关键词检索。用户在主题网关网站页面上的搜索框内根据自己的理解直接键入关键词,或通过高级检索功能组建检索式,就可以实现对主题网关数据库资源的检索。

LII采用LCSH对资源进行标引,除了支持以LCSH标题词进行检索外,考虑到用户经常使用自然语言的关键词进行检索,这就出现了同义词,词的不同拼写、组织的全称与简称等问题,针对这些问题,LII对于每一个资源的描述, 设置了一个关键词字段,资源的主要描述词的同义词、组织的缩写或全称等都尽可能多地放在关键词字段, 以给用户提供更多的检索入口词。 例如类似于英语中的crockpot和crock pot;chicken和poultry;Taliban和Taleban等。

在网络资源组织中采用受控的叙词表,可以规范网络信息标引和检索中的同义词、多义词。同时,叙词表可以改善用户检索词的表达性,用户可以利用叙词表选择合适的检索用词,并利用某一叙词的上下位词实施扩检、缩检或改变检索范围,达到检全、检准的目的。因此在主题网关中普遍采用受控词表。比如说,INFOMINE采用LCSH,SOSIG使用HASSET等叙词表。 这也是主题网关与普通的搜索引擎的另一个主要的区别。

SOSIG采用了三个叙词表作为其主题受控检索语言,对资源进行描述, 并为用户选择检索词提供入口[12,13]。在查看叙词表前,用户要根据检索的主题选择相应的叙词表。检索时,如果用户键入的语词在叙词表中不是规范的叙词,或者叙词表中有多个叙词与之匹配,系统会给出提示,且为用户提供几个相关的语词选项,并显示出该词的上位词、下位词和相关词,以便用户从中选择点击与其信息需求最相关的叙词作为检索词或做进一步的修正浏览。

我国的几个学科信息门户都有较强的检索功能,但目前都还不能提供受控词表帮助用户选择检索词。

3 主题网关的辅助服务

提供浏览和检索是主题网关的基本功能。很多主题网关还通过一些其他手段提供有益于用户的辅助服务项目。

3.1 个性化定制和推送服务

多数主题网关都用Email的形式主动通知用户有关新增资源的情况。 有一些还采用了其他的形式和技术。例如SOSIG可以给个人提供一个信息账户“My Account”,有点类似于很多图书馆主页上的“My Library”,申请注册了“My Account”,用户就可以利用高质量的SOSIG 目录和大量丰富的数据库创建自己的个人信息资源主页,可以获得关于用户专业领域的新增资源站点、学术会议、事件等重要信息的邮件通告服务。用户利用“MyAccount”也可以在Grapevine上发布关于社会科学重要会议和课程的最新详细信息,为其他用户提供及时的各方面的信息。

LII采取两种方式提供信息推送服务,一个是只要用户申请, 就可以每星期以Email的形式通知该用户这一星期新增的资源站点和页面。另外一个是采取了目前最新的RSS技术,用户只须安装它的RSS FEED(信息推送),不必到LII的站点就可以获知其最新信息。

国内的“材料复合新技术信息门户”也采用了RSS技术向用户提供最新信息推送服务。而“资源环境学科信息门户”则允许用户根据自己的需要定义“个人收藏夹”,用户可以根据自己的喜好设定自己的用户界面。

3.2 信息交流平台

SOSIG的Grapevine(葡萄树)是一个供社会科学研究人员、从业者交流有关事件与职业机会等信息的平台,同时给出了由雇主和职业培训者提供的相关的培训和发展机会的信息。它的志趣相投部分(Likeminds)提供了一个关于交流思想和信息的讨论场所,这里有关于学科领域的讨论、事件列表、会议录、大学院系的网址及大学院系设置的课程列表,用户还可以找到与自己志趣相投的朋友。它与SOSIG的My Account结合使用还能在上面发表信息,与同行交流,互动性极高。

3.3 搜索引擎服务

由于主题网关上的资源是经过图书馆员和学科专家严格选择并进行加工的资源,数据成本较高,数据更新速度相对缓慢,数据量一般不大,根据这些主题网关页面的介绍进行的统计,其中几个的数据量详见下表。

国内外6个著名的主题网关的数据量

网关名称 LIIINFOMINE SOSIG

现有数据量(条)

14000 4000050000

网关名称 ISSAC BUBLI LINK

CDSL化学门户

现有数据量(条)

125068 1100010576

由上表可以看出,主题网关搜集的信息量相对于因特网的资源而言只是沧海一粟。为了弥补这一不足,很多主题网关采取在本网站页面上列出常用的普通网络搜索引擎搜索框链接的办法,供用户选用,用户可以直接在选中的搜索引擎的搜索框内输入检索词,避免了再寻找某一搜索引擎的地址的麻烦。像LII和INFOMINE 都采取这种办法。

SOSIG提供的搜索引擎服务称作“社会科学搜索引擎”,是其自行设计的。 它不同于一般的搜索引擎之处在于当用户使用时,它的一个类似于普通网络机器人或爬行器的称作“harvester”的程序只在SOSIG经过专家选择标引的站点内对网页进行搜索,这样在一定程度上保证了所搜到的网页的可靠性,同时也弥补了SOSIG因特网资源目录加工描述只到站点这一级别的缺陷。

4 主题网关解决互操作性采用的技术

目前国外各专业比较有名的主题网关已经有100多个[14],但任何一个网关都只能涵盖某一主题方面的信息源,而现实情况是学科间的联系越来越密切,很多领域的研究趋于全球化,用户为了得到相对全面的网络资源,不得不访问多个主题网关。针对以上问题,出现了一些跨网关项目,像美国的Isaac Network和CrossRoads项目[15],欧盟的Renardus项目等。这就牵扯到主题网关的互操作性问题。网络协议、检索语言、记录语法、元数据格式等都是在实现互操作问题时需要重点考虑的方面。互操作的目标是实现用户对多个主题网关的交叉浏览和交叉检索,提供统一入口的多个主题网关的检索和浏览服务。

在网络协议方面,目前几个跨网关的项目如ISSAC和CrossRoads以及Renardus等主要采取LDAP/WHOIS++协议,为地理上相互分散、规模上不受限制的资源建设和查询服务提供有力保障。

在检索语言方面,Renardus项目在解决跨网关浏览问题上,英国的高层叙词表项目(HILT)在解决跨域检索方面都做了一些尝试。Renardus项目的主题网关有10多个,各主题网关所收集的网络资源涉及农业、工程、地球科学、数学、历史、文学、社会科学等多种学科,所采用的分类体系也各不相同。 为了解决这一问题,Renardus采用了分类法映射的办法,即选择DDC作为统一分类法, 将各个对象网关的分类系统映射到DDC上, 从而将各个网关的局部分类体系及其所含资源内容转换到DDC的相应类目下,再将信息资源按DDC的等级显示出来。而HILT项目则是把DDC作为映射转换中心,把DDC分类号作为主干,在各个受控词表之间映射数据。例如,把DDC的一个分类号映射到UNESCO叙词表中的一个相关联的词,或者把DDC的一个分类号映射到LCSH中的标题词,从而实现各个叙词表之间的互操作[16]。

在元数据格式方面,Renardus采用了以DC为基础包含8个元素的通用元数据模型,并采用Z39.50作为检索协议实现网关之间的互用性[17]。

5 主题网关急需解决的关键技术

主题网关在一定程度上弥补了搜索引擎检索结果冗余度过大、检准率不高的缺点,也方便了用户对网上信息资源的获取。但是,因为目前主题网关主要甚至全部依靠人工使用受控语言进行网络资源的组织,搜集的资源相当有限,在更新与维护上仍要投入很大的人力和财力,这无疑极大地阻碍了主题网关的建设与发展。因此,主题网关要真正成为网络信息的导航工具,必须改变目前因追求高质量而过于依靠人工参与的状况,发展网上资源自动跟踪、自动分类、自动标引和自动文摘技术,采用人机结合方式进行分类标引、主题标引,为用户提供更优质更高效的信息服务。

随着网络信息服务形式的发展,人们对主题网关也提出了更高的要求。北美研究图书馆协会(Association of Research Libraries)高级项目官员Mary E.Jackson描述了她心目中理想的主题网关[18], 其内容核心不单单是网站的描述,而要能够集成各种资源,建立一个无缝链接各地各类资源的环境,包括高质量的数据库检索,网页全文显示,图书馆的各种常规服务(如咨询、馆际互借、全文传递等),为用户提供一站式信息服务。国外有一些主题网关已经朝着这种方向发展。如IPL(Internet Public Library)、MEL(Michigan Electronic Library Best of the Internet Selected by Librarians)、BUBL LINK等都努力向内容存取和呈现发展。在IPL和BUBL上可以检索到开放的数字化的图书目录、期刊目次、文摘、全文等;合法用户可以通过MEL顺利获得一系列本地图书馆的服务[19,20]。国内的“资源环境学科信息门户”在其项目宗旨中提出:“实现资源环境学科专业领域各种文献信息数字资源系统(包括二次文献数据库、全文数据库、联合目录、馆藏目录、馆际互借和全文传递等相关服务系统)的横向整合,逐步实现同构和异构数据库的统一检索服务。逐步实现不同文献类型数据库和不同信息服务系统间按照用户信息检索或利用流程开放地无缝连接,形成系统的有机联系的多层次文献信息资源使用体系。”无疑也是要达到上述目标的宣言[21]。当然要完全实现主题网关与本地图书馆资源的无缝式存取还需要很多新技术的应用和开发,还需要相关从业者的进一步努力。

标签:;  ;  ;  ;  ;  ;  

学科网关关键技术研究_搜索引擎论文
下载Doc文档

猜你喜欢