OCLC搜索系统国际化的研究与实现_unicode论文

OCLC SiteSearch系统国际化的研究和实现,本文主要内容关键词为:系统论文,OCLC论文,SiteSearch论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250.76 TP391

1 前言

“联机计算机图书馆中心”OCLC (Online Computer Library Center)是一个非营利性的、拥有众多成员、提供计算机化图书馆服务的机构,旨在帮助大学、学院应付“情报爆炸”,降低费用开支,提高服务质量,最终实现资源共享。经过30多年的不断创新、进取,OCLC不仅从一个地区的网络发展为一个州际的网络,而今已发展为世界上规模最大的图书馆自动化网络。

OCLC SiteSearch是一套用来管理WWW环境下的分布式图书馆信息资源的软件。它提供了在统一的Web界面下集成电子资源的工具,图书馆可以用它来建立电子化馆藏,存取全球资源,并将本地资源提供给全世界的用户。它的主要特点是在一定程度上很好地解决了数字图书馆建设中的互操作问题,实现了跨库查询和跨馆查询,并且支持Z39.50协议;除此之外,SiteSearch系统允许图书馆工作人员基于用户需求来对用户界面进行定制和设计,并将用户需求应用于本地数据库的建立、选择和存取。

迄今为止,世界上已经有70多个图书馆将SiteSearch用于本馆的数字图书馆的建设,如:马里兰大学的数字图书馆系统MdUSA;印第安纳大学的CIC(Committee on Institutional Cooperation)系统(采用SiteSearch 集成了12所大学的电子资源);纽约州立大学的SUNY Utica/Rome Library Catalog系统等。SiteSearch以其灵活的定制机制和强大的集成工具,在世界各地的大学图书馆得到了较为广泛的应用。但目前,这些应用还仅限于使用拉丁语的国家和地区,因为SiteSearch系统最早设计和应用时没有考虑非拉丁语国家。随着因特网的飞速发展,发展跨国和跨地区的图书馆信息资源共享服务已经成为一个必然趋势。为了发展SiteSearch系统在非拉丁语国家的应用,OCLC着手对SiteSearch系统进行改造,以适应对多国语言资料的处理,满足非拉丁语国家的应用需求。为此目的,OCLC与清华大学图书馆合作,从解决中文问题入手,开展SiteSearch国际化的研究。本文以SiteSearch 4.20版本为例对系统进行介绍,并说明系统进行国际化时的主要问题和解决方法。

2 SiteSearch系统介绍

SiteSearch系统采用纯Java的实现方案,具有很好的跨平台性,可以方便地在现有的主流操作系统上安装运行;整个系统的设计也继承了Java语言面向对象的特性,各模块之间相对独立,并提供了良好的接口用于系统的定制和扩展。

SiteSearch系统包括如下3个主要模块:

WebZ模块:WebZ给图书馆的电子资源提供了一个通过Web 访问的界面,并且集成了对本地和远程资源的访问;

Database Builder模块:主要功能是提供一组工具完成对本地数据库的管理;

Record Builder模块:主要功能是提供一个供编目人员使用的对本地数据记录进行维护的工具。

系统的主要结构和处理流程如图1所示:

图1 SiteSearch结构和主要处理流程

2.1 WebZ模块介绍

WebZ的主要功能是通过WWW集成和控制本地和远程Z39.50 数据库的访问。WebZ提供了一个基于WWW的代理网关, 提供统一的用户界面访问分散在世界各地的电子资源,通过WebZ还可以访问SiteSearch系统中使用其它工具建立的本地资源。总的来说,WebZ具有如下功能:

(1)提供了对可访问的Z39.50资源的单一访问点, 包括图书馆目录、本地特色库、远程数据库服务。

(2)通过一个统一的界面访问各种资源, 避免了对多种界面和命令的学习过程,节约了用户的时间。

(3)可以定制用户界面,满足了不同用户群组的不同需求。

(4)根据用户的不同身份认证提供不同级别的访问权限, 进而按照用户需要提供所需的资源。

(5 )在现有系统的硬件和资源环境下将资源集成到一个复杂的分布式的计算环境下。

(6)通过无中介的馆际互借、 文献传递和联机全文显示提供给用户对所需资源的直接访问。

2.2 Database Builder模块介绍

Database Builder是一个用于创建和维护本地资源的软件集合。具有如下功能:

(1)建立数据库索引。 可以控制对用户和数据有意义的索引和访问点。

(2)集成本地数据库。可以在本地集成各种类型的数据, 包括全文、摘要、索引和图像。

(3)强大的查询能力。提供全面的查询能力, 包括关键字和短语查询、布尔运算和通配符等。

(4)强大的查询功能。提供一个全面的查询界面, 包括查询历史、记录书签、数据导出和浏览等。

2.3 Record Builder模块介绍

Record Builder是一个包含在Database Builder管理工具中、基于WebZ技术的终端用户应用程序,用来创建、修改和维护本地Newton数据库中的图像、声音文件、Web站点和其它数据。通过它自己的预定义Web界面,Record Builder提供了一个可以让编目员使用预定义模板和工作单,在线添加、修改和删除单个记录的方法。Record Builder是SiteSearch中对本地数据库进行联机单个记录修改的工具,Database Builder则是对本地数据库进行脱机批处理的工具。

3 系统国际化的关键问题和解决方案

一般来说,对西文系统进行本地化或者国际化时要考虑的主要问题包括:系统内码体系的选择和字符集平台的国际化处理、数据存储形式的设计和处理、非拉丁文字的检索机制的建立和实现、系统界面、手册和联机帮助文件的翻译等。下面从数据存储、数据检索和用户界面三个方面介绍对SiteSearch 4.20版本进行国际化时的处理方法。

3.1 数据存储

考虑到系统的移植和推广应用,SiteSearch系统采用了纯Java的实现方案,由于Java语言设计时考虑了应用程序的国际化需求,采用Unicode编码统一表示各类语言文字。Unicode是一种重要的交互和显示的通用字符编码标准,它不仅可以用来处理事实上已经存在于地球上的任何语言文字,而且提供了一个全面的数学与技术符号集,可以简化多语言处理和科学信息交换。从系统的内码体系和字符集平台的选择看,SiteSearch系统可以满足国际化应用的需求。

SiteSearch系统的本地数据是通过Database Builder和Record Builder工具存储到本地数据库中的,为了支持国际化的需要, 数据库中的数据存储的编码形式也必须选择一个通用的标准。SiteSearch中使用的数据库有两种类型:Newton数据库和Pears数据库。Newton数据库是SiteSearch系统早期使用的数据库,数据存储未采用Unicode编码,只能处理拉丁字符,不能满足处理多种文字的国际化需要;而Pears 数据库中完全采用Unicode编码存储数据,可以支持拉丁字符、非拉丁字符以及特殊的技术符号等字符的处理,完全支持国际化应用的需要。因此,在配置SiteSearch的底层数据库时,为适应国际化的需要,必须选择Pears数据库作为存储本地数据的数据库,而不能选择Newton数据库。

目前,SiteSearch 中用于直接操作本地数据库的工具有Database Builder和Record Builder,分别用于脱机的批处理数据和联机的单条纪录的处理。Database Builder既可以操作Pears数据库,也可以操作Newton数据库,数据库的选择可以通过配置文件来设置。Record Builder工具目前只能处理Newton 数据库,通过前面的分析,为了使Record Builder能够处理多种语言文字的纪录,底层数据库也必须改用Pears数据库。对Record Builder替换底层数据库时,要预先使用Database Builder建立一个Pears数据库框架,然后通过修改数据库和服务器配置文件将已建立的Pears数据库同Record Builder的操作接口联系起来。经过这样的修改之后,Record Builder就可以以Web 界面方便地提供给编目人员编辑各种语言文字的记录了。

3.2 数据检索

(1)数据库索引的建立 Newton 数据库由于底层数据存储不支持Unicode,所以建立索引时不能处理非Latin字符和一些特殊的技术符号,也不能处理非Latin语言资料的检索, 满足不了作为一个信息检索系统的最基本要求。Pears数据库内置支持Unicode,对各种语言的资料都能够用Unicode码正确建立索引,也能够正确处理多语言资料的检索。 从正确建立索引这方面讲,本地数据库采用Pears数据库, 可以较好地解决多种文字统一处理索引的问题。

(2)索引机制

由于中英文在语言结构上存在的差异导致了对这两种类型的语言资料建立索引时采用机制的差异。英文以词为单位建立索引,词与词之间有空格可以区分;而中文以字为最小单位,其基本语义单位(或称词素)之间没有明显的间隔,也就是说汉语词的集合与汉语字的集合构成一种交叉关系,一个词可以就是一个字,也可以由两个或多个字组成。在分词的实现上,英语以空格为词界,汉语则没有明显的分界符来标定词界。目前,SiteSearch中对英文按照词建立索引,对中文和其它语言结构相似的语言采用字索引。字索引带来的问题是保证了查询结果的完备性,但是准确度不高。Pears 数据库在设计时已经考虑到了国际化的需求,对索引的建立采用了非常灵活的机制,有专门的Java类负责定制索引的建立,我们可以对这些特定的类进行扩展,加入适当的分词模块,实现按词索引的机制。

(3)查询请求的表示

查询请求串的表示应该与数据库的索引表示一致,能够处理多种语言文字。SiteSearch系统采用纯Java实现, Java语言处理字符数据时统一采用Unicode码表示, 保证了与数据库索引字段的一致性,同时由于Unicode的先天优势, 可以统一表示大多数当前世界各个国家的语言,而不必考虑不同语言之间的编码转换。同时SiteSearch系统中对查询请求串的规整采用与数据库索引一致的处理方法,可以利用索引建立的规则来对查询串进行规整,提高查询的灵活性和准确度。

3.3 用户界面

SiteSearch的用户查询界面通过浏览器与用户交互,当前流行的浏览器(Microsoft Internet Explorer 4.x以上,Netscape 4.x以上,Opera 5.x以上)普遍支持UTF-8方式的Unicode编码。在客户端,浏览器可以自动将用户输入的查询语句以UTF-8编码方式发送给服务器。

客户端的页面采用UTF-8的编码方式,针对不同国家和地区使用的不同字符集,服务器端无需再对查询字符串做额外的编码转换工作。同样查询结果的显示界面也采用UTF-8编码方式,在服务器生成结果页面的时候,就可以避免针对不同国家编码方式对程序进行的额外的扩展开发。具体来说,采用UTF-8的统一编码方式,用户界面设置成中文,当系统从面向中国大陆地区服务转向面向台湾、香港、新加坡、日本等地区服务时,无需对程序作任何的修改,甚至也无需对界面配置文件做任何修改。在这些地区的用户通过他们的浏览器就可以看到正确的页面内容,这一切都得益于采用了UTF-8编码的Unicode的缘故。反之, 如果在客户端查询输入界面不采用UTF-8统一编码,而采用针对某个国家或地区的独特编码处理,例如:GB2312或BIG5编码,那么当系统服务所针对的地区发生变化,就不仅需要对用户界面的配置文件进行翻译,还需要对程序代码进行移植。

在用户界面中采用UTF-8编码是为了使SiteSearch系统成为一个真正的I18n(Internationalization)的系统,当一个I18n系统在使用不同字符集的不同国家或地区使用时,仅仅需要完成I10n(localization)的工作,即界面配置文件的翻译工作,而不需要将整个系统移植到相应的本地字符集环境中,降低了系统实现的复杂度,从而提高了程序的灵活性、适应性和可维护性。

4 结语

SiteSearch系统按照目前的方案进行设计和实现,不但可以解决目前在中国大陆地区的应用问题,而且将方便地推广应用到其它亚太国家和地区。在对SiteSearch系统本地化和汉化的过程中,我们体会到,构建一个国际化的系统,有这样几点经验值得借鉴:

(1)系统内码体系和字符集的选择要按照国际标准来制订, 选择Unicode这种通用的字符编码标准作为系统实现的基本编码技术, 可以使系统具备处理各种语言文字的能力。

(2 )系统设计和实现时采用的技术应该具有跨平台(包括操作系统平台和本地语言环境)的特点,SiteSearch系统采用Java语言及相关技术作为系统实现的基本技术,由于Java技术本身的跨平台特点,使得在此技术基础上构建的系统具备了扩展为国际化应用的能力。

(3)作为一个国际化的应用系统,当应用环境发生改变时, 用户只需要对本地配置文件进行修改,而不应该对代码进行移植。SiteSearch系统与用户交互的部分统一采用UTF-8编码处理,使得系统的客户端可以不加修改地适用于各个国家和地区,在服务器端也仅需要对系统配置文件进行本地翻译,而无需对程序代码进行修改。

标签:;  ;  ;  ;  ;  ;  ;  

OCLC搜索系统国际化的研究与实现_unicode论文
下载Doc文档

猜你喜欢