中国古籍数字化的成就与挑战_金文论文

中国古籍数字化的成就与挑战_金文论文

中文古籍数字化的成就与挑战,本文主要内容关键词为:古籍论文,中文论文,成就论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G255 文献标识码:A 文章编号:1001-0238(2004)04-0100-04

我国古籍种类繁多,数量庞大。除纸质的古籍(以下简称常规古籍)外,还有甲骨文、 金文、陶文、竹简、帛书、石刻、砖文、印章、题记(以下简称特殊古籍)等。据不完全 统计,公共图书馆系统收藏的纸质古籍善本即有220万册左右,普通的纸质古籍约2640 万册[1]。至于特殊古籍,仅甲骨文一项,即有大小刻辞卜骨10余万片[2]。利用古籍, 并使这些凝结着古代人民心血和智慧的宝贵精神财富世代相传,是图书馆工作者的一项 重要任务。

过去很长时间内,学术界主要通过两方面的工作来解决这一问题。一是组织人员编制 书目、索引、撰写提要类工具书。如王重民编撰的《中国善本书目提要》、杭州大学图 书馆编印的《中国历代人物年谱集目》,南京大学图书馆历史系资料室编的《中国丛书 目录及子目索引汇编》等。1993年正式启动的《中国古籍总目》工程更是使古籍编目达 到高潮。二是直接复制或影印出版现有古籍。或选择历代较好的点校本,如中华书局影 印的院刻本《十三经注疏》等;或直接组织当代学者整理,如张宗祥精审校订的《洛阳 伽蓝记》、《三辅黄图》。古籍整理和出版受到了1981年我国政府发布的《关于整理我 国古籍的指示》的直接推动。据有学者统计,仅20世纪末的最后10年间,我国即整理出 版了3500余种古籍[3]。除此之外,许多图书馆还仿照国外同行的做法,采用缩微与影 印的方式来保存古籍。文化部1985年成立了全国图书馆文献微缩复制中心,缩微与影印 了大量的古籍文献。

上述办法对提高古籍的查询效率和保护古籍起到了重要作用。然而正如有学者指出的 ,“我国的古文献浩如烟海,依靠影印出版,犹如杯水车薪。而制作缩微胶卷,其阅读 、抄录又有着诸多不便”[4]。另一方面,手工编制索引则费时费力,且局限颇多。而 且不同的查询目的需要编制不同的索引。因此上述办法并不能满足保护和利用古籍的需 要。

随着计算机技术的高速发展,一种新的古籍保存方式应运而生。这一新方式即古籍的 数字化。古籍数字化,就是将古籍的载体形式(包括文字与图像)转换为可以用计算机或 计算机网络处理的数据,制成电子图书,以达到存储、检索、传递、再现,最终广泛为 社会所用的目的。电子图书“体积小、容量大、检索快、不失真”[4],它通过文献数 字化改变了文献的集合形态和使用方式。用现代手段整理、开发、保存古籍文献,是古 籍发展的趋势,亦是古籍整理、开发、保存的唯一出路。本文简要回顾中文古籍数字化 的过程与成果,并就当前的数字化产品,对某些特殊古籍的数字化产品提出点滴建议。

一、中文古籍数字化的简要历史与辉煌成就

古籍数字化与计算机汉字信息处理技术的发展密切相关。1958年我国诞生第一台电子 计算机后不久,即有学者尝试用计算机进行俄汉翻译。1969年,我国开始在电报业务中 使用汉字电报译码。70年代中后期,较大规模的集成电路在我国发展起来。80年代以后 ,我国在精密型汉字编排系统、汉字情报检索系统及汉字终端设备三方面都取得较大成 就,在技术指标、可靠性、实用性、经济价值等指标上都有明显提高。与此同时,汉字 数字化的规范协作标准方面也取得进展,诞生了标准的GB2312-80汉字字符集。1996年3 月,国家又正式颁布了有20902个汉字的国际标准字符集ISO10646,为汉字文献的数字 化打下了初步基础。计算机图像处理技术至80年代也日渐成熟,图像压缩编码也出现了 国际标准(JPEG)。这对“复制”古籍的载体形式极为关键。除此之外,计算机的存储技 术也有了很大改善。计算机技术的发展,使图书数字化成为现实,同时揭开了古籍数字 化的序幕。

从数字化产品的技术含量和规模看,中文古籍数字化工作似可以20世纪末推向社会的 一系列产品为分水岭,分为前后两大阶段。

前一阶段始自20世纪80年代初,包括90年代的绝大部分时间。作为这一阶段的一个显 著特点,是台湾学术界古籍数字化工作明显突前。总的说来,从事古籍数字化工作的机 构比较分散,开发者往往采用区域性的汉字编码标准,造成了“跨平台”阅读的困难。 这一时期的产品基本上都属中小规模,没有一次性过亿字数的产品。另一方面,该时期 不少产品的检索功能不足,如下面提到的台湾汉籍全文资料库即没有复合检索。

大陆地区早期最有影响的古籍数字化工作是王昆仑先生于20世纪80年代初完成《红楼 梦》及“红楼梦检索系统”[4]。此后越来越多的学者和机构加入到古籍数字化行列。 如中国社会科学院文学研究所将唐诗全文录入电脑并研制了“唐诗全文检索系统”。上 海图书馆则从其收藏的170余万册古文献中,选择17万册古籍善本作为重点,于20世纪9 0年代中后期实施了大规模的古籍数字化工程[4]。大陆地区的网络数字化产品首推北京 超星公司主持的“超星图书馆”。该网站录入了包括《古今图书集成》、《二十五史》 、《资治通鉴》、《清实录》、《中国古典名著大系》等大量古籍。其它属20世纪90年 代后期推出的数字化产品主要是一些比较流行的古籍。如中国社会科学院文献情报中心 开发的《十三经》、《诸子集成》;由青苹果数据中心制作、北京电子出版物出版中心 出版的《中国古典名著百部》(收录有《诗经》、《三国志》、《红楼梦》等)。

台湾地区的早期古籍数字化产品有台湾“中央图书馆”开发的《二十五史全文检索系 统》、《中央研究院历史语言研究所数据库》等。但影响最大的首推中研院于20世纪90 年代开发的“汉籍全文资料库”。该资料库收录了包括《二十五史》、《十三经》、《 古籍十三种》等文献在内的文史资料,达到合计3400余万字的规模。该资料库后以中央 研究院汉籍电子文献(又称瀚典全文检索系统)在网络上发行(http://www.sinica.edu.

tw/ftms-bin/ftmsw3),成为目前网络中资料整理最为严谨的中文古籍全文数据库。其 规模以每年至少1000万字的速度增长。但遗憾的是,该资料库的程序内核开发较早,不 支持复合检索。此外,由于资料库完成时间先后不同,在目录结构上缺乏有效整合,网 页枝蔓众多,许多重要的资料库被隐没在层层页面之下,检索不易[5]。台湾方面开发 的故宫寒泉检索系统(http://libnt.npm.gov.tw/s25/index.htm)是另一个比较重要的 古籍数字化资源。该系统由陈郁夫先生主持开发,内容包括《十三经》、《二十五史》 、《先秦诸子》、《四库总目》、《资治通鉴》等。规模无法与汉籍资料库相比,但支 持复合查询,对文史研究者较为实用。其它有影响的产品还有台大中华电子佛典线上藏 经阁大正藏全文检索(http://ccbs.ntu.edu.tw/cbeta/result/search.htm)系统提供的 佛学资料和台湾元智大学“网络展书读”中华典籍网络中心(http://cls.admin.yzu.

edu.tw/...)提供的一部分以古典文学资料为主要特色的古籍,包括《诗经》、《全唐 诗》、《唐宋词》、《红楼梦》等。

香港中文大学汉达古文献资料库中心(http://www.ahant.org/info/intro.asp)在该阶 段也做了许多重要工作。如该中心1992年完成了《先秦两汉传世文献资料库》。1996年 又完成了《武威汉简》、《睡虎地秦墓竹简》、《敦煌汉简》等。

对于中文古籍数字化工作来说,20世纪末的确具有重要的意义。随着研发者向社会推 出一系列具有划时代意义的产品,中文古籍数字化工作进入一个新的阶段。大陆和香港 在研发方面已经赶上台湾。其特点是数字化产品技术含量提高。先进的研发者实现了工 程扫描录入、高质量光学识别和自动转码以及高效无纸校对。产品的检索功能更是大为 增强。一些研发者通过采用国际汉字编码标准并借助在电子出版物中嵌入汉字关联引擎 ,实现了数字产品的跨国界、跨语言,跨平台阅读和检索。特别重要的是,这一时期不 仅出现了数亿字的产品,而且出现了甲骨文、金文这样数字化难度极大的特殊古籍电子 产品。

属于该阶段的代表性古籍数字化成果举不胜举。以港、台两地的产品为例,除20世纪9 0年代研发的各种数字化古籍外,又出现了众多的规模不同、预设读者不同的电子古籍 产品。其研发范围已从传世纸质古籍扩展到考古发掘产生的新古籍。如由台湾中央研究 院史语所文物图像资料室开发的简帛金石资料库(http://saturn.ihp.sinica.edu.tw/

wenwu/search.htm)。该资料库收集了大陆、台湾和日本的40余种资料,包括已经整理 出版的先秦至魏晋的简牍、帛书、碑刻、官印、镜铭等,还收录了相关的书目、索引, 总字数达3401684字,既包括《睡虎地秦墓竹简》、《居延汉简甲乙编》、《居延新简 》、《敦煌汉简》等大型报告,也包括了近年来散见于各种文物考古刊物中有关新出土 的张家山汉简、尹湾汉简的部分释文。该资料库可进行复合检索,输出方式包括释文、 编号、所在图书页码等。又如台湾中央研究院历史语言研究所开发的内阁大库档案检索 (http://saturn.ihp.sinica.edu.tw/% 7Emct/newpagel.htm)中国考古学资料库(http://euler2.sinica.edu.tw:8080/ookey/arkia.html)、

汉代墓葬与文化资料库(http://www.sinica.edu.tw/hantomb/d-index.html)等。另外还有台湾汉学研究中心开发的敦 煌学研究论著目录检索(http:/ccs.ncl.edu.tw/topic-3.html)等。香港中文大学则开 发了郭店楚简论著检索(http://decapps.lib.cuhk.edu.hk/cgi/nph--bwcgis/BASIS/bamref/producer/refsview/SF?)。

大陆方面较有影响的则有北京大学中国基本古籍库工作委员会和北京爱知生文化交流 有限公司、安徽黄山书社联手推出的基本古籍库。该库含历代典籍10000余种,各类善 本15000余个,并提供多种便捷的检索方法。

然而,最具有代表性的成果当有四项:即恢宏巨制《文渊阁四库全书》、《四部丛刊 》以及筚路蓝缕之作《甲骨文全文电脑化资料库》和《金文全文电脑化资料库》。

1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《 文渊阁四库全书》电子版及继之推出的《四部丛刊》电子版,无论从规模上还是从技术 上说,均是史无前例的。仅一部《四库全书》即达7亿汉字。该产品使用ISO/IEC10646- Unicode/CJK进行统一编码汉字,借助电子出版物中嵌入的汉字关联引擎,在实现全文 检索的同时,向读者提供可选择的异体、通假、简繁、正讹、新旧、古今、形近等关联 功能,大大提高了检索命中率。产品还保留了原文图像的原文页面,解决了过去一些读 者担心的看不到原文效果的问题[4]。由于Unicode使得一套数据软件适用于多文种视窗 环境,“既降低了开发成本,也让更多的读者能够在他们自己的母语视窗平台上分享数 字化遗产”[6]。

香港中文大学汉达古文献资料库中心自1996年起开始实施甲骨文全文电脑化资料库计 划,现已开发完毕。该资料库收录卜辞53834片,将约100万字的卜辞输入电脑,建立了 以甲骨文字形为系统的,并具有检索功能的甲骨文资料库。特别重要的是,资料除按“ 释文单字检索”、“释文词语检索(按次序和不按次序)”外,还可运用甲骨文字形表进 行“甲骨字检索”查寻。在视窗上可同时显示甲骨文字原字形及隶定释文。设有收录所 有甲骨文字的字形总表,每字下附有释文、隶定字。工作平台是中英文界面,查询结果 还提供甲骨文字出现字数频率数据,为读者提供了很大方便(http://www.ahant.org/info/demo-ji-aguwen.asp)。

自1999年起,香港中文大学再获香港政府研究资助局拨款资助,开始着手金文全文电 脑化资料库计划。其主要资料来源于中国社会科学院考古所编著的《殷周金文集成》, 总计收录12021件铜器上的铭文,14万字隶定释文和另约100万字器物资料说明。检索表 根据金文的字形特点进行,分设汉字部首和原形部首方法。视窗上可出现金文原形字和 释文点击对应显示。备有每件铜器如时代、出土、现藏、著录等资料说明和注释。并附 设有金文器铭字数频率数据(http://www.ahant.org/info/default-ji-aguwen.asp)。

从规模上说,甲骨文和金文全文资料库远不能与《四库全书》等大型产品相比,但由 于甲骨文和金文字型、字体以及文字载体的特殊性,能够开发出这样的产品已属不易。 这两个资料库的建立标志着学术界在特殊古籍数字化方面取得了重大进展。

二、近前古籍数字化工作面临的若干挑战

越过了《四库全书》和《四部丛刊》的高峰,中文古籍数字化进入了一个全新平台[7] 。20世纪90年代后期一些图书界人士的主要担忧随着技术的发展都已不复存在。如一部 分人希望的在原文图像背景下进行阅读和查寻已成为现实。《四库全书》即保留了原文 图像的原文页面。又如繁体字、异体字查寻由于汉字关联引擎嵌入检索系统,也变得轻 而易举。然而随着古籍数字化向纵深发展和用户要求的提高,新的挑战又摆在面前。现 择要者简述如下:

1.特殊古籍的检索系统需要开发特定的原字检索技术

普通的电子古籍通常都是通过输入现代汉字(包括中文简、繁体汉字和日、韩汉字)进 行查寻。原字输入查寻的意义不大。但特殊古籍则不同。特殊古籍如甲骨文、金文等存 在古汉字隶定的问题。读者往往希望通过直接输入原形汉字进行查寻。早期汉字是无法 通过拼音方式输入的。目前香港中文大学开发的甲骨文全文电脑化资料库虽然在提供“ 释文单字检索”和“释文词语检索”的同时还提供了“甲骨字检索”,但其甲骨字原字 输入是通过查甲骨字型表的方式来实现的。而据统计,现有甲骨单字总数已达5000个, 且绝大部分字都有数种写法。这样一来,查字型表本身也变成一项不容易的工作。利用 汉字结构和汉字关联引擎中“正讹关联”的方式开发出新的检索技术,或不失为一个方 向。

2.可否开发出针对特殊古籍的新的录入技术

普通纸质古籍通常不会增加。但特殊古籍如甲骨文、金文、简牍、石刻等随着考古发 掘会有所增加,有时会大量增加。如最近发现的里约秦简,一次性增加了大量文献。

现行版甲骨文、金文的电子版中录入的资源均取材于已经问世的纸质出版物。在文物 保护条件许可的情况下,能否实现从甲骨、青铜器或其它原始载体上直接录入,从而使 特殊古籍的电子版先于普通版出版?

3.特殊古籍的文字环境能否一并录入

古籍中的纸质品的文字环境基本是不变的。如《四库全书》和《四部丛刊》收录的古 籍,尽管有版本的不同,但载体的材质、尺寸基本一致。因此电子版本中体现文字环境 相对容易。如《四库全书》通过保留原文页面基本实现了这一点。特殊古籍则不同。第 一,这类古籍的载体不仅质料多种多样,即便是同一种质料,形状、尺寸也常常有很大 区别。如甲骨文载体,有的是长达20厘米以上的整版龟甲,有的则是3-4厘米的破碎甲 骨[2]。第二,这些古籍多不成册,大都以单篇形式存在。如1件铜器上通常只有一篇铭 文。各器上铭文的字数又相去甚远。第三,出自数千年前不同作者之手“刀笔文字”, 包括甲骨文、金文在内,字体本身具有重要科研价值和艺术价值(如甲骨字体本身即是 考古学者据以断代分期的十大标准之一)。第四,特殊古籍的载体通常属考古发掘品, 除文字本身外,发掘品的出土情况也包含有极为丰富的信息。特别是对还不能完全识读 的“古籍”,如部分甲骨卜辞和金文,载体的背景信息可能更为关键。举例来说,金文 中的所谓“复合氏铭文”,过去只是将信将疑地解释为“族徽”[8]。我们相信只有将 “复合氏铭文”连同其载体(青铜器)一并放在其所在墓葬和墓地中一并“阅读”,才可 能真正“读”懂这些古老文字。在这里,墓葬与青铜器一样,都是古籍数字化时需要考 虑的文字载体。因而,高水平的特殊古籍电子产品应能够充分记录古籍的文字环境。

4.电子出版物与数字化图书馆

网络互联和数字化技术的发展,已经有条件使公众跨时空、跨地域、跨系统平台,迅 速获取网上众多图书馆和各类信息中心的信息。读者最终需要的可能是全文、动静态声 音、影像等。这就迫切需要建设数字化图书馆。

当前的数字化工作已经对数字图书馆的建立引起足够重视。如《四库全书》使用了各 种知识工具与正文主体挂接,以及与相关网站挂接的设计。特别可喜的是,开发《四部 丛刊》的书同文公司又承担了中山大学发起的两岸四地共建“孙中山数字图书馆”技术 平台的研制任务,并已取得许多重要技术进展。最近媒体报道,清华同方光盘股份有限 公司已开发出数字图书馆建设与管理系统“清华同方数字图书馆平台TPT(4.0)”,据说 是一套成熟的数字图书馆建设与管理系统。其中的“数字资源采集系统”可从网上信息 中筛选出有用资源,“数字资源加工系统”可把各种印刷品加工成数字资源,并进行分 类组织。此外还开发了“数字参考咨询系统”和“个人数字图书馆系统”。这些功能结 合起来,可帮助机构和个人以自动或半自动化方式搜集、共享和发布知识资源,创造出 个性化的图书馆或知识信息库。

5.数字化古籍产品的商业化与应用普及

古籍的数字化开发取得了重大进展,但各类电子产品和网络产品的开发利用似相对滞 后。因此中文古籍数字化可能还存在一个数字古籍应用知识普及的问题。应用普及与电 子产品商业化是相辅相成的。这方面还有很多工作要做。

收稿日期:2003-08-11

标签:;  ;  ;  ;  ;  ;  ;  

中国古籍数字化的成就与挑战_金文论文
下载Doc文档

猜你喜欢