中研院中华人民共和国全文数据库_台湾中央研究院论文

中研院中华人民共和国全文数据库_台湾中央研究院论文

台湾中央研究院汉籍全文资料库,本文主要内容关键词为:中央研究院论文,台湾论文,资料库论文,全文论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中国是世界文明古国,历史悠久,传世典籍数量众多,学界经常用汗牛充栋、浩如烟海予以形容。古籍作为中华文化的主要载体,对其进行整理研究是历代学者义不容辞的历史使命。然而面对如此浩繁的典籍,学人每每有难得涯津之叹。当今计算机技术的发展,为古籍的储存、检索、整理提供了全新的方式和极大的便利,前人的感叹正在变为今人的欣喜。古籍转变为电子媒体,凭借其优越的性质,日益成为促进学术发展的便利工具。在中文古籍电子化的历程中,台湾中央研究院可谓是先行者,其“汉籍全文资料库”是迄今最具规模的中文古籍资料库。

“汉籍全文资料库计划”发端于1984年,原名“史籍自动化计划”,当时是台湾中央研究院史语所和资讯所的研究人员合作,尝试将历代正史中的《食货志》输入电脑,制成数据库。1986年开始,工作扩大到《二十五史》的全部,1990年《二十五史》全文资料库最终完成。此后,资料库规模不断扩大,十三经注疏、先秦两汉诸子、佛藏、唐以前史籍文献、台湾方志档案等陆续加入。根据最新网上资料,“汉籍全文资料库”已经涵盖唐代以前绝大部分传世文献,总字数达到一亿三千八百万字(具体内容见表1)。目前该资料库正以每年一千多万字的速度递增,开发中的古籍全文总字数达一亿一千六百万字(具体内容见表2), 重点是宋代以后的文献。参加资料库建设的单位主要有台湾中央研究院史语所、台史所、资讯所、近史所和文哲所,另外还通过与其它学术机构发展合作关系共享古籍资料,资料库中总数达三千一百多万字的“古汉语语料库”,就容纳了上述单位以外的中央研究院语言所、中山大学、中正大学、美国斯坦福大学等提供的古籍数据资料。中央研究院还专门成立了“汉籍电子文献协调委员会”,负责整个汉籍全文资料库的组织协调。该委员会定期举行各方会议,解决资料库建设过程中遇到的各类问题。在其近期的会议中,拟议实施“新四库全书电子资料库”工程,逐步将主要传世典籍转变为电子媒体,纳入其中。

“汉籍全文资料库”是台湾有关学术机构通力合作的结晶,众多工作人员为此投入了无数的心血和时间。整个资料库的建设,包括录入、校对、标志和测试等环节,首先是找不同的单位将原始资料分别录入,然后用电脑程序将两份资料进行比对校改,由于两位录入员在相同位置犯相同错误的机会很小,故初校即可过滤大部分的错误,但为了保证资料的精确,还要进行人工二校、三校、四校,才最后完成资料登录工作。标志和测试环节则主要由专业人员负责,根据共同的程式浏览资料,进行标志。古籍中的大量生僻字历来被认为是古籍电子化的一大障碍,汉籍全文资料库包含的新字将近一万字,远远超出了Big5码造字空间的容量,其解决办法是划分公用区和专属区,新字经过字频统计后,选择使用次数较高者,列入公用区供整个资料库使用,目前已造4555字;其它的字归入不同的专属区,针对不同的资料所用。完成资料登录、标志,解决造字问题,只是资料库建设的基础工程,作为一个好的电脑资料库,还必须具有完善的软件技术支持,提供快捷方便的多角度检索。汉籍全文资料库在这方面应该说相当出色,它使用的软件工具是中研院自主开发的一个全文式资料管理系统(Data Base Management System,DBMS),最初称“中文全文检索系统”(简称CTP),此后屡经改版, 增加功能,现在的名称是“瀚典全文检索系统”,取典籍丰富浩瀚之意,最新版本是1997年11月推出的1.3版。该检索系统提供检索、 阅读两个主要功能,它通过层级式的(hierarchical)目录来对应书本的章节、段落等结构,使用者可以据其调阅正文,或确定检索的范围。系统同时保留原书的页码和行次,用于调阅正文,或是提示检索词的出处,方便使用者参照书本。正文具备横、竖两种显示方式,编排格式尽可能呼应原书,而且能够区分正文、注文等不同类型的文字。表格显示和检索排版比较复杂的问题,也已陆续解决。系统的检索条件比较宽泛,可以是一、二个词,也可高达数百词,每个词的前后还可附加逻辑排除,以提高检索的正确率。检索的范围小到段落,大到整个资料库,均无不可,还可限定范围于特定的资料类型,如选择正文或注释。检索结果可以存档或打印。存档或打印的方式可以是字词所在的页码、句子或段落,也可制成卡片保存资料。

古籍资料转化为电子文本之后,由于可以无限制的复制,而且几乎没有复制的成本,就成为取之不尽、用之不竭的资源,通过电脑网络,更可瞬息千里,为广大的人群所用。古籍原本汇集后还会产生新的信息,经过相互钩稽比对,发现前人未曾注意的问题。如果是人工汇集整理,则几乎是不可能的事情。“汉籍全文资料库”建成之后,为中国文史研究和古籍整理研究提供了前所未有的便利,台湾的研究人员据此进行了多方面的研究。比如,裴松之注《三国志》时征引了许多现在已经亡佚的典籍,他的注文在引用史料之后,经常加上“臣松之案”或“臣松之以为”之类的按语。我们可以利用这些按语,研究当时的史学思想,或利用引注,辑录散佚的古籍。进行此项工作,过去需人工查阅,耗时良久,而利用“汉籍全文资料库”,只需在自由词检索查询栏下键入“松之”二字,便可在一秒之内,查遍整部《三国志》863469字,找到 228项,259词,获得裴松之意见的初步资料 (注:黄清连《“廿五史全文资料库”与中国历史的研究》,《新史学》1991年2:2,123—127页。)。在辑佚方面,由于电脑查询速度快捷,不会遗漏,更是理想。比如想从《三国志注》中辑出《魏略》,以与近人的辑本做比较,只需键入“魏略”一词,便可以在1秒钟内,找出143项,191词(注: 刘增贵《〈二十五史全文资料库〉简介》,《中央研究院学术咨询总会通讯》1993年2:2,32—35页。)。“汉籍全文资料库”还可以根据不同的需要自行开放利用,研究者有了“资料库”的协助,能够快速获得初步的资料,减少大量爬梳史籍的功夫,节省时间从事研究工作。

“汉籍全文资料库”目前除在台湾中央研究院使用外,还在港台和国外许多大学、学术机构安装(见图表3),经济社会效益良好。 资料库的WWW版全文检索系统也已经上网(http:∥www.sinica.edu.tw ),但是多数内容要付费使用,或限制使用权限,不便使用。“汉籍全文资料库”所用底本主要是大陆学者的整理研究成果,可是大陆学者目前无法使用该资料库,不能不说是一种遗憾。但愿在不久的将来,著作权之类问题解决后,这项成果能真正为广大学人所用。

ASCC

台湾中央研究院计算中心

ACADEMTA Sinioa

表1 台 湾 中 央 研 究 院

Compucing Centie

汉籍全文资料库 瀚典全文检索系统1.3版

1997年11月

资料库名称 制作单位 字数

人文资料库师主版1.1

中央研究院47,105,213

内容摘自下列资料库

39,969,533

诸子 史语所 7,267,407

十三经

8,600,316

古籍十八种 汉籍全文资料库计划

8,049,602

古籍三十四种12,264,715

大正新修大藏经 10,118,213

语言所文献语料库研究室

上古汉语语料库摘要资讯所词库小组及 830,985

史语所汉籍全文资料库计划

台湾方志台史所史籍自动化室

7,537,840

台湾档案 7,100,885

文心雕龙资讯所文献处理研究室 1,700,011

佛经三论

104,257

中华民国史事日志近史所

1,452,451

姚际恒著作集文折所资料提供 951,560

计算中心资料库建立

新清史·本纪国史馆清史组

878,629

乐府诗集师大国文系制

633,151

计算中心技术协助

资料库名称一般限制

人文资料库师主版1.1

二十五史检索30笔

不能浏览正文

诸子

付费使用

十三经 付费使用

古籍十八种 付费使用

古籍三十四种

付费使用

大正新修大藏经 付费使用

上古汉语语料库摘要

台湾方志检索30笔

台湾档案检索30笔

文心雕龙

佛经三论

中华民国史事日志检索30笔

姚际恒著作集

新清史·本纪

乐府诗集

表2 院外古籍全文资料库

1996.12制表

装设地点资料库启用日期

国史馆 新清史

台湾中央图书馆 二十五史 1995.2

1994.11

清华大学历史研究所 二十五史及其他[说明1] 1995.518

启用

东海大学文学院 二十五史及其他[说明1]

1994.11

台湾大学二十五史等[说明2]1995.4

逢甲大学二十五史及其他[说明1]1995.5

中兴大学二十五史 1995.6

东吴大学二十五史 1995.9

台湾师范大学二十五史等[说明3]1996.6

中山大学古汉语文献语料库(部分) 1996.11

更新

成功大学二十五史1996.11

英国伦敦大学亚学院 古汉语文献语料库

1993

美国华盛顿大学 二十五史 十三经

东亚图书馆

文心雕龙

美国哈佛大学燕京图书馆 二十五史

德国海德堡大学汉学系二十五史

美国柏克莱加大 二十五史 文心雕龙

1995.1

东亚图书馆

香港科技大 二十五史1995.10

香港中文大学二十五史[说明4]及

古汉语文献语料库(部分)

1995.10

日本东京大学

二十五史 1996.5

美国史丹佛大学

[说明1]其他包括《太平御览》、《唐会要》、断句《十三经》经文、《艺文类聚》、《高僧传》、《续高僧传》、《弘明集》及《广弘明集》,部分尚在编制之中。

[说明2]1996年6月14日加装《诸子》与古籍十八种。

[说明3]另有《诸子》、古籍十八种及《十三经》。

[说明4]断句《十三经》、《庄子集注》、《老子》、 《国语》《列子》等装于1995年10月,《十二五史》即将采购。

表3台湾中央研究院开发中的汉籍全文资料库综览

1997/9/17日制表

资 料 库字数制作单位联络人

汉籍全文资料库(续)

66,509,000 史语所

汉籍全文资料库计划 刘淑芳女士

台湾文献丛刊 30,610,000台史所

史籍自动化室 詹素娟小姐

道藏及其他文献文哲所

道藏(部分) 6,512,000 李丰 先生

刘宗周全集 1,100,000 钟彩钧先生

泉翁大全集 1,000,000

古汉语文献续

8,120,700 史语所汉籍小组 刘淑芬女士

语言所文献语料库研究室 黄居仁先生

资讯所词库小组 陈克健先生

般若经论

1,500,000 资讯所 谢清俊先生

乐府诗集 633,000 师大国文系 季旭 先生

预估字数总计:115,984,700

正在建资料库的部分,包含《大正藏》1985至2006号与2012号禅语录,计二十三种,以及《宋高僧传》、《比丘尼传》、《景德传灯录》、《集古今佛道论衡》、《续古今佛道论衡》、《经律异相》、《法苑珠林》、《出三藏记集》、《水经注》,约六百六十二万四千字。

二校中的书单:《太平御览》、《历代三宝纪》、《佛祖统纪》、《佛祖历代通载》、《大唐西域求法高僧传》、《大唐西域记》、《集神州三宝感通录》,约五百八十六万五千字。

初校中的书单:《明实录》一至三三册、《全上古三代秦汉三国六朝文》、《本草纲目》,约一千九百八十九万字。

打字中的书单:《续资治通鉴长编》二至三四册、《唐宋笔记丛刊》(含《唐语林校证》、《四朝闻见录》、《大唐新语》、《归田录》、《泊宅编》、《清波杂志校注》、《湘山野录》、《续湘山野录》《玉壶清话》、《旧闻证误》、《游宦纪闻》、《铁围山丛谈》、《青箱杂记》、《鹤林玉露》、《齐东野语》、《龙川别志》、《龙川略志》、《涑水记闻》、《渑水燕谈录》、《鸡肋编》、《家世旧闻》、《明皇杂录》、《东观奏记》、《燕翼诒谋录》五卷、《西溪丛语》、《默记》三卷、《明实录附录》三至二一册、《明实录校勘记》二九册、《水浒全传》、《绣像金瓶梅词话》、《西游记》、《红楼梦校注》、《儿女英雄传》、《儒林外史》、《清会典事例》十二册,约三千三百一十三万字。

②表1、2、3、均下载自http∥www.sinica.edu.tw

标签:;  ;  ;  ;  

中研院中华人民共和国全文数据库_台湾中央研究院论文
下载Doc文档

猜你喜欢