古籍整理与词典编纂通用系统_汉语大词典论文

古籍整理与词典编纂通用系统_汉语大词典论文

古籍整理通用系统及其中字典的编纂,本文主要内容关键词为:古籍论文,字典论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]H085.5 [文献标识码]A [文章编号]1003 —5397(2000)03—0099—05

计算机技术的飞速发展,给语文工作现代化带来了前所未有的机遇。古籍整理通用系统的研制工作,是训诂手段现代化的一个组成部分,而其中的字典编纂又是系统研制工作中的一个重要内容。这种字典不仅在载体上区别于传统的纸质图书字典,在内容、形式上也不同于现有的电子版字典。从传统训诂学的角度看,这种字典解释字词的特点与注释书、训诂专著、训诂札记都有不同。这对字典辞书的编纂及我们进一步理解训诂实践形式的特点都有一定启示。

本文简述古籍整理通用系统中字典编纂的特点,作为前提,也兼及古籍整理通用系统应具备的功能。

一 现有古籍整理计算机系统情况

古籍整理工作历来是靠人力手工,80年代以来,利用计算机技术进行古籍整理工作这一课题受到越来越多的人的注意与重视,已经研制出不少古籍整理计算机系统。但这些研究存在着大量的重复劳动,同时各系统也基本不能通用。要真正解决古籍整理研究手段的现代化问题,有必要研制一个古籍整理通用系统,使广大古籍整理工作者手中的计算机,不仅仅是“换笔”,而是能用来对古籍语料进行处理。这项工作,需要国家的支持及语言学界与计算机界的通力合作。为此,我们在全国高等院校古籍整理研究工作委员会的支持下,对现有古籍整理计算机系统情况进行了调查。

调查涉及的系统有:

A.四川大学“中文索引编制”。

B.四川大学“中国地方志宋代人物资料管理”。

C.深圳大学“红楼梦电脑检索”。

D.深圳大学“中华大典”。

E.陕西师范大学“十三经词典编纂”。

F.陕西师范大学“十三经词语索引”。

G.陕西中医研究院“文渊阁本四库全书医家类光盘版”。

H.陕西中医研究院“中医十三经通检”。

I.哈尔滨师范大学“史记检索系统”。

J.北京大学、台湾元智大学“宋代名家诗网络系统”。

K.台湾东吴大学“十三经检索”。

L.台湾东吴大学“诸子集成检索”。

M.台湾中研院资讯所“中文文献处理系统CDP”。

N.台湾中研院资讯所“二十五史”。

调查显示,这些系统普遍具有阅读、检索、统计、排序、打印等功能,个别的还有简单的辅助研究功能(J、M)。大部分系统有在选定通用字库上增加自造字的字库,也有的是采用字根临时生成字库(N)。

这些系统的实现环境为MSDOS(A、B、C、E、F、H、I、K、L)+北大方正(A、B)或UCDOS(C、H)或金山汉字(E 、 F )或“震汉”等BIG5汉字(K、L);WINDOWS3.1(D、 J 、 M )+中文之星 (D );WINDOWS95(G、N)等。编程语言及关系数据库为FOXBASE(A、B、H);DBASE(C);BASIC(E、F);BORLANDC++3.1(J);PARADOX(D、J)等。

这些系统基本上都是各自封闭,互不兼容,不考虑开放性,并且大都为就某一古籍文本进行整理,表现为整理的成果,而不是为古籍整理工作提供的工具(A、M除外)。

二 古籍整理通用系统应具备的功能

古籍整理主要包括校勘、标点、注释、翻译、研究等工作,从这些工作的需求出发,理想的古籍整理通用系统应具备的功能是:

1.足够用的汉字库。

2.便捷的文本录入方式(如扫描、键盘录入)。

3.同一文献不同版本的自动校对。

4.常见错字的纠正(如已——己;裹——里)。

5.常见句标点提示。

6.古文词语今译提示。

7.字注音(含古音、今音)。

8.字、句等不同语言单位检索。

9.字、句等不同语言单位统计。

10.字、句等不同语言单位排序。

11.天文、职官、词性等专题检索。

12.天文、职官等知识库提取生成。

13.辅助研究(如诗歌韵脚标注、作品风格定位、作品时代判定、 药性相克相辅等)。

14.排版。

15.打印。

其中功能1目前较大的字库有GBK大字符集(即ISO—10646.1,GB—13000)、北大方正、华软、BIG5等,古籍整理工作者最易接受的是GBK。事实上GBK的21003字符可满足绝大多数古籍整理工作的要求,如《二十四史》只缺800字左右,可由自造字解决。 待全国高校古籍整理工作委员会325工程(65000汉字字符集)完成后,可与之挂接,彻底解决。

功能2扫描录入识别技术已有较成功的软件, 古籍整理通用系统可不予关注,仅设计为在已有文本条件下使用。

功能4、5、11、12、13等均需在古代汉语分词、句式、有关文化知识研究成果上实现。这些研究成果目前尚不敷用,可在今后的研制中实现。

故我们目前要研制的古籍整理通用系统的功能应包括功能1、3、6、7、8、9、10、14、15、及13的一部分(如格律诗的韵脚标注)。

三 古籍整理通用系统中字典的编纂

系统功能6、7、8、9、10、及13的一部分(如格律诗的韵脚标注)的实现,都需要一部以数据库形式存储可供调用的字典为基础。编制这部字典,要运用计算机技术,更离不开训诂学知识。

功能6“古文词语今译提示”, 是要让使用本系统的古籍整理工作者在进行古籍文本的标点、今译时能得到字词意义的随机帮助。针对古籍整理工作者的实际需要,从所收义项上看,这种随机帮助不必包括字词的常用义,以免使用者在过多的义项中反复筛选。从义项排列上看,罕见义、假借义等不易掌握了解的义项应排在前,较普通的义项应排在后,以利使用者急用先见。从书证上看,每个义项均应有例证,但为便使用者浏览,应采用二次调用形式。即当使用者选定某个义项后,以二级窗口显示。

义项的编排和书证的引用,应当参考和依据现有字典辞书的研究成果,但须甄别覆核,择善而从,重新排列。

如“控”,《汉语大字典》和《汉语大词典》的解释是:

《汉语大字典》:(一)kòng①拉开(弓弦)。②操纵;控制。 ③牵制。④走告;控诉。⑤投;落下。⑥顿挫。⑦弯,低。⑧使容器口朝下,让里边的液体慢慢流出来。(二)kōng除。(三)qiāng 打。

《汉语大词典》:1.kòng①引弓,开弓。②驾驭;控制。 ③走告。④顿挫,停顿而折返。⑤投;跌落。⑥弯曲;下垂。⑦贯通。⑧使容器出口朝下,让里边的液体慢慢流出。亦指将人头部放低,吐出食物、水等。⑨见“控總”。2.qiāng敲打。

两相比较,《汉语大词典》没收《汉语大字典》所收的只见于《集韵》而无其他书证的音项“(二)kōng除”。 《汉语大字典》的(一)①②③④⑤⑥⑦⑧和《汉语大词典》的1.①②⑦③⑤④⑥⑧分别对应。是二书解释基本相同。其中“控制、控告、控水(即二书的⑧)”义现代汉语仍保留,属常用义,本字典可不收或在义项排列上放在最后。而音项qiāng和kōng则应作为冷僻义首选收入。

对现代字典辞书中的释义,要进行一定的甄别。如《汉语大字典》和《汉语大词典》在“拜”字下面都收了“拔掉”的义项,根据都是《诗经·召南·甘棠》郑笺“拜之言拔也”。拜,《说文解字》解为“首至手也”(依段玉裁校),即下拜行礼。《诗》首章言“伐”,次章言“败”,则三章之“拜”不可能是行礼,所以郑玄释之以“拔”。“拜”与“拔”没有意义上的关联,郑玄在这里用“之言”是用本字解释通假字。“拜”是“拔”的同音借用字。朱熹《诗集传》释此诗之“剪”为“剪其枝叶”,“伐”为“伐其条枚”,“败”为“折”,“拜”为“屈”,谓全诗三章由“伐”(砍)至“败”(折)至“拜”(屈)是对甘棠树的爱惜的一步步加深。读《诗》者常以为郑玄与朱熹的看法迥异,其实,这两位的说法并不矛盾。朱熹是认为郑玄说的拔,就是屈的意思,是拔的引申义。《史记·乐书》:“奋疾而不拔。”张守节正义:“拔,倾侧也。”倾侧即倾斜,弯曲。《广韵》:“扒,拔也。《诗》云‘勿剪勿扒’。”扒是拨动,也就是使弯曲。据文证义,《甘棠》中的“拜”,是否是“拔掉”,还值得进一步探讨。对这样的义项,吸收时需要斟酌。

古籍今译常常费力不讨好,译本常被人们讥为内行不去读,外行读不了。古籍整理系统提供的字词意义的随机帮助,也很容易陷入这样的境地,出现专家不需用,一般人用了仍不能解决问题的弊病。要尽可能提高字典的实用性,就不能仅仅依靠现代字典辞书的研究成果。为满足专家古籍整理工作的需要,有必要在字典中附上几部训诂根柢著作的字词解释,供专家随机提取。像《说文解字》《毛传》《郑笺》《经典释文》,甚至于《经籍籑诂》,都可以考虑进来。这些解释是为专家查检而设,可以完全按原著录入,不必提炼成严格意义的义项。

功能7“字注音(含古音、今音)”, 要求字典给每个字作汉语拼音标注、中古反切标注、上古韵部声纽标注。考虑到功能13的需要,还应对现代汉语、中古音、上古音的押韵情况进行标注。

功能8“字、句等不同语言单位检索”,功能9“字、句等不同语言单位统计”,功能10“字、句等不同语言单位排序”,都需要通过对每个字的属性标注来实现。根据当前古籍整理工作者的现状,应进行汉语拼音、笔画数、笔顺、四角号码等多项标注。

四 余论

计算机技术给语文工作现代化提供了捷便的手段,也给训诂工作带来了一些新问题。如以前古籍文本在传抄刻写过程中产生的字词讹误只有“形近而讹”和“声近致误”两类,现在用键盘录入的古籍文本,由于汉字输入编码的影响,又出现了一种“码近相混”的讹误。像“已兆靖康之祸”误为“已净靖康之祸”,(注:例见《随园诗话》679页, (清)袁枚著,汪静韦、唐婷阳译,长春:吉林人民出版社,1996。)“兆”IQV(五笔字形输入法编码,下同)误为“净”UQV(I、U键相连);“清进士”误为“溥是士”,(注:例见《随园诗话》722页。 (清)袁枚著,汪静韦、唐婷阳译,长春:吉林人民出版社,1996。)“清进”IGE FJ误为“溥是”IGEFJ(应在F前击空格键);“玉壶清泪血痕新”误为“玉壶清泪备痕新”,(注:例见《随园诗话》756页。 (清)袁枚著,汪静韦、唐婷阳译,长春:吉林人民出版社,1996。)“血”TLD误为“备”TLF(D、F键相连);“蘼芜亦解怜倾国”误为“蘼鞠亦解怜倾国”,(注:例见《随园诗话》757页。(清)袁枚著, 汪静韦、唐婷阳译,长春:吉林人民出版社,1996。 )“芜”AFQB 误为“鞠”AFQ(漏B);不胜枚举。显然,训诂工作在进行古籍文本的校刊时不能不正视这种讹误。

古籍整理通用系统中的字典,是字典辞书中的一种新类型。它为实现系统功能6、7、8、9、10、13而编制,它的第一使用者是计算机,不是人,因而它对21003字符要逐个进行细致准确的标注, 这一点很像训诂专著的词词皆释。基于古籍整理工作的实际需要,它在释义时可以忽略常见字及常用义,把主要精力放在冷僻难懂的字词上,这一点又有些像随文而释的注释书。它重在解决具体古籍文本中的字词意义问题,但义项的设立、诠释、书证却不仅限于某个具体语境,这又与训诂札记相似。这种供计算机使用的新型字典的编纂及其编纂规律的归纳研究,是训诂学面临的新课题。

要解决计算机技术的运用给语文工作带来的一系列新问题,训诂学大有用武之地。也只有与时代的新要求紧密结合,积极服务于社会,训诂学才会有自己旺盛的生命力。

[收稿日期]2000—06—09

标签:;  ;  

古籍整理与词典编纂通用系统_汉语大词典论文
下载Doc文档

猜你喜欢