民国中国信息处理60年_信息处理论文

民国中国信息处理60年_信息处理论文

共和国的中文信息处理60年,本文主要内容关键词为:共和国论文,中文论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

什么是中文信息处理?现在对中文信息处理通常的理解是:用计算机来加工处理中文的信息,属于涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。

本文所说的“共和国的中文信息处理”,首先就是特指对《中华人民共和国国家通用语言文字法》所规定的汉语普通话和规范汉字的信息处理,当然进一步也包括对汉语汉字所承载的传统文化的处理。所以这里的“中文”和联合国的六种“工作语文”中的“中文”一样,都是特指汉语和汉字。上述说法在中华人民共和国国家标准《汉语信息处理词汇01部分:基本词汇》①中早有规定:语言信息处理是指:“用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的造作与加工。”汉语信息处理和其他各民族的语言信息处理都是语言信息处理的下位概念。汉语信息处理是指“用计算机对汉语的音、形、义等信息进行处理,有时又称中文信息处理”。汉字信息处理是指“用计算机对汉字表示的信息进行操作与加工,如汉字的输入、输出、识别等”。

所以,中文信息处理是“又称”,也是俗称。正确的、科学的术语应该是国家标准确定的正条“汉语信息处理”,它包括两个大的方面“汉语信息处理”和“汉字信息处理”。

我们把共和国的中文信息处理60年分为三个阶段:起步阶段、重振阶段与大发展阶段。起步阶段从1949年开始到1966年,重振阶段从1974年“748工程”开始到1981年,大发展阶段从1981年的中国中文信息学会成立至今。

一、中文信息处理起步阶段

第一台计算机诞生在1946年,1960年后,商用电脑开始普及,电脑被用于处理大规模的数据,其中的重要方面是处理语言文字的信息。西文进入电子计算机(或称电脑)不成问题,但是中文(或称汉字)进入计算机却成为一大难题。这就是“汉字信息处理”阶段要解决的最主要问题,即汉字在计算机上的输入、输出和自动识别等方面的问题。汉字的字数多、笔画繁难使中文的信息处理失去了一个打字机的发展推广时代,笨重的中文铅字打字机不便于携带,又只能由专门的打字员来操作。尽管我们有科学家(如上海仪器仪表研究所的支秉彝总工程师)“文革”期间冒着风险在牛棚里研究汉字编码,尽管1974年已经启动了汉字信息处理为主要攻关目标的748工程,但是汉字进入计算机还是一个科学的梦,是中国的“第五大发明”,谈何容易。直到1984年,在采访洛杉矶奥运会的全世界7000名记者中,只有新华社的22名中国记者用手写他们的报道,中文信息处理的便捷应用问题那时还没有彻底解决。

也正是在解决电脑中文化的时候,我们才对新中国的汉字整理、改革工作有了新的认识和体会,年轻的人民共和国的一系列汉语汉字规范及相关的整理研究,已经为中文的信息处理进行了重要的语言文字前期准备。

1949年10月1日,中华人民共和国宣告成立,10月10日,吴玉章发起的中国文字改革协进会就紧接着宣告成立;1952年2月5日,主管新中国文字改革工作的研究机构“中国文字改革研究委员会”成立,整理和简化汉字是委员会的既定工作任务之一;1954年“中国文字改革委员会”正式成立,这是一个行政职能部门,隶属国务院,在周恩来总理领导下工作。

1952年教育部公布2000常用字表(一等常用字1010个、次等常用字490个、补充常用字500个)作为扫盲的标准。此后,简化汉字(包括简化笔画和字数)、推广普通话、制定和推行汉语拼音方案成为文字改革工作的三项主要任务。这些工作的推进为中文进入计算机并实现大众化,为后来国家相关部门②制定信息处理用的语言文字国家标准,准备并提供了极其重要的基础③。这一切都应纳入共和国的中文信息处理起步阶段。

在起步阶段,共和国不仅关注“汉字信息处理”的预备性工作,也已经超前关注了“汉语信息处理”的问题。国际上计算机和语言的最早结合开始于机器翻译,1946年电子计算机问世后,英国工程师A.D.布斯和美国工程师W.韦弗在讨论计算机的应用范围时,就提出了利用计算机进行语言自动翻译的设想。1949年,韦弗发表以《翻译》为题的备忘录,正式提出了机器翻译的问题。1954年,美国乔治敦大学与国际商用机器公司用IBM-701计算机进行了世界上第一次机器翻译试验。仅仅两年后的1956年,年轻的人民共和国就在周恩来总理的提议和领导下,把机器翻译列入《1956~1967年科学技术发展远景规划》(简称《十二年科技规划》),其时距国际上机器翻译试验不到两年。1957年,中国的机器翻译研究工作开始进行,这可以说是中文信息处理的第一项正式工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,不过译文输出是代码,而不是汉字,因为当时没有汉字输出装置④。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年,因为国际机器翻译进入低潮期和国内时局的双重原因,工作处于停顿状态。

语音的信息处理也应是语言信息处理的研究范围。语音打字的任务早在1958年便已提出。1964年研发出“元音识别机”,1970年前后又研发出10个口呼汉语数字的识别机,最早应用到114电话号码查询台。但利用电子计算机进行语音识别研究,则始于1972年。

总之,在共和国中文信息处理的起步阶段,以汉字信息处理的前期准备工作为主,进行了汉字形音义的整理和规范、普通话推广、制定与推行汉语拼音方案等,可以认为是在语言文字领域为中文信息处理进行了必要的预研。同时在尚无汉字信息处理技术(汉字输入、输出、识别)支撑的状况下,局部超前启动了汉语信息处理的研究和实验,如汉外机器翻译实验和语音识别的实验等。

二、中文信息处理重振阶段

1966年起持续十年的“文化大革命”,导致国民经济濒于崩溃,科学技术工作也处于瘫痪阶段。而一些忧国忧民的知识分子,就是在这个期间也冒着风险不放弃科学研究。比如:支秉彝总工程师(后任“中国中文信息学会”的副理事长)就曾在牛棚里给汉字编码,他借助一本新华字典,在茶杯盖上演练“见字识码”,1978年5月,他推出一台汉字信息处理实验样机。7月19日,《文汇报》以第一版整版篇幅报道了支秉彝的事迹,通栏标题是《汉字进入了计算机》,这是中国报纸报道的第一个汉字编码方案,是中国自主完成的第一个汉字编码输入系统。

中文信息处理的重振阶段,我们认为是从“文革”末期就已经初见端倪了。1973年,我国四机部的一批计算机专家着手进行发展政策的软科学研究,准备作出计算机行业发展的战略决策。他们在调查研究世界计算机发展趋势的基础上,看到计算机要在中国应用,必须要解决汉字信息处理的问题,并了解到美日等国都有人着手进行汉字的计算机处理研究。考虑到这不是一个部门就能解决的问题,所以四机部联合一机部、中国科学院、新华社和国家出版事业管理局,向国家提出“关于研制汉字信息处理系统工程”⑤(简称748工程)的报告,并获得国家计划委员会批准,列入了1975年国家科学技术发展规划,汉字精密照排是“748工程”的三个项目之一,北京大学负责这个项目的研制,王选(后任双院士)是项目的技术总负责人。这个项目后来使中国平面媒体(报纸、杂志和图书)印刷告别了铅与火的时代,进入了计算机和数字化的处理时代。

1978年春,7000人参加了全国科学大会,中共中央副主席、国务院副总理邓小平作了重要讲话,明确指出“现代化的关键是科学技术现代化”,“知识分子是工人阶级的一部分”,重申了“科学技术是生产力”这一马克思主义基本观点。蓄之既久,其发必速。科学是春天来临了,中文信息处理也真正进入了重振阶段,汉字编码的问题最先受到社会广泛关注。1978年12月,在山东青岛召开了我国首次“汉字编码研究会”,支秉彝、张其浚、刘涌泉、倪光南、刘源、扶良文、陈明远等一批中国汉字编码研究的先驱者出席会议,会后科学技术文献出版社出版了《汉字编码方案汇编》,这是第一部汉字编码方案的专著。

1980年,“748”工程组织19个单位,为期两年,手工统计了2100余万字的资料,编印了《汉字频度表》。1980年,华北计算所陈耀星主持研制的《信息交换用汉字编码字符集·基本集》(GB2312-80)面世。1980年7月,汉字激光照排系统排出第一本汉字图书样书《伍豪之剑》。1981年中国中文信息学会成立,钱伟长任学会第一届理事长,学会的宗旨之一就是团结国内从事中文信息处理的各领域的科技工作者及海外同仁,促进学科理论建设与应用发展,繁荣我国中文信息处理事业。

总之,在中文信息处理的重振阶段,恢复了“文革”中被迫中断的研发工作,取得了若干实质性的成果,我们认为:特别是1978年的全国科学大会大会之后,以1981年中国中文信息学会成立为标志,建立了全国性的专业学术团体,凝聚了力量,中文信息处理事业真正进入了大发展时期。

三、中文信息处理大发展阶段

在大发展阶段最先引人瞩目的就是汉字的“万马奔腾”。有人认为20世纪80年代中期到20世纪90年代中期的核心内容就是汉字的计算机处理问题。

也就在本阶段,1986年,中国文字改革委员会更名为国家语言文字工作委员会,目前归属于教育部,下辖两个司:语言文字应用管理司、语言文字信息管理司。这就从国家对语言文字规划管理的角度,更加明确配合了共和国的中文信息处理事业。

中国中文信息学会的基础理论专业委员会推动了汉语、汉字信息处理的基础研究和相关国家标准的制定,诸如:对于汉语的声母、韵母、音节、声调的大规模统计分析研究及成果;对于不同领域汉字的频度、流通度、使用度的大规模和动态的统计分析研究及成果;对于不同汉字集合的部件、部位、结构、笔画、笔顺的统计分析研究及成果;对于不同领域的大规模真实文本的汉语词汇的统计分析研究及成果;不同时期和范围的中国人名、姓氏用字的抽样统计分析研究与结果;关于汉字熵值、汉语词汇熵值的研究、争论和结果。相关的标准诸如:GB1988-80《信息处理交换用的七位编码字符集》、GB2312-80《信息交换用汉字编码字符集·基本集》、GB5007.1-85《信息交换用汉字24×24点阵字模集》、GB5007.2-85《信息交换用汉字24×24点阵字模数据集》、GB5119.1-85《信息交换用汉字15×16点阵字模集》、GB5119.2-85《信息交换用汉字15×16点阵字模数据集》、GB6364.1-86《信息交换用汉字32×32点阵字模集》、GB6345.2-86《信息交换用汉字24×24点阵字模数据集》、GB13000.1《信息技术通用多八位编码字符集(UCS)第一部分体系结构与基本多文种平面》、GB/T 12200.1《汉语信息处理词汇01部分:基本术语》、GB/T12200.2《汉语信息处理词汇02部分:汉语和汉字》等等,到2000年,中国已制定了70个与中文信息处理相关的国家标准。这些基础理论的研究和标准的制定推动了中文信息处理的汉字信息处理技术的发展,计算机中安装的汉字库从6763字、20902字、27000字、50000字向囊括甲金篆隶的全汉字集发展,从国家标准(GB)向两岸四地和国际标准(ISO)发展。

中国中文信息学会的汉字编码专业委员会、汉字信息处理系统专业委员会、汉字设备专业委员会、汉字字形信息专业委员会等专业委员会陆续成立,分别推进了汉字的输入输出、汉字编码评测、各种汉字字形设计、汉字字形信息压缩存储技术、各种类型的点阵、矢量、曲线汉字库研制、汉字信息处理操作系统等工作的开展,中文信息处理代码体系结构、中文信息处理标准化体系、中文信息处理与西文信息处理兼容体系、系列化智能型汉字输入输出设备研制、汉字设备与系统接口技术、汉字工作站等等研究、生产、应用、推广工作都蓬勃开展了。上世纪最后20年是汉字信息处理的产学研结合的全盛期,在全国特别是在中关村崛起了方正、联想、四通、紫光等高新技术产业集团,它们的业绩骄人,并已在国内、香港乃至纳斯达克成功上市。现在,由于网络的发展,各种智能化的汉字输入软件已经可以免费在网上下载和更新。

我们仍以王选的748工程“汉字精密照排”为例,该项成果先后获得1项欧洲专利和8项中国专利,并获首届中国发明专利金奖。王选本人一生先后荣获“国家最高科学技术奖”“联合国教科文组织科学奖”“日内瓦国际发明展览会金奖”“国家科技进步一等奖”“毕昇奖”等几十项奖励,他的系统1985年在新华社正式运行,1987年《经济日报》排出世界上第一张计算机组版的中文报纸,到1993年,国内99%的报社和90%以上的黑白书刊均已采用国产激光照排系统,而到2001年,全国15万家各类印刷厂的年总产值就已经达到1500亿元。汉字精密照排被公认为继毕昇发明活字印刷后中国印刷术的二次革命。不仅仅是汉字可以实现在平面媒体精密照排,中国各少数民族的许多文字继而也实现了精密照排。

受篇幅所限,其他单位和个人推出的汉字终端系统、汉字打印机、学习机、速录机、汉王笔、快译通、扫描仪等产业成果,以及五笔字型、智能ABC、普及型PJY、译星一号、科译一号、金山快译、多语机译、TRS全文检索等应用软件,不能一一尽列。

进入新世纪以来,汉语信息处理又有了长足进步。有人说上世纪是文字信息处理的世纪,新世纪将是语言信息处理的世纪。计算语言学专业委员会、自然语言处理专业委员会、人工智能与教育专业委员会等都是中国中文信息学会的与汉语信息处理相关的二级专业委员会。

共和国的汉语信息处理最早应该是从汉语的词频统计、汉语分词规范;汉语自动分词系统开始进入大发展阶段的。20世纪80年代有多种现代汉语词频统计成果问世,其中有代表性的是《现代汉语频率词典》⑥,根据的是北京航空学院等8家单位1982~1986年完成的现代汉语词频统计,随后研制了《信息处理用现代汉语分词规范》⑦,至今已经有许多现代汉语分词软件在市场使用。许多中文信息处理的应用软件都是基于或者必须首先基于汉语自动分词的,例如:市场的中文校对软件、汉外或者外汉的机器翻译软件、汉语的辅助教学软件等,其他诸如网络搜索、文本自动分类、自动文摘、知识挖掘、信息过滤、机器学习等,这些涉及汉语信息处理的应用软件和系统,也都推动了现代汉语分词系统的研究与国家评测。

随着上述汉语信息处理应用软件的开发与应用,特别是汉语信息处理向网络化、智能化、数字化、多文种、多媒体、多元化方向推进,相关的基础研究也在逐步深入,包括理论研究、方法研究和应用研究。汉语的自然语言的理解、人机的对话需要越来越多的语法处理、语义处理、篇章处理、语境处理的语言知识,《汉语语法详解词典》⑧、“知网”⑨、HNC理论⑩等都陆续问世。各种各类规模不同的语料库建设和研究,列入了国家自然科学基金项目、社会科学基金项目,从85计划开始的国家级、部委级、省市级项目,以及973、863、火炬计划、创新计划等项目。其中有基于大规模真实文本的中文语料库的建设和加工、中文树库的建设等,还有随之而来的中文语料库和树库的网络服务和软件服务。这里特别要提到的是“中国语言资源联盟”(11)“国家级语料库”(12)和“国家语言资源监测与研究中心”,尤其是2004年开始建立的“国家语言资源监测与研究中心”,由教育部语信司和一些大学共建,目前已经设立了六个分中心,其现代汉语语料库是历时的动态流通语料库,其平面媒体、有声媒体、网络媒体每年参与国家语言文字工作委员会的中国语言生活绿皮书的调查、统计、发布工作,至今已经连续发布了《中国语言生活状况报告2005》《中国语言生活状况报告2006》《中国语言生活状况报告2007》。

总体来说,中文信息处理的汉语信息处理部分,在大发展阶段,正在日益成为各界关注的热点和焦点,但是投入的力度还不够,支撑的技术还不成熟。不过,跨入本世纪,在信息社会、知识社会的发展和竞争中,语言信息处理的事业方面,共和国已经和其他发达国家的语言站在同一起跑线上。只不过我们的语言和文字要解决的问题更复杂一些、更多一些而已。汉字信息处理疑难问题的基本解决,已经使我们看到了新一阶段汉语信息处理的胜利曙光。

注释:

①国家技术监督局1990年2月1日发布,8月1日实施,标准号;GB12200.1-90。

②这些部门包括电子工业部、国家技术监督局、国家语言文字工作委员会等。

③例如1980年由四机部提出、国家标准总局发布的第一个汉字信息处理的国家标准(GB2312-80)《信息交换用汉字编码字符集基本集》收有汉字6763个,一级字3755个,二级字3008个。

④1959年建国十周年,中国科学院计算所和语言研究所等单位的机器翻译研究组在《中国语文》发表《俄汉机器翻译初步试验成功》,成为世界上继美苏英日之后第五个机器翻译试验成功的国家。

⑤该工程的三个子项目“精密汉字编辑排版系统”“汉字情报检索系统”“汉字通信系统”都以汉字要在计算机上实现输入、输出和传输为前提。

⑥《现代汉语频率词典》,北京语言学院出版社,1986。

⑦《信息处理用现代汉语分词规范》,GB/T 13715-92.国家技术监督局1992年10月4日发布,1993年6月1日实施。

⑧俞士汶《现代汉语语法信息词典详解》(第二版),清华大学出版社,2003。

⑨2000年10月25日,“知网”(HowNet)系统2000版发布。

⑩HNC是概念层次网络(hierarchical network of concepts)理论的英文简称,它是中科院声学所黄曾阳先生创立的一个以概念联想脉络为主线,融语义、语法、语用为一体的自然语言理解的理论体系。

(11)中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为ChineseLDC。中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体。

(12)即“国家语委现代汉语语料库”,1990年开始建设。国家语委主持,组织语言文字界、计算机界专家学者共同建设。

标签:;  ;  ;  ;  ;  ;  

民国中国信息处理60年_信息处理论文
下载Doc文档

猜你喜欢