论汉字在数字时代的应用_汉字编码字符集论文

关于数字化时代的汉字应用问题,本文主要内容关键词为:汉字论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      在大数据、云技术和互联网+的数字化时代,人机交际已是汉字应用的主体。与过去单纯人人交际的汉字应用相比,数字化时代的汉字应用有四大特点,可用“四化”来概括。一是信息化,社会各领域的汉字应用大都离不开计算机、通信和网络等信息设备和技术,都需要进行信息处理,需要解决编码和传输、存储和检索、输入和输出等问题。二是快捷化,汉字应用受益于信息处理技术,汉字信息处理技术可为汉字应用提供便利,使汉字应用更加快捷、高效。三是复杂化,汉字应用借助信息技术虽能实现高效快捷,但因汉字是表意文字,字量大,信息处理情况复杂,难度大,汉字应用的顺利与否,受制于汉字信息处理技术水平。四是标准化,汉字信息能否高效顺利地处理,汉字能否在社会各领域方便快捷地应用,都有赖于汉字标准化的程度。可以说,汉字信息处理技术和汉字的标准化水平,直接影响着汉字的应用和发展。

      一、汉字应用的标准

      汉字应用涉及很多领域,主要有汉字教学、出版印刷、辞书编纂、排序检索、信息处理等领域。在人人交际时代,汉字应用标准一般多是各领域通用的标准,在人机交际的数字化时代,则不仅有通用标准,还有信息处理专用标准。

      (一)汉字应用通用标准

      汉字从个体说,有形、音、义三要素,如“天”字的字形为“天”,字音为“tiān”,字义为“地面以上的高空”等。汉字从系统说有字量、字序、字际关系三要素。字量有常用字量、通用字量、专用字量等,字序有音序、形序、音形序等,字际关系有简繁关系、正异关系。汉字应用在这些方面都涉及标准问题。2000年12月全国人大审议颁布了我国首部语言文字法《中华人民共和国国家通用语言文字法》,自2001年1月1日起实施。该法规定,社会各领域一般情况下要使用规范汉字,但在文物古迹、艺术作品、手书字及出版、教学、研究中需要使用等特殊方面,则可以使用繁体字和异体字,并规定各领域的汉字应用要遵循相应的汉字标准。自20世纪50年代以来,为了满足汉字在教学与研究、辞书编纂、出版印刷、排序检索、信息处理等领域的应用,国家先后制定发布了以下方面的通用标准:

      1.字际关系标准

      《第一批异体字整理表》(1955年文化部、文改会发布),整理了810组字,810个为正字,1055个为异体字。规定一般场合停止使用异体字,翻印古书须用原文原字的,用作姓氏的,可保留原字。《简化字总表》(1964年国务院发布,1986年国家语委重新发表),分三个表:第一表收352个简化字,第二表收132个可作偏旁用的简化字和14个简化偏旁,第三表收用第二表的简化字和简化偏旁作为偏旁类推出的简化字,共收简化字2235个。

      2.字级字量标准

      《现代汉语常用字表》(1988年国家语委、国家教委发布),给出了基础教育用字的字量标准3500字,分两级:常用字2500字,次常用字1000字。《现代汉语通用字表》(1988年国家语委、新闻出版署发布),涵盖《现代汉语常用字表》,给出了社会一般通用字的字量标准7000字。

      3.字形标准

      《印刷通用汉字字形表》(1965年文化部、文改会发布),规定了6196个印刷通用汉字的字形、笔画数和笔顺,采用的是“新字形”,给出了印刷宋体字形。该表被学界称为汉字字形规范的鼻祖。《印刷魏体字形规范》(1999年国家语委发布),规定了印刷魏体字形规范的原则,并给出了示范例字。《印刷隶体字形规范》(1999年国家语委发布),规定了印刷隶体字形规范的原则,并给出了示范例字。

      4.笔顺、字序和笔画标准

      《现代汉语通用字笔顺规范》(1997年国家语委、新闻出版署发布),把《印刷通用汉字字形表》隐含的笔顺显性化,给出了7000个汉字的跟随式笔顺。《GB13000.1字符集汉字笔顺规范》(1999年国家语委发布),给出了汉字笔顺规范的制定原则及20902个汉字的序号式笔顺。《GB13000.1字符集汉字字序(笔画序)规范》(1999年国家语委发布),规定了汉字的排序规则,给出了20902个汉字的排序表。《GB13000.1字符集汉字折笔规范》(2001年教育部、国家语委发布),规定了汉字折笔笔形分类、排序、命名的原则以及具体的分类、排序和名称,给出了20902个汉字的折笔笔形表。

      5.部首和部件标准

      《汉字部首表》(1983年文改会、国家出版局首次发布,2009年教育部、国家语委修订),规定了汉字的部首表及其使用规则,共有201个部首。《现代常用字部件及部件名称规范》(2009年教育部、国家语委发布),给出了《现代常用字部件表》和《常用成字主形部件表》,规定了现代汉语常用字的部件及其名称,共有441组、514个部件、305个常用成字主形部件。《现代常用独体字规范》(2009教育部、国家语委发布),规定了现代汉字范围的常用独体字256个,给出了《现代常用独体字表》。

      6.字音标准

      《普通话异读词审音表》(1985年国家语委、国家教委、广播电视局发布),审定了普通话有异读的词和有异读的作为“语素”的字的读音。《日本汉字的汉语读音规范(草案)》(2009年国家语委发布),是按绿皮书发布的软性规范(不是正式标准),规定了汉语文献中日本汉字的普通话读音的拟音规则,并为32个使用频率较高的日本汉字拟定了普通话读音。

      7.集成标准

      《通用规范汉字表》(2013年国务院发布),是教育部、国家语委历时13年组织研制的适应新形势下社会各领域汉字应用需要的重要汉字规范,集以往多个字表于一体,属于字级、字量、字形、字序和字际关系等标准的集成。该表收录8105个规范字,分三级:一级3500字,为常用字集,二级3000字,一、二级合计6500字,三级1605字。其中,三级字表收录姓氏人名、地名、科技术语以及中小学语文教材文言文用字中未进入一、二级字表的较通用的字。该表后以附表形式呈现了规范字和繁体字、异体字之间的对应关系。《通用规范汉字表》发布后,以往《第一批异体字整理表》《简化字总表》《现代汉语常用字表》《现代汉语通用字表》等字表停止使用。

      (二)汉字信息处理专用标准

      因汉字的字量大、系统复杂,其信息处理的难度远大于只有26个拉丁字母的英文的难度。汉字信息处理的主要环节是:通过编码进行交换、传输;通过输入法(音码、形码、音形码)和手写识别、语音识别进行输入;通过检字法(音序、形序、音形序)进行存储、检索;通过字库进行显示、输出。我国的汉字信息处理,一直在跟踪国际先进技术和国际标准。自20世纪80年代以来,为适应汉字信息技术的发展,满足社会应用的需要,国家先后制定发布了以下汉字信息处理标准:

      1.汉字编码标准

      国家标准《信息交换用汉字编码字符集基本集》(1980年国家标准总局发布),收录6763字,是20世纪80~90年代影响巨大的技术标准,解决了汉字进入计算机的问题。之后,又发布了第一至第五辅助集,不断增加编码汉字。国际标准ISO/IEC 10646《信息技术通用多八位编码字符集(UCS)》(1993年国际标准化组织首次发布,之后不断修订),收录CJK中日韩统一编码汉字20902个。后来不断扩充,有CJKA(6585字)、CJKB(42711字)、CJKC(4149字)、CJKD(222字)、CJKE(5762字),CJKF(3792)正处在投票过程中,CJKG正在研制。其中BMP基本多文种平面的CJK、CJKA收录27484个字,应用成本低,最易在应用系统实现。《GB13000.1-93信息技术通用多八位编码字符集》(1993年国家技术监督局发布),等同采用国际标准ISO/IEC 10646。

      2.汉字输入标准

      《信息技术通用键盘汉字输入通用要求》(1995年国家技术监督局发布)和《信息技术数字键盘汉字输入通用要求》(2000年国家技术监督局发布),分别规定了通用键盘、数字键盘汉字输入在字符数、文字和数字规范性、键位设置、系统功能等方面的要求。《汉字键盘输入用通用词语集》(1995年国家技术监督局发布)提供了汉字输入的词库,收入词语43540条。《信息处理用GB13000.1字符集汉字部件规范》(1997年国家语委发布)规定了信息处理用汉字部件拆分的规则,给出基于20902个汉字的560个部件的部件表,主要用于形码输入法设计。

      3.汉字输出标准

      《信息技术汉字编码字符集(基本集)》的系列点阵字型标准(1985年国家技术监督局首次发布,之后不断修订),分别规定了6763字的印刷宋体、黑体、楷体、仿宋体的16、24、32、36、48、64等的点阵字型标准。《信息技术通用多八位编码字符集(基本多文种平面)》的系列点阵字型标准(1997年国家技术监督局首次发布,之后不断修订),分别规定了27484字的印刷宋体、黑体、楷体、仿宋体的16、24、32、36、48、64等的点阵字型标准。

      4.汉字存储检索标准

      《GB13000.1字符集汉字部首归部规范》(2008年教育部、国家语委发布),规定了汉字部首的归部原则和规则,给出了20902个汉字的部首归部表。该标准主要用于信息处理,也可供辞书编纂参考。

      以上通用标准和专用标准的发布,对汉字应用的规范化和信息处理技术的发展起到了重要作用。这些标准是国家有关部门根据应用需要组织专家学者认真研制而成,虽然不是每个标准都尽善尽美,但都凝聚着许多语言文字研究者、标准化工作者的心血,体现了当时的优秀成果和科研水平。本人有幸参与许多标准的组织及制定,特别是《通用规范汉字表》这项重大标准的研制,从中收获很大,同时也感慨颇多,深刻体会到汉字标准制定难度之大。

      二、汉字应用的情况

      (一)社会用字的字量

      政府机关、教育、新闻媒体和公共服务行业是汉字应用的四大重点领域。各领域用字的字量不同,基础教育和文化普及基本用字在3500常用字的范围。如基础教育的考试标准在3500字以内,基础教育教材用字在4500字左右,《毛泽东选集》四卷用字有2891字。出版印刷、广播影视和网络、公共服务等领域的通用字则在6500字的范围。如新华社1986年的4000万新闻稿用字有6001字。古籍整理出版用字约3万多字,典籍数字化和数字图书馆需要应用的则是几十万字符(包括古今汉字)。人名、地名用字,是一个相当离散的集合,远远超出了通用字的范围,国际标准ISO/IEC 10646已编码的7万多字也无法涵盖。

      (二)辞书编纂收字的字量

      辞书编纂根据不同对象和用途有不同字量的收字。中小型规范性语文辞书收字在8000多字(指规范字的数量)的范围。如《新华字典》第11版收9400余字,《现代汉语词典》第6版收9159字。大型语文辞书则是几万字不等,其收字不仅有现代汉字,还有古代汉语用字。如《辞海》2000年版收13674字,《辞源》2010年版收12922字,《汉语大字典》2010年版收60370字,《中华字海》收85568字,《康熙字典》收47035字。辞书具有查阅使用功能,如同计算机系统的字,需要较多储存,以备查备用。信息技术产品的用字,根据不同需要也有不同,少则几千字,多则几万字。

      (三)应用系统实现的字量

      计算机、通信设备等系统处理汉字的字量情况是:一方面系统应用实现字量不足。虽然7万多字已有编码,但在应用系统中并没有完全实现,一般只在出版印刷系统实现了应用。由于系统更新有成本和安全问题,邮政通信、金融保险、医疗卫生、户籍管理等行业使用的仍是支撑小字量的旧系统。一般的应用系统实现的只是20902字或27484字,且各系统不能交流共享。有些系统虽然是20902字或27484字,因系统提供的输入法只支撑6763字,也发挥不了大字量系统的作用。另一方面仍有部分字特别是人名地名用字没有编码,公安部户籍部门为换发第二代身份证制作了专门系统,能够处理这些字,但与其他领域的应用系统不兼容,不能实现共享。许多人在计算机和手机上打字常会遇到一些字打不出来的困扰,主要有以下四种情况:要打的字没有计算机编码;应用系统没有及时更新升级,字不在系统字库里;应用系统的输入法没有更新,字不在输入法里;打字者不会用包含其字的输入法。

      (四)汉字应用的规范性

      社会各领域的汉字应用,特别是政府机关(公文)、教育(教材、教师教学)、新闻媒体(出版印刷、广播影视)、主要公共服务行业(文化、商业、邮政、交通、银行、保险、医院等)等四大重点领域方面,总体上说规范性较好,能够遵循相应标准,规范地使用汉字。但仍存在不少问题。

      三、汉字应用的问题及其原因

      (一)汉字应用的问题

      社会各领域汉字的应用主要有三大问题:

      1.应用不规范

      

      2.应用不统一

      各类辞书、教辅读物对一些字的读音、结构、部首的处理不统一,使读者和学习者无所适从。如江西六合的“六”字,有的标音liù,有的标音lù;“鱼”字,有的处理为独体字,有的处理为上中下结构;“劣”字,有的辞书归为“小”部,有的辞书归为“力”部。有些地名用字存在一名多字和一字多音现象,如云南的一个湖有“澂江”和“澄江”两种写法。这是由于更名造成的,“澂江”因“澂”字曾是异体字而改为“澄江”,但许多街道中仍保留着原名。如今“澂”字已调整为规范字,当地群众希望恢复原字。又如海南省五指山市通什镇的“什”,有的读为shí,有的读为zá。各类古籍的繁体出版用字字形不统一,如“祿—禄”。有些网络用字使用怪异字、火星文、随意类推简化字、无读音字。

      3.应用困难

      一些字,特别是生僻、不规范的人名、地名和科技术语用字,因没有编码或虽有编码但在信息系统里不能处理,使一些人遭遇“领不了证、上不了飞机、取不了钱”的困扰,给学习、生活和工作带来诸多麻烦。许多数字化图书馆建设工程,因一些汉字没有编码,无法对浩如烟海的文献进行数字化处理。

      (二)存在问题的原因

      汉字应用不规范,是由于人们规范意识不够强,没有很好地执行相关标准;汉字应用不统一,是由于标准缺乏或不完善;汉字应用困难,则是由于标准缺乏或技术未更新升级。当前,主要有三大系列标准缺乏或不完善:

      一是汉字编码字符集不完善。有些领域需要使用的一些字,尤其是人名、地名和科技术语等用字,因没有编码,在计算机和手机里打不出来,造成应用上的麻烦。

      二是字音标准不完善。汉字的字音有异读现象,如“氛围”读fēnwéi还是fènwéi;有轻声音,如“牛气”读niúqì还是niúqi;还有儿化音,如“果冻儿”读guǒdòngr还是guǒdòng。教材古诗文中,一些字的读音有古音和今音两种读音,如叶公好龙的“叶”读yè还是shè,阿房宫的“阿”读ē还是ā,智者乐山的“乐”读yào还是lè。由于这些读音问题缺乏统一标准,教材教辅编写、教师教学、播音员播音、辞书编纂,便自行解说和标注,给学习和应用造成麻烦。普通话推广普及工作的深入开展,迫切需要完整的普通话语音标准体系。

      三是大字量汉字属性标准缺乏。《通用规范汉字表》8105字中有些是超出过去的7000通用字和20902字符集之外的字,因目前没有相应的属性标准,给人名、地名、科技术语及文言文学习等领域的应用带来了困难。编码汉字已有7万多,但在20902字符集之外的一些汉字,因缺少相应的字音、字形、笔顺、部首、结构等属性标准,无法顺利输入、输出和检索,致使有些领域汉字的应用,尤其是古籍的印刷出版和数字化处理困难很大。

      四、解决汉字应用问题的措施

      (一)制定和完善相应标准

      解决汉字应用难题,需要加紧制定和完善如下标准:

      1.研制专用汉字表

      人名、地名、科技术语等专用领域的汉字情况复杂:有的在《通用规范汉字表》中,有的在表外;有的是生僻字,有的是不规范字;有的计算机里能打出来,有的则打不出来。为了解决现实的使用问题,需要通过普查和审定,制定现实专用字表,提供字音、字义,标注字际关系。2000年民政部、教育部、国家语委曾组织开展全国政区地名用字读音审定工作,目的是解决一名多字、一字多音等问题。因难度大,只形成了学术研究成果,没有行政发布。近几年,民政部启动了全国地名普查工作,为地名的审音定字工作创造了有利条件,通过对山河湖海和行政区划地名进行普查和通盘研究,可以制定出地名专用字表。公安部为换发第二代身份证而制作的专用字库系统,解决了当时的急需,但其中既有姓氏人名用字,又有地名用字,情况复杂,不便应用。为了方便已有姓氏人名用字的使用,需要整理制定现有姓氏人名用字表。全国科技名词委的科技术语审定工作,常会遇到一些特殊用字,需要不断整理研究,制定专用字表,供科技领域应用。

      2.完善汉字字音标准

      汉字字音方面的标准,一直使用的是上世纪80年代发布的《第一批异读词审音表》,已不能满足当前应用实际,需要进行修订,并需补充其他相应标准。教育部、国家语委于2011年启动了新世纪的普通话审音工作,计划修订《普通话异读词审音表》,制定《普通话通用词语读音表》《普通话常用轻声词表》《普通话常用儿化词表》《教材古诗文特殊词语读音表》《通用规范汉字读音表》等标准。有了这些标准,才能构建起完整的普通话语音标准体系。目前已有初步成果,期待标准早日出台。

      3.完善汉字字形及属性标准

      字形标准是汉字属性标准的基础,是非常重要的标准。目前已有国务院发布的《通用规范汉字表》8105字量范围的汉字字形标准,还有国家标准委发布的字符集27484字量范围的宋体、仿宋体、黑体和楷体四种字体的点阵字型标准。今后需要制定汉字手写楷体字形标准及更大字量汉字的印刷体字形标准(包括简化字和繁体字的字形)。另外,在现有的字形标准中,存在着一些情况相同而字形处理不统一的问题,给本来就难学难记的汉字增加了学习难度。这是多年来汉字教学、字形研究和字典编纂专家一直呼吁解决的问题。《通用规范汉字表》研制中曾试图解决,遗憾的是,因字形问题专业性强,社会应用情况复杂,字形微调方案面向社会征求意见时,没有形成共识,字表只好维持原有字形标准。应该说,印刷体字形微调的最佳时机,是在汉字刚刚进入计算机的上世纪80年代乃至90年代。当时调整,大家很容易接受,如今调整,习惯原有字形的人需要有个适应的过程,但这个适应也不是很难。因为是对印刷体字形进行合理合规的微调,既不影响认字,也不影响写字。为了未来的孩子能更便利地学习汉字,我们现在改变一点习惯也是值得的。将来如何解决这个问题,有待深入研究,更需智慧处理。汉字属性标准已有字符集20902字量的笔画、部件、部首、笔顺、字序方面的标准,需要制定7万大字量汉字的属性标准,还需要制定汉字结构标准(指汉字结构方式和汉字结构归类两方面的标准)。

      4.完善汉字编码字符集标准

      完善汉字编码字符集,可解决用字不足的困难。字符集与字表的功能是不同的,字表是指导现代社会规范使用汉字的一定字量的标准,保证现代社会通用即可;字符集是供汉字应用的计算机储备字量,要大量覆盖,字符集要不断扩充需要使用的汉字。国际编码标准多年来一直在更新,中日韩等国家共同制定CJK统一编码汉字,不断扩充完善,正向10万字发展。这里有个很矛盾的问题,就是生僻和不规范的用字,特别是人名地名用字,不编码不方便应用,编了码又容易被人继续用来命名,给汉字系统造成负担和混乱。所以,在解决已有用字编码问题的同时,还需要通过制定使用标准对新的命名用字加以规范和引导,避免产生新的不规范用字。目前新闻出版广电总局正在组织建设中华字库,包括古今文字,需要编码的汉字会超过20万字,目标是建立覆盖全部古今文字的编码字符集,开发字库和输入法,服务于数字化图书馆建设。这关系到汉字的现代使用和长远发展,意义重大。但字库建设工程浩大,任务艰巨,需要较长时间才能完成。

      (二)改进和完善汉字信息处理技术

      解决社会用字不足的难题,需要社会各领域的应用系统,根据最新汉字编码字符集标准,加快更新升级,争取尽快实现大字量汉字在各行业系统的交流和共享,实现网络上的无障碍传输,给汉字的社会应用创造便利条件。相信未来的信息技术发展将会为汉字的应用创造更便捷的条件,汉字的研究和应用也会推动汉字处理技术的发展。

      (三)加强标准的宣传培训和汉字应用管理

      解决用字不规范问题,需要开展语言文字标准的宣传培训,向社会普及汉字应用标准。通过宣传普及,提高标准的社会知晓率,提高全社会规范使用汉字的意识。通过培训,帮助使用者正确理解和使用标准。近几年国家语委在标准普及培训方面采取措施,取得了很好的成效。比如《通用规范汉字表》发布后举办不同对象的标准培训,对字表的宣传普及和顺利实施起到了很好的作用。比如《标点符号用法》和《出版物数字用法》两个最常用的标准修订发布后,随即编写出版了标准解读,有针对性地指导两个标准的具体应用,得到了使用者的欢迎和肯定。今后还需大力加强这方面工作。

      解决用字不规范问题,还需要主管部门和行业部门加强应用管理,引导社会各领域遵循汉字相应标准,提高汉字应用规范水平。对教材、辞书、字库要严加管理;对人名、地名、科技术语新命名用字,要引导使用规范字,避免使用不规范字和生僻字,以免遇到用字打不出来的困扰。虽然教育部等十二部门《关于贯彻实施〈通用规范汉字表〉的通知》规定,允许使用表内字命名,但因表内8105个字的通用度不同,在计算机系统的编码和应用系统的实现情况也有差异,选作命名用字时需特别慎重。表内字有些是有编码也通用的字,方便使用;有些则是有编码但目前在一般应用系统里还打不出来的字,不便使用。用打不出来的表内字或表外生僻字起名,是为难他人也麻烦自己的事情。鉴于目前应用系统还没有全面实现更新升级,新命名的人名用字最好控制在6500字,起码应控制在既在《通用规范汉字表》三级字之内又不超出编码字符集基本多文种平面27484字的范围,新命名的地名用字应尽量控制在字表一、二级6500字的范围。

      总之,加强标准制定和信息技术创新,可共同推动汉字在数字化时代有更好的应用和发展。相信随着研究的深入和技术的发展,汉字的研究和应用将会推动汉字信息处理技术的快速发展,汉字信息处理技术的快速发展,会为汉字应用创造更便捷的条件,未来的汉字应用将会更加方便、快捷、高效,未来的汉字将焕发出更强的生命力。

      ①文中涉及的有些数据参考了《通用规范汉字表》研制组提供的资料。

标签:;  ;  ;  ;  ;  

论汉字在数字时代的应用_汉字编码字符集论文
下载Doc文档

猜你喜欢