“现代汉语信息处理词汇研究”座谈会纪要_现代汉语论文

“现代汉语信息处理词汇研究”座谈会纪要_现代汉语论文

《信息处理用现代汉语词汇研究》课题研讨会会议纪要,本文主要内容关键词为:会议纪要论文,现代汉语论文,研讨会论文,课题论文,词汇论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

国家社科研究“九五”规划重大项目“信息处理用现代汉语词汇研究”课题研讨会于1998年2月22-24日在北京国谊宾馆召开。全国人大常委会副委员长、课题组组长许嘉璐主持会议。国家语委主持工作的副主任朱新均同志到会并讲话,国家语委副主任、课题组副组长傅永和、全国哲学社会科学规划办公室陈文学出席了会议,各子课题负责人及主要成员共20多人参加了会议。

根据会议议程首先由10个子课题组的课题负责人汇报课题组1998年度执行情况。

一、97@YY001-1“信息处理用现代汉语分词词表”子课题(孙茂松汇报)

一个面向信息处理用的、具有较强通用性及覆盖能力的现代汉语分词词表,应适合信息处理的特点,满足信息处理的基本要求。信息处理的不同应用对分词词表提出的要求也不尽相同,例如OCR、语音识别的后处理。一般希望词表不要太大,因而词表的平均词长倾向于短一些,而机器翻译则刚好反过来,平均词长倾向于长一些。我们的词表基本定位在更贴近前一种类型的信息处理应用。

汉语语言学界对“词”的定义与判别并无定论,为避免瓜葛,本文认同的“词”在内涵与外延上与国标《信息处理用现代汉语分词规范》中的“分词单位”大致差不多。在总体目标的约束下,我们的词表与根据语言学理念建立起来的词表尽量靠拢。

操作上采用“定性+定量”的处理策略。

选词原则体现在以下三方面:

第一,凡利用任何一条语言学规则可以判定无误的词,我们照单验收接受。要充分尊重、运用语言学规则。

a.发生转义时(形象表示为:1+1≠2),一律为词。如“黑手”“走后门”“铁姑娘”“榆木脑袋”等。

b.含有至少一个约束语素的,一律为词。如“典籍”“豪华”“幽默”“钞票”“昂贵”“航海”“包袱”“严格”“讲究”等。

c.扩展法:不能被扩展的一般为词(但其逆命题“能被扩展的一般不是词”,我们不予采纳)。如“钢枪”“水桶”“改良”“生产”等。

d.“逆潮流而动者”一般为词。如[动+名]“炸年糕”,正常情况下应为谓词性,却另有一体词性用法,此时为词。

e.形式残缺的,一般为词。如“合得来”“合不来”“谈得来”“谈不来”,其基本式“合来”“谈来”不成立,所以是词。

第二,靠纯粹的语言学规则界定不清但具有合适词法结构的某些成分,只要频率足够高,我们仍接受它们到词表中。

主要涉及动宾、动补(包括[动+动]、[动+形]、[动+介])、定中(包括[名+名]、[形+名])、状中以及前后加缀(包括准前缀、准后缀及其组合)等结构,并且结构中的各子成分均可单用,整体未发生转义。我们称满足这些条件的结构为“词法可采纳结构”(与“词法可采纳结构”相对立的,是“词法不可采纳结构”。凡属于词法不可采纳结构的成分,其频率再高,一般也不收入词表,如动词重叠式“听听”,[数词+量词]“一个”等。)。语言学的传统做法原则上把属于词法可采纳结构的成分一律处理成短语(如“吃饭”“吃鱼”“毁坏”“撕坏”“象牙”“兔牙”“小河”“小猪”“瞎说”“重说”等)。我们的做法在这一点上“宽容”了许多,或许有点儿“离经叛道”的味道,可能会引起激烈的争议。我们的主要依据是:

1.语言学中的证据。

2.语言使用的世俗心理。

3.来自信息编码理论的支持。

4.作为隐式构词知识库的词表,我们认为一个好的词表,不仅仅表现在它显式收录了多少词,还应在一定程度上起到隐式构词知识库的作用,一旦辅以其他必要的计算资源,便可根据词表中的某些词对词表未收录的词进行联想推断。

第三,凡拆开后无助于机器分析甚至增加了机器分析的困难程度的成分,应尽量从合,常用的收入词表。

二、97@YY001-2“歧义切分与专有名词识别软件”子课题(刘开瑛汇报)

主要开展了如下的研究工作:

(一)中文姓氏识别研究

1.建立了中文姓氏库,库的内容有姓氏、姓氏的频率和姓氏的使用度。姓氏频率取自“姓氏人名用字分析统计”(语文出版社)。使用读取自300万新闻语料的统计数据。我们从300万新闻语料中抽取5120个不同的姓名,其中有423个不同的姓氏用字,按姓氏在语料中出现的次数和姓名出现的次数分别进行统计,算出该姓氏的使用度。姓氏频率和姓氏使用度是进行人名识别的重要依据。

2.建立了身份词、称谓词、指界动词表

3.开发了中文姓名识别软件(1.0版)

(二)中国地名识别的研究

首先建立中国地名库,现已收集10多万条中国地名,取自《中华人民共和国地名录》,统计地名中首字、中间字、尾字的用字频率,以及地名中的二字串、三字串的频率。其次,我们以300万新闻语料为基础,统计了中国地名用字的使用度。这些数据都是开发识别地名软件的依据。

中国地名识别算法采用常用地名库匹配,地名用字库,地名用词库,地名特征字库,地名上下文信息库,地名用字共现频率等信息。对于一段不分词的文本先用常见地名库剔除常见地名后,利用地名首、中、尾部用字信息寻找潜在地名,然后借助地名首词、尾词信息,地名特征字,地名上下文,地名用字共现信息缩小和确定地名的界限。

(三)组织机构名识别与分析

正在建立组织机构名固定用字库,已有初步的识别算法模型,正在细化。

中国机构组织名识别算法采用常用机构名库匹配,地名及地名简称与机构组织名固定用字库前后匹配识别算法,同时进行语法、语义搭配检查。

(四)英语译名的自动辨识

从资料中获取英语译名用字表,识别算法采用译名用字库,译名用字共现频率,及称谓库,指界动词库,地名上下信息库等资源。同样是在不分词的文本中,利用译名首、中、尾部用字信息寻找潜在译名,利用译名用字共现频率缩小译名的边界,最后利用称谓、指界动词等上下文信息确定是地名译名,还是人名译名。已着手建立识别试验软件。

(五)歧义切分的研究

1.从180万新闻语料中,通过词典匹配,找出交集型歧义字段共8386个,建立了交集歧义字段库。从50万已加工的语料中,归纳出33个二字词的多义型歧义字段表,对含有交集型歧义和多义型歧义的句子的语言现象进行了分析,并对相关信息进行了统计。

2.研究了歧义切分的算法。采用基于统计信息和基于变换的算法,开发歧义识别软件。经过测试,交集型歧义切分的正确率可达88%,多义型歧义切分的正确率可达85%。

三、97@YY001-3“词的构造研究”子课题(苑春法汇报)

汉语词的构造研究具有重要的理论意义和应用价值。尤其在中文信息处理中对未登录词的识别具有重要的指导意义。本子课题将在清华大学建造的汉语语素数据库的基础上开展研究,由于数据库中存有大量的语素构词的各种数据,这无疑对本课题的研究提供了方便的条件,从而为汉语词的构造研究开辟了一条新的途径。

1.在清华大学语素数据库的基础上,从语法构词(陆志韦)和词汇性构词(刘叔新)两种观点开展平行的构词法研究对比。

2.研究新词新语的构词规律,以弥补自动分词系统在这方面的知识空缺。

3.对于分词词表中不便穷举的词语,如名词、动词、形容词的重叠形式,四字语型,由类词缀构成的附加词等,可通过构词规则的描写予以穷尽。

4.语素数据库目前收词为5万左右,还需要补充某些常用词语和新词新语,以便对构词法研究提供更真实的语料。

该课题从1998年1月启动以来,主要完成了两项工作。一项是开始了基于汉语语素数据库的汉语构词研究;一项是为开展汉语构词研究做了一些基础性的工作,即对汉语语素数据库中的汉语语素和二字词进行了语义类代码标注。

(一)基于汉语语素数据库的汉语构词研究

在清华大学建立的汉语语素数据库的基础上,对于汉语的二字复合词的构词规律开展了统计、分析和研究。在汉语语素数据库中二字复合词共有43097个。其中名词有22016个,占51.1%;动词有15666个,占36.4%;形容词有3276个,占7.6%。三类复合词合起来占二字复合词总数的95%,是绝大多数。

二字复合名词的构词方式主要是以定中偏正和体素联合为主,定中偏正占80.6%,体素联合占9.3%。二字复合名词中绝大多数是由名词性语素构成。

二字复合动词的构词方式主要是以述宾、谓素联合和壮中偏正为主,它们各占39.7%、27.0%和23.3%,共占二字复合动词的90.0%。二字复合动词中绝大多数是由动词性语素构成,其中“动+动”占44.7%,“动+名”占34.1%,“形+动”占7.2%,并且复合词中第一个语素是动词性语素的占了绝大多数。

二字复合形容词的构词方式主要是以谓素联合为主,占总数的62.5%。二字复合形容词中绝大多数是由“形+形”组成,占总数的67.3%。

(二)汉语语素数据库中的语素和二字词的语义代码标注

为了在语义层面上揭示复合二字词的构词规律以及语素在构词过程中的语义转化规律。在本年度我们对汉语语素数据库中的语素和二字词进行了语义代码标注。语义代码体系采用了梅家驹编著的《同义词词林》,它有12个大类,94个中类,1428个小类。在语义类码标注过程中,我们采用了一些策略。

(三)阶段研究成果。汉语语素数据库中共有语素5608个,已标注义类代码的语素个数为10021个,标注率为64.2%。汉语语素数据库中共二字词45964个,已标注的义类代码的二字词个数为25921,标注率为56.4%。

四、97@YY001-4“汉语词类及标记集规范”子课题(李竹汇报)

《词类及标记集规范》课题组,对国内主要语料库标注系统和标记集进行了广泛的分析调查,并对语言学界有关词类问题的论著作了认真的调查研究,在此基础上完成了《汉语词类及标记集规范》征求意见稿。

(一)对汉语词类及标记集问题的调查研究

有关词类问题的研究,在语言学界已取得了很多成果,也还存在着许多问题需要进一步讨论,但经过多年的研究,从理论上讲,人们对词类问题的认识已基本上统一了。这是我们研究信息处理用的汉语词类及标记集的基础。因此课题组对不同的语言学家的语法著作作了认真的学习和分析。为什么要划分词类?用什么样的标准来划分词类,这是研究词类问题首先要解决的问题。划分词类的目的,直接影响着词类研究中对某些问题的处理。课题组认为应该继承语言学家的研究成果,借鉴各家的分类体系,从信息处理的实际要求出发,确定一个面向信息处理用的现代汉语词类及标记集规范。

为中文信息处理的需要而设计的现代汉语词类标记集很多,课题组对几个主要的词类标记集,如北京大学、清华大学、山西大学、复旦大学、东北大学的词类体系和标记集,作了认真的对比分析。通过对比分析我们发现,不同的标记集中词类的数目相差很大,名称也不完全一致,但如果从分类的大的层次(大类)上看,分类原则是一致的,都是从句法功能的角度划分词的大类。如果考虑到词的小类,则可以看出不同标记集中的词类数目的不同,与划分词类的细致程度,以及哪些小类可以提升为独立的大类上的不同考虑和不同的处理方法密切相关。在小类的划分上,除了细致程度的不同外,还存在着分类标准的不同,也就是说在次类的划分上,有的是从句法功能的角度划分的,有的是从语义的角度划分的。结合标记集所服务的系统,可以看出划分小类的标准不同,是出于对具体系统的特殊要求的考虑,有的偏重于句法表示,有的偏重于语义表示。

(二)制定《汉语词类及标记集规范》征求意见稿

制定《汉语词类及标记集规范》征求意见稿首先要决定的是这个标准的确定原则。确定信息处理用《现代汉语词类及标记集规范》,首先要在现代汉语词集上,建立一个分类体系,该分类体系要符合信息处理的特殊目的和要求。划分词类依据的主要原则有两个:1.语法功能原则。语法功能是词类划分的本质依据。词的意义不能作为划分词类的主要依据,但有时也起某些参考作用。词的语法关系表现为词在句中的分布情况,它们都能充当什么样的句子成分,以及词和词、词和词组之间的组合关系。什么样的词可以组合在一起,组合起来后词与词之间或词与词组之间有一种什么样的关系?哪些词不能组合在一起?根据词的语法功能将词划分为不同的类别。2.在中文信息处理界已产生了较大的影响,涉及词类标记集的相关系统,也是制定信息处理用《现代汉语词类及标记集规范》的重要参考。

通过对现有汉语词类及标记集的调查,我们认为《汉语词类及标记集规范》中的标记应该覆盖以下几个方面的内容:(1)语言学词典中的词;(2)一些结构较为紧密的成分。(3)语素字、非语素字等等;(4)标点符号及非汉字符号。

有关兼类问题的研究本不在这个子课题的范围之内,但在划分词类的过程中,不可避免的要碰到兼类问题。通过课题组内部的讨论,我们在《汉语词类及标记集规范》征求意见稿中对兼类问题有一个处理策略。兼类是指一个词(同音同形)具有两类或两类以上词的主要句法分布特征。这些词可以分为两类:1.无论分布如何,词义没有发生根本变化,即同形同音词在不同的分布中同义。2.当具有不同的分布时,词义有明显的区别,即同形同音词在分布不同时词义不同。例:“国家标准”和“他的发音很标准”中的“标准”属于(1)类;而“白跑了一趟”和“白颜色”中的“白”属于(2)类。语言学家们一般认为(1)类词是兼类词,而(2)类词当分布不同时根本就是不同的词,即同形词。在计算机语言信息处理系统中,对于(1)类词,因为它兼属不同的类,在词典中要有它所兼的各类词的词类信息,并指出这是一个兼类词;对于(2)类词,因为它是不同的词(同形词),在词典中作为不同的词条收入了,需给出这个词具有同形词的信息。将(1)类词和(2)类词都看成是兼类词。也就是说一个同形同音词,如果具有两类或两类以上词的主要句法功能,这个词就是一个兼类词。而同形不同音的词是不同的词。

兼类与活用不同,当甲类词临时活用为乙类词时,并没有改变它原来的词类特征,只是修辞的需要。活用现象不能包含在兼类之中。

《汉语词类及标记集规范》征求意见稿已用信函的方式寄给了有关专家,并且已收到了部分专家的意见。专家们普遍认为这个《汉语词类及标记集规范》征求意见稿基本上是可行的,但在某些具体问题上,如兼类问题和个别词类的划分上有不同意见。另外我们还利用山西大学刘开瑛的词类标注系统对部分语料做过实验。我们计划在以后的研究中对专家意见进行重点研究,通过多种方式吸取各家之长,并在真实语料中验证标记集的覆盖性,最终依据语法功能的原则,根据信息处理的需要,制定出《汉语词类及标记集规范》,给信息处理系统提供一个方便好用的统一的词类标记集。

五、97@YY001-5“汉语词类兼类研究”子课题(胡明扬汇报)

课题组自1998年下半年启动以来至今一共开了四次全组讨论会。

课题组认为在信息处理用词类体系尚未确定以前,兼类问题无法展开具体工作,因此这些时候的工作集中在词类大类的再分类方面。课体组以前在“词类问题考察”项目中实际上只解决了三大实词类之间能不能兼类和词不达意类跟语法分析的关系这些理论问题,并没有对每一类词进行细致的研究,也没有解决各大类的再分类问题。信息处理用的词类体系尽管划分原则和母语教学并无二致,但是根据计算机的需要,要分得更细一些。认为计算机处理自然语言的词类体系不仅要考虑句法分析的需要,还必须考虑根据句法结构作出相应的语义解释的需要,甚至也要考虑生成汉语句子的需要。不同的需要要培育有不同的词类体系。首先考虑句法分析和语义解释的需要,暂时没有考虑生成汉语句子的需要。这仅仅是为了简化当前的工作。如果需要考虑生成问题,可以再细化。

信息处理用的现代汉语词类的分类标准应该和母语教学用的现代汉语词类的分类标准保持一致,唯一的分类标准只能是句法功能。因为计算机处理自然语言只能根据词类序列,连同词类属性提供的信息,来判定句法结构,所以划分词类的标准只能是句法功能。句法功能主要是指句子成分功能,但是也包括在短语中的组合功能。在划分词类时,句子成分功能具有普遍性,但不具有排他性;短语组合功能,或所谓鉴定词和鉴定格式具有排他性,但不具有普遍性。这一点经过近年来的研究各家意见已经渐渐趋于一致,尽管在具体操作过程中还有不同意见。

信息处理用的现代汉语词类体系的分类肯定要比母语教学用的现代汉语词类体系的分类分得更细,因为掌握母语的人会自动补充很多必要的句法信息,而计算机却无法自动补充任何必要的语法信息,因此,分类分得细一些,实际上就是给计算机提供更多的句法信息,便于计算机自动进行句法分析。

信息处理有的现代汉语词类体系,不仅应该考虑尽可能满足计算机自动进行句法分析需要,也应该考虑句法分析以后作出相应的语义解释的需要,此外,还应该尽可能为计算机辨认词库中没有的新词语创造条件。按理,信息处理用的现代汉语词类体系还应该考虑生成现代汉语语句的需要,但是鉴于目前的条件,本项目暂不考虑生成的需要。

词语的句法功能自有相应的语义基础,但是语义的判定有极大的主观随意性,因而无法作为分类的标准,而且由于同样理由,也无法作为判定词语的同一性的标准,更何况计算机根本无法像人那样自动辩认语义,所以当词语出现多功能现象时,分类的标准仍然只能是句法功能;任何偏离句法功能标准的做法势必破坏聚合关系和组合关系之间的有机联系,从而使词类和句法脱钩,最终使词类本身失去存在的意义。

信息处理用的现代汉语词类体系在某些具体问题的处理上可以和母语教学用的现代汉语词类体系有所不同,例如,固定短语(成语、俗语、语等)等都可以作为语项(IEXICAI ITEM)存入词库,如“像/和/跟 一样/一般”,“如/如果/假如……的话”,甚至“……分之……”等等都可以作为特殊的“词语”放在词库里。这些特殊成分一旦放在词库里,按理,也应该给出“词性”。这们做可能并不十分困难,例如,固定短语一般是一句句子,或者是名词性的,形容词性的,动词性的等等,可以分别标注相应的词性,“像……一样”等等可以注介词性的,“如果……的话”可以注连词性的,“……分之……”也许可以认为特殊的“词类”来处理。

六、97@YY001-6“现代汉语的语法属性描述研究”子课题(俞士汶汇报)

课题组在1998年度完成了以下一些工作:

1.今年已将《现代汉语语法信息词典》的收词规模由5万扩充到7万。按照《现代汉语语法信息词典详解》中的规格说明书,7万词的语法属性描述工作已完成3/4以上。这为精选2万到3万词的最重要的语法属性作好了第一项准备工作。

2.为了精选2万到3万个世界各地中国人和华人都最常用的词,北京大学计算语言学研究所得到香港、台湾和国内朋友的帮助,已收集了4部规模都在6万词以上的词典。将这些词典同《现代汉语语法信息词典(扩充版)》加以比对,可为2万到3万词的选择提供根据。

3.已对《现代汉语语法信息词典》原有规格说明书中的语法属性字段进行了筛选,形成了《现代汉语语法信息词典(98精品版)的规格说明书》(草案)。这是本子课题的又一个基础。

4.本子课题的最重要的基础乃是经过加工的规模足够大的语料库。最基本的加工是切分和词性标注。我们已选了上千万字规模的语料,以此为对象,制订语料库加工规范,现在已有了试用稿。按照这个规范已实际加工了约8万字的语料,积累了经验,培训了队伍,为大规模工程实施准备了条件。

5.分析了《现代汉语语法信息词典》各语法属性字段的类型,提出了将现在的“是非型”“可否型”“复合型”属性字段改造为概率型属性字段的原理和实现方法。词的概率语法属性研究是本子课题的新的有开创性的研究内容。

6.配合“现代汉语词类标记集规范”子课题,本课题组一方面认真研究李竹提供的规范初稿,提出本课题组的意见,另一方面考虑到这个规范的制订,也对现代汉语语料库加工规范作了一些适应性调整,而且这种调整也兼顾了词的概率语法属性研究的需要。

总的来说,本子课题在1998年已完成了相当一部分工作,并为后两年乃至更远的研究作了一些必要的准备。

七、97@YY001-7“现代汉语述语动词机器词典和槽关系研究”子课题(陈群秀汇报)

子课题的研究目标有两个:一是将用论旨网格描写的动词义项从3002个扩充到4000个,二是研究以现代汉语名词为中心的槽关系。

《现代汉语述语动词机器词典(DOS版本)》,其词典库包含3002个常用的汉语动词的有关词形、拼音、词性、动词分类、释义、论元数、义项数、义项序号、论旨模式的基本式和变换式、句例、论旨角色的语类、句法功能、语义限制、论旨实例、否定形式、时态、语义指向动词的后状以及论旨模式的扩展式等丰富的词法、句法、语义信息,还有一个信息处理用现代汉语语义分类体系。子课题组将描写的义项从3002个义项扩大到4000个,同时实现Windows版本。

述语动词的论旨网格(即动词框架)描写的是论旨角色间的语义关系,即事件的各种角色间的语义关系(格关系),这是句子语义的核心。在此基础上,我们再研究论旨角色内部的语义关系,即研究动词框架的槽关系(即研究以名词为中心的词组的定语与中心词之间的关系),槽关系也是语义系统的一个重要组成部分。格关系和槽关系共同组成语义知识源,可作为中文信息处理和语言研究的重要知识源而共享,对汉字输入的自动化和智能化、办公室自动化、手写体汉字和印刷体汉字识别的后处理、汉语语音识别的后处理、汉语全文检索和自动文摘、机器翻译、汉语自动分词和自动标注、汉语句法分析和语义分析、汉语自动生成、汉语人机接口等自然语言处理系统的研究和开发都是必不可少的,对汉语语言学研究、汉语教学和对外汉语教学也大有裨益。

研究小组曾四次召开小型工作会,讨论本组几个成员对名词为中心的槽关系研究原有成果的优缺点和新的设想,研究现代汉语名词槽关系的描述表达问题、设计原则和工作单位设计问题,拟订工作单填写规范几易其稿并进行试填。1988年度已进行如下几项工作:

1.已完成《现代汉语述语动词机器词典(Windows版本)》的主要软件设计和库转换、人工校对工作;

2.已完成欲扩充的1000个动词义项的词表选择工作并正在进行句例的人工分析和工作单填写工作;

3.已完成目前所需的某些以名词为中心的词组实例抽取工作并进行了人工分析和填写实验;

4.《现代汉语名词槽关系系统》工作单的设计定稿和印刷工作;

5.讨论拟定了《现代汉语名词槽关系系统》工作单填写规范(第一版),其中包括设计原则、填写说明及槽类型的定义、例示等。

槽关系描述信息以语义描述为主(槽类型:定语与中心名词的语义关系)、句法信息为辅(语类:定语的句法范畴)。每个名词从大量的词组实例中挑选3个最有代表性的实例分别填入工作单描述每个实例的若干个定语的语类、槽类型、槽类型顺序,然后发挥语言工作者的语感和经验,归纳出可能顺序,最后由这3个例子的可能顺序再进行归纳和联想出该名词的总的可能的槽关系表达式。

槽类型(即槽关系名)的设计是在本研究小组的几个成员的研究成果和设想基础上设定的。槽类型设定共分两层,第一层槽类型为21种,第二层为49种,两层共70个类型,大致分为属性、状态、关系三大块。

八、97@YY001-8“汉语知识词典建立及词汇内部语义网络描述研究”子课题(董振东汇报)

本子课题研究的主要内容包括两部分:(1)汉语语义词典的建立,具体实现在于:在原有的知识词典的基础上,为每一个多义义项填写5~6个例子;(2)汉语两字或多字格词汇(短语)各组成部分间的语义关系的模式。

课题的第一项工作其基本方式是:利用自行开发的软件从原有的知识词典中抽取多义词条,形成文件,交给例子填写人员,在计算机上直接研究义项、填写例子,然后打印,交给一校人员,经一校后再交给主审。现在,已填例子的有10000条,已完成终校的有3000条。

课题的第二项工作:1998年10月进行过一次讨论。通过讨论主要研究人员对本项研究的内容及其对中文信息处理的作用已有较清楚的认识。到年底为止主要是分头收集资料的时期。

关键性问题:严格地说,本课题主要任务是工程实施性的,但它可以对已有的研究在学术上起到验证的作用。与整个知识词典配合,在工作伊始就特别强调“信息处理用”这一特点。再三提醒所填写的例子,务必注意它们的“区别能力”,而不要太追求它们的“解释性”或“完美性”。从已经完成的部分看,这些例子与普通的面向人的词典的例子相比具有很强的信息处理用的特色。

九、97@YY001-9“汉语文本短语结构的人工标注”子课题(范开泰汇报)

“汉语文本短语结构的人工标注”是与“汉语词类标注”研究相配合的一个课题。这个课题的研究,分两步走。第一步,研制汉语短语结构分析框架,包括短语结构类型分析和短语结构层次分析,制定一个“汉语短语结构标注规范”。第二步,进行真实文本的短语结构标注。

信息处理用的汉语短语分析研究应该走到自动分析的路子上来,但目前自动分析系统的分析准确率较低,先进行“人工标注”是妥当的。这样,一方面可以配合完成信息处理用汉语词汇研究的总任务,另一方面,也可以为制定“短语分析规范”提供实践验证材料,为“自动标注”研究提供参照数据。

信息处理用的短语结构分析最好是在词性标注和语义标注都完成以后再进行。从实际出发,拟借助于已有的研究成果,利用现有的已完成词切分、词性标注的语料,进行短语结构标注样本试验,试定“汉语短语结构标注规范”。

十、97@YY001-10“常用动词语义特征与词义搭配”子课题(张国宪汇报)

《常用动词语义特征与词义搭配》获准立项后,课题组根据人员变动和拨款情况对课题计划进行了调整,现前期研究工作基本正常。

前期研究工作的重点是制定《常用动词词表》,由于该项目承担人中途退休,该项工作现改由他人进行,将直接关涉到本课题的质量、进度、水平,所以我们对此特别地慎重和重视。在制定词表的同时,语义特征和形式特征的分析也进行了前期探索性研究,以便为第二阶段的研究摸索经验。

各子课题组汇报后,专家们对课题研究过程中的重点、难点问题进行了热烈的讨论,会上进一步明确了各子课题组的任务项以及跨课题组的任务;课题组的成果形式、成果数量;课题的难点及有争议的地方应该形成整个课题组的意见;每一个课题组下一步的工作进度、时间安排,特别是关联性课题的进度安排。最后许嘉璐副委员长对课题工作作了总结性发言。他对各课题前一阶段的工作给予了充分的肯定,对专家们扎实的研究学风给予了高度赞扬。他认为本课题的意义非常重大,课题具有前瞻性。作为中文信息处理的基础研究应该受到高度重视,现在很多人还没有意识到这项研究工作的重要性,基础研究是艰苦的也是长期的。该项目从1998年年初启动,一年的时间,各课题组都做了大量的工作,卓有成效,各位专家与课题组成员对研究工作高度负责,对中文信息处理事业,有执着的精神。中国人研究中文信息处理应该有自己的队伍,要后继有人,现在我们是跨地区跨单位的结合,这支队伍很可贵,要在稳定中不断扩大,延续下去,通过后继项目继续团结一大批人才,培养一大批人才。但同时也指出各课题组工作进展不平衡。许副委员长在总结中还对如何保证质量加快研究步伐,以及下一步工作作了具体指示。

为保证课题研究的顺利进行,最后专家们一致通过会议决定:

1.“信息处理用现代汉语分词词表”课题要先行,尽快出成果;1999年1月召开研讨会,重点讨论收词原则;3月拿出词表供其他课题组使用,9月拿出标有频度及分布数据的词表,进行审定。

2.“汉语词类及标记集规范”课题要本着从细不从宽的原则提出一个科学、实用的词类体系。要作充分的研究并在一定数量的语料上进行标注和分析,以验证词类体系的可行性。争取1999年11月拿出经过验证的词类体系。

3.加强对课题的管理:课题每半年召开一次课题研讨会并根据需要召开专题研讨会。1999年将召开词表和词类问题的研讨会。

4.国家语委2000万字的核心语料库将在1999年3月后提供课题组使用。

标签:;  ;  ;  ;  ;  ;  ;  

“现代汉语信息处理词汇研究”座谈会纪要_现代汉语论文
下载Doc文档

猜你喜欢