语料库语言学研究_自然语言处理论文

语料库语言学研究_自然语言处理论文

关于语料语言学,本文主要内容关键词为:语料论文,语言学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

0.引言

语料(corpus),又称为素材,是自然发生的语言材料(包括书面语和口语)的集合。“可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段(Crystal,1991)。”语料语言学(corpus linguistics)是以语篇(text)语料为基础对语言进行研究的一门学科,是计算语言学(computational linguistics)的一个分支。本文试图通过对语料语言学的发展、语料库的建立、语料语言学的研究方法,以及今后发展的叙述,使读者对这一新学科有一个概括的了解。语料语言学发展初期基本上以英语作为研究对象。但是,现在已发展到20多个语种。本文的叙述以英语语料语言学为基础。

1.语料语言学的由来和发展

利用真实的(authentic)语言资料研究语言一直是语言学的传统。历史上荷兰的英语语法学家Poutsma和Kruisinga、《牛津英语辞典》的编纂者Murray和《现代英语语法》的作者著名语言学家Jesperson都曾以很原始的方法认真积累真实语言素材,并且以这些素材为基础来发现规律和解释语言现象。他们还将素材作为例子在各自的著作中加以引用(Svartvik,1992)。

但是,到了本世纪50年代后期,随着Chomsky生成语法学派的兴起,“基于语料”的语言描述方法遭到批评。生成语法学派指责语料有局限性,Chomsky本人曾批评说:“任何自然语言的语料都是偏颇的。有些句子显然是不会出现的,另外一些句子是假的,不会出现,还有些句子是不礼貌的,也不会出现(Chomsky,1962)。”他们认为语料不过是语言行为(performance)的取样,与人们的语言能力(competence)完全是两回事。因此,分析真实语篇对解释语言的语法不可能起任何作用,更不用说形成一种普遍的语言学理论。到了60年代初,人们对真实的语言素材兴趣降到了最低点,而语言学家由语感(intuition)或诱发(elicitation)所得到的语言使用例子成了语言学研究的主要数据来源。

尽管如此,新一代语料语言学的奠基人不畏权威的批评,开始了自己的工作。1959年,Quirk宣布要搜集大量不同文体的英语素材,建立英国英语口语和书面语语料库,即后来的SEU语料库(The Survey ofEnglish Usage Corpus),作为系统描述英语口语和书面语的根据。1961年,Francis和Kucera在美国Brown大学建立起Brown语料库(BrownUniversity Standard Corpus of Present-day American English),其中的语篇取自1961年美国英语出版物,字数超过100万。这是世界上第一个机器可读(machine-readable)语料库。1970年,在英国Lancaster开始了一项与Brown语料库结构基本相同的英国英语语料库工程。但是,由于缺少经费该工程迟迟不能完成。后在挪威同行的帮助下于1978年完成,称为LOB语料库(Lancaster Oslo-Bergen Corpus of British English)。这个语料库中的英国英语书面语和Brown语料库中的美国英语书面语为这两大方言的对比研究提供了多方面的依据。1975年,在瑞典Lund大学的Svartvik主持下,开始对SEU语料库中的口语部分进行改造,使其成为机器可读形式。这项工作的成果是诞生了LLC语料库(London Lund Corpus)。90年代以前,这个语料库一直是研究英语口语的最好资料来源。

进入80年代以后,随着计算机技术的发展和普及,语料语言学的发展加快了步伐。许多新的语料库相继建成,对语料的处理也由较为简单的机器可读形式发展到人工或自动词性附码(tagging)和句法分析(parsing)的注释(annotated)形式。利用语料对语言进行研究的成果不断出现。很多成果已被用于辞典编纂和语言教学等实际工作中,例如1980年由Sinclair主持的一个语料库工程,即Cobuild计划(Collins Birmingham University International Language Database)。这是Collins出版公司与Birmingham大学的一项合作计划。他们搜集了大量的现代英语口语和书面语素材,逐一分析每个单词的词汇、语法、语义、语体和语用特点,并将这些资料输入到计算机数据库中。根据这个数据库中资料,陆续出版了一系列COBUILD词典和语法等工具书。这些书中的例句取自真实的语言素材,词典中词的释义排列顺序由语料库中得出的统计结果来决定,更加客观地反映了英语的使用情况。此外,词的释义方法更利于英语学习和教学。因此,这些书一出版就受到语言学界和语言教师及学生的欢迎。

30多年来,在致力于这方面研究的语言学家坚持不懈的努力下,现代语料语言学逐渐得到发展。建立语料库和进行语言研究的手段不断得到完善。计算机运算速度的提高、光学扫描仪和CD-ROM(光盘只读存储器)等技术的发展、存储器成本的降低以及以软盘或CD-ROM形式提供的商品化语料库及其配套软件,不但使大批量的数据处理成为可能,而且使以前只能在大型(Mainframe)计算机上运行的语料库在微机上也能运行。越来越多的人开始参与基于语料的语言学研究。新的研究成果的不断出现改变了人们对语言研究的固有观念和研究模式。1991年8月,在斯德哥尔摩召开的诺贝尔语料语言学研讨会(Nobel Symposium on Corpus Linguistics)上,语言学家们在认真总结和评估了这方面的研究成果之后得出的结论是语料语言学“正在成为一个独立的学科”(Svartvik,1992),而且发展前景相当广阔。正如著名的语言学家Leech(1991)所说:“那些搞计算机语料工作的人忽然发现自己置身于一个越来越广阔的世界里。多年来,语料语言学只是少数几个人梦寐以求的愿望,他们得不到语言学或计算机科学的承认。现在情况正在发生很大的变化,而且人们要求将来发生更大的变化。”

2.语料语言学的研究过程和方法

语料语言学的研究过程主要包括建立语料库、对语料进行加工和根据不同的研究目的调用库内语料并对结果进行分析。

2.1. 语料库的设计与建立

语料库的建立涉及选择语料、确定规模及结构和语篇处理等工作。

2.1.1. 语料的选择

建立语料库首先要根据研究目的考虑语料的选择。库内的语料可以取自书面语,也可以取自口语,或既取自书面语又取自口语。建立含有口语语料的语料库要比建立仅以书面语为语料的语料库的难度要大,因为口语语料先要经过录音,再将录音内容整理成文字,然后选择某种方式(如扫描方式或键盘输入方式)输入库内。但是,许多语言学家认为研究口语是研究语言最有效的途径,因此,建立口语语料库越来越受到语言学家的重视。以电影或戏剧剧本作为口语语料是不足取的,其中的对白是“经过斟酌的(considered)”语言,有其自己的特点,不能反映自然会话的特点。另外,会议、法庭审讯、广播和电视节目等的录音也不能作为口语语料,因为其中除了即兴而发的语言之外也含有“经过斟酌的”语言。

语料的语体也要考虑选择的范围从正式语体到非正式语体,从文学语体到普通语体。语料库的主要用途之一是发现语言的主要的和典型的用法。有些作家和报纸的专栏撰稿人喜欢使用一些独特的字眼或表达方式,如果库内这类语篇所占的比例过大,就不能反映该语言一般使用者的典型用法。

有些语料库,如我国上海交通大学杨惠中教授主持建立的JDEST科技英语语篇语料库(Yang,1985),根据研究的范围对语域有一定限制。但是,一般用途的语料库的语料随机地取自各种来源,在语域方面尽量避免偏向,例如Brown语料库在语域上分为15个类别(新闻报导、社论、新闻评论、宗教、技能和爱好、学术和科技、各类小说和幽默等等)。Biber(1988)根据语言内在条件对语料的语域分类可作为语料采集的参考标准。

大多数语料库的语料都有特定的年代跨度。根据不同的研究目的,从一年至数百年不等。如为了研究英语史而建立的Helsinki Corpus ofEnglish Texts的历时部分,年代跨度从公元850年至1720年。再如为了进行同一时期英语不同方言的对比研究,LOB语料库(英国英语书面语)专门选择了与Brown语料库(美国英语书面语)相同的取材年代(1961年)。

2.1.2.语料库的规模和构成

从某种意义上来说,计算机能力的日益提高和语料库规模的日益增大从不同的侧面反映了语料语言学的发展。70年代的语料库,如Brown语料库、LOB语料库和LLC语料库等,一般为100万单词,以当时的标准来衡量是相当大的。80年代的语料库,如Birmingham Collection of English pext和Longman Lancaster English Language Corpus等,有数千万单词。进入90年代以后,语料库的规模,如British National Cotpus和Bank of English都达到了上亿单词。Leech(1991)估计,如果照这样发展,2010年前会出现1万亿单词规模的语料库。

Sinclair(1991)认为,语料库(的总体规模)应该尽可能地大,而且还应该不断地扩大。他的根据是Zipf(1935)提出的语篇中词频的特点。一般来说,单词在语篇中的出现频率很不平衡但却有规律,根据Sinclair对COBUILD数据库所做的词频统计表,出现次数最多的是the(在总数约1800万词的不同语篇中出现了309497次),约为紧随其后的of(155044次)和and(153801次)的两倍。此后表中的词频急剧下降,至第十九个词频最高的单词be时,词频为29799次,不足the的10%,至第八十四个词fwo时,词频仅为7334次,不足the的3%。据统计,语篇(甚至是相当长的语篇)词汇表中约一半是仅在该语篇中出现过一次的单词。词频是研究某个单词在语篇中用法的一个很重要的参考指标。仅出现一次不足以作为描述该单词特点的依据。因此,他认为一般语料库的总体规模至少要有几百万单词。此外,他认为语料库应该不断扩大的另一个理由是,从大的语料库上可以随时根据需要提取素材建立任何较小和更专门化的语料库。

语料库一般以单词数量大致相等的语篇构成。早期的语料库,例如Brown语料库,以500篇约2000单词的语篇构成。这样的构成方式的原则是“计划性、实际需要和随机性的结合”(Francis,1979)。这些语篇都是从较长的语篇上截取下来的,称为样本语篇(satnple fext)。其后的一些语料库也沿用这种结构,主要是为了便于比较研究。有的语言学家,如Sinclair(1991),把这种由样本语篇构成的语料库称为样本语料库(sample corpus)。他认为由于对连续的语篇有2000词的限制,不适合对于较长的语篇的研究,其词汇也难免会间接地受到语域分类的控制,无法进行非高频词特点的研究,因此只适合于在很多语域都频繁出现的词汇的研究。他建议建立一种新的、动态的语料库。这种语料库就象语言一样没有最终的范围,而且还不断地发展。大部分材料来自机器可读形式的语篇,随着其规模的不断扩大,可根据研究者的不同需要对其中的语料进行过滤和删除。他称这种语料库为观察语料库(monitor corpus),因为它们能容纳用于各种研究目的的“语言状态”。对观察语料库进行操作可检索到样本语料库不能提供的信息。观察语料库的一个例子是Bank of English,这个语料库目前已有2.11亿词的规模,而且还在以每月500万词的速度扩大。Cobuild English Collocations on CD-ROM就是以这个语料库内的语料为基础构成的一个用于研究英语词的搭配的语料库。

2.1.3. 语篇的处理

进入语料库的语篇一般都要进行处理,以适应以后各种研究的需要。语篇可以以不同的机器可读形式存入语料库。不同的形式为语言研究者提供的信息的种类和数量有很大的差别。

2.1.3.1. 原始(raw)形式

语篇可以以原始形式存入语料库。所谓原始形式是指语篇原来写在或印在纸上的形式。如输入计算机时,仅加入了一些必要的标记,如语篇的起始和结束标记、分页标记和页码等。如果是口语语料库,其原始形式中还包括一些停顿及停顿的长度、重复和笑声等标记。这种“清洁的”语篇形式有两个优点:1)对语料的每一项研究都有各自的特点,保持原始形式可以满足不同的研究需要;2)可以避免由于语言学家对语言的看法(如词性的确定和语法分析等)的不一致而使加上分析标记后的语料库只反映某些语言学家的观点。但是,原始形式的语篇也有其固有的弱点。借助检索工具(concordancer)一般只能做一些相对来说较为简单的工作,如词频统计、词义研究、词组和搭配(collocation)的研究等,其范围仅限制在词组以下的平面上。此外,检索工具无法区分语料库中出现的同形异义词(monograph),如“I”到底是人称代词“我”还是罗马数字“一”、“minute”是名词“分钟”还是形容词“微小的”等(Leech,1991)。有些研究需要大量的手工操作才能完成。

2.1.3.2.注释形式

为了对语料库内的语料进行更高层次(句子平面)的研究,必须对入库的语篇做进一步的处理,如进行词性附码和句法分析。经过这些处理的语料库便为注释语料库。

词性附码是指对库内语篇中所有的单词根据其语法作用加注词性编码(tag)。一般先由语言学家根据某种语法理论和研究需要设计出一套词性附码集(tagset)和标有各种可能词性附码的词汇表(lexicon)。然后,再由软件编程人员按该语法的分析编写处理程序。这种程序称为词性附码器(tagger)。在运行词性附码器时,对于语篇中的每一个单词,它都会首先自动根据程序要求从词汇表中找出对应单词,并将其编码附在语篇中该单词的后面。一般情况下,冠词和标点(标点被作为单词对待)等均为唯一附码,而其它单词则可能会有两个或两个以上的附码。例如:

单词 词性附码

a ATI

round JJ RI NN VB@ IN@

其中:ATI=冠词,JJ=形容词,RI=某类副词,NN=名词,VB=动词,IN=介词,词性附码后的"@"标记表示这种词性的可能性相当小(Garside,1987)。然后,由人工或由词性附码器对带有多个附码的单词进行一系列排除歧义(disambiguation)操作,使每个有词性歧义的单词在其使用环境中仅附有一个正确的词性附码。目前,词性附码器的准确率约为96-97%(Leech et al.,1994),因此,经过自动词性附码操作的语料库还需在计算机辅助下进行人工校对和编辑。

句法分析是指对经过词性附码的语料库根据某种特定的语法描述进行语法分析。经句法分析后的语料库亦称为树形结构库(treebank)或句法数据库(syntactic database)。其树形结构以带语法标签的方括号或数字表示。例如句子"Yeah,that one's a racing-car"经句法分析后可以表示为:

带语法标签的方括号形式

[Z[CL[F YEAH]][CL[S NGP[DD THAT][HP ONE]]]

[OM S][C[NGP[DQ A][H RACING-CAR]]]]]

数字形式

[FS:Y…]Z 1 CL F YEAH 1 CL 2 S NGP 3DD THAT

3 HP ONE 2 OM S 2C NGP 4 DQ A 4 H RACING-CAR

其中的Z,CL等均为树形图节点(node)上的句法分析标签(Souter and Atwell,1991)。不同的句法分析系统采用的句法分析标签集(label set)并不完全相同,其标签数量从数十个至上百个不等。

进行句法分析首先要选择或者专门设计一种语法。这种语法应尽可能地覆盖所有的句子结构类型。然后,根据这种语法对所选定的语料库中的句子依次进行(人工或自动)句法分析以产生树形图。当然,在分析过程中不可避免地会遇到该语法未包括的新结构,所以还需将这些结构加入到语法中,以便在这种新结构再次出现时予以分析。

进行句法分析可以完全靠人工操作,也可以使用句法分析器(parser)自动完成。用人工操作费时费力,但结果较为准确。为了便于进行人工句法分析,Lancaster大学于1991年研究出一种称为“框架句法分析”的简化句法分析技术。它仅采用括号和15种节点句法分析标签,并辅以一种快速输入程序,大大加快了人工句法分析速度(Leech and Garside,1991)。句法分析器是根据语法编写或自动生成的计算机程序。但是,经句法分析器得出的分析结果总会出现很多错误,如有些句子无法分析,有歧义的句子会出现一种以上的分析结果等,所以还需人工检查和排错。所花费的时间与完全靠人工操作没有多大差别。因此,也可先对语料库中的一部分语料进行人工句法分析,再用由产生的树形结构库来训练(train)计算机句法分析器。将计算机句法分析器的分析结果与人工分析结果相比较,可以找出支持计算机句法分析器的语法的弱点并加以改进,使结果逐步达到人工分析的水平。然后,再用改进后的分析器对更大规模的语料进行句法分析。这种逐步完善自动句法分析的方法是目前语料库自动句法分析采用的一般方法。

2.2. 两种语法

对语料库中自然语言的分析应以什么语法为依据存在着两种不同看法。一些人主张采用形式(formal)语法,另一些人则主张采用概率(probabilistic)语法。

2.2.1. 形式语法

主张采用形式语法的人认为,对语料库中自然语言的研究的主要目的是发展语言学理论。语料语言学必须是以描写语言学的一种形式化的方法(如生成语法)为特征的。机器可读语料在未经分析前是形式语法中提出的语言学假设的试验场(testbed)。经过分析后的语料库是一个数据库,从中可以获得关于语言结构及其发生频率和分布的资料,还可获得关于语言结构对同现(co-occurrence)限制的认识。语料库的数据还用来作为凭语感作出的判断和诱发式数据的补充。他们反对采用概率语法作为句法分析的依据,认为用概率方法搞语料语言学研究的目的不在于发展语言学理论本身,而在于利用从机器可读语料库中获得的语言学数据来提高计算机处理自然语言的能力(Oostdijk and Haan,1994b)。

以形式语法处理自然语言的典型例子是荷兰Nijmegen大学的TOSCA语料库系统。其句法分析的语法依据是扩展后缀语法(Extended Affix Grammar,简称EAG)。根据Oostdijk(1991)的解释,EAG是一种两个层次的语法,包含两个结合在一起的不考虑上下文的语法(context-free grammar,简称CFG)。第一层是一般的CFG,由一套终端(terminal)和非终端(non-terminal)符号以及一套重写(rewrite)规则构成。例如:

(1)SENTENCE:NP,VP.

(冒号表示重写,逗号表示分隔规则中的各部分,句号分隔各条规则)。这条规则表示句子可由NP和VP构成。第二层是后缀层语法,在第一层的非终端符号之后可以加缀,使这一层次的语法对上下文具有最低限度的敏感性。例如:

(2)SENTENCE:NP(number,person),VP(number,person).

(number和person分别为表示数和人称的后缀)。这条规则表示句子可由一个带有某种数和人称的NP加上一个与该NP的数和人称一致的VP构成。在这里还可以引入元规则(metarules),以减少整个语法的庞大规模并改善语法的可读性。元规则具体规定某个后缀可能带有的值。例如:

(3)number::"SING";"PLU".

(两个冒号表示重写,分号表示可选项)。这条规则表示后缀number的取值范围为"SING"(单数)或"PLU"(复数)。

EAG可以描述英语中大多数句法结构,但是,有一些语言结构,特别是所谓不规范的结构,EAG无法描述。TOSCA的研究者认为这种情况相对发生较少,英语语法书对这些结构和现象的描述也是不明确的或者干脆将它们省略。因此,待以后对它们的性质、形式和发生的分布情况有了更深入的了解之后,再将对它们的描述加入语法(Halteren and Oost-dijk,1993)。

90年代初,Nijmegen大学研究出一种新的形式语法——有限网格后缀语法(Affix Grammar over Finite Lattices,简称AGFL)。AGFL的后缀被限制在一定的范围之内,因此,比后缀范围无限的EAG能更有效地进行句法分析(van Zwol,1990;Koster,1991)。TOSCA研究小组正在利用根据AGFL生成的句法分析器做进一步的研究。

2.2.2.概率语法

主张采用概率语法的人认为,概率性是语言系统本身所固有的,语篇中的频率是语法中概率的体现(Halliday,1991)。例如,根据词频统计可以知道英语go,walk和stroll三个近义词中,go的使用频率最高,man作名词的频率远比作动词的频率高。句子结构也有这种概率性。概率语法充分利用过去分析过的语篇材料进行概率推算,可以处理任何真实的而不是事先选择的语言材料。他们指出,采用形式语法分析自然语言是行不通的。因为形式语法只能解释形式规范的(well-formed)句子,对不规范的(ill-formed)句子则无能为力。

以概率语法处理自然语言的典型例子是自动成分可能性词性附码系统(CLAWS),以及在此基础上研究的概率句法分析系统。这两个系统是80年代初由lancaster大学计算机英语语言研究小组(UCREL)研究的,用于为LOB语料库做词性附码工作。

UCREL的概率语法称为成份可能性(constituent-likelihood)语法,可以作为任何语言层次(如词性或句法)分析的根据。它不是一系列可以生成句子的重写规则,而是以计算机程序和函数为特征的。计算机程序用于为任何成分标注可能的标签(如词性附码或句法标签),函数用于计算任何标签在给定语境中的相关概率(Atwell,1987)。以词性附码为例,排除歧义附码时,先在转移矩阵(transition matrix)中查出任何一个词性附码出现于另一个词性附码之后的概率,并根据这些概率来计算各种可能的附码序列组合的概率,从中选出概率值最大的作为最后的分析结果。转移矩阵中的概率是根据对已经过词性附码的语料库中同现附码的统计分析得出的。例如,英语句子"Henry likes stews"可以有以下四种词性附码序列组合:

NP-NNS-NNS-.

NP-NNS-VBZ-.

NP-VBZ-NNS-.

NP-VBZ-VBZ-.

其中:NP表示单数专有名词,NNS表示复数名词,VBZ表示动词第三人称单数形式,句号也作为单词对待,附码为"."。

根据转移矩阵中查到的概率数值(例如NP-NNS)序列在转移矩阵中的数值为17、NNS-NNS序列为5、NNS-.序列为135等)套用公式分别求出各种可能的附码序列组合的概率,得出NP-VBZ-NNS-.附码序列组合的概率值最高,因此,对该句中单词的附码分别为:

Henry_NPlikes_VBZstews_NNS ._.。

以概率语法进行句法分析的原理与此相同,但由于句法分析的难度比词性附码大得多,所以过程更为复杂,至今尚无明显的突破。Garside et al.(eds)(1987)详细解释了以概率语法进行句法分析的方法。

2.3.语料查询的基本方法

语料库内丰富的语料为语言研究提供了可靠的资料来源。但是,需借助计算机化的工具才可以对语料库进行各种查询。目前,使用最多的工具是检索工具。检索工具可以根据语言学家的研究需要完成词频统计和索引等工作。

2.3.1.词频统计操作

词频统计操作是由计算机对语料库做各种类型的词频统计并且列出词频表,如按单词在语篇中出现的先后顺序、按字母排列顺序或倒序、按频率高低顺序等统计的词频表。以英语句子"The dog barked atthe man."为列,至少可以按以下四种方式做词频统计:

出现先后顺序字母排列顺序字母排列倒序

频率高低顺序

the

2 at1 barked1the

2

dog

1 barked1 the

2dog

1

barked1 dog

1 dog

1barked1

at1 man

1 man

1at1

man

1 the

2 at1man

1

2.3.2.检索操作

检索操作是计算机以不同的索引形式提供同现的信息。索引形式是一个单词在语料库不同的上下文中出现情况的集合。其简单形式相当于书后的索引,提供每个单词在整个语料库中出现的位置。另一种形式,也是用得最多的一种形式,是上下文中关键词(Key Word in Context,简称KWIC)形式,也称为定位检索(concordancing)形式。KWIC形式是将研究的词(即关键词)放在每一行的中间,左右根据研究者的需要各列出一定数量的上下文。例如,以下是牛津大学出版社1993年出版的MicroConcord语料库中单词"some"的KWIC索引形式片断:

lecommunications istocut pricesonsome transatlantic s-ervices in

Manet,Degas,Matisse,toname justsome,translating the-m vigorous

ng and old alike."Perhaps there was some truth in this:a few years

uld expect more like 12),belongsto some turn-of-the-cen-tury grand

rket had shown no sign of panic.〈p〉Some uncertainty rem-ains.If th

vatisation oftheindustry hasposed some uncomfortable p-roblems for

KWIC索引还可以有一些其它变化,例如关键词右边单词按字母顺序排列(便于查找以关键词开始的词组或结构)、关键词左边单词按字母倒序排列(便于查找关键词前面有某种词尾的词)和利用通配符(便于查找含有某个词干或词尾的词)等。此外,绝大多数索引软件允许用户查询关键词的来源语篇,以便考查与该关键词使用相关的更多语境。

2.4.语料语言学的语言研究范围和实例

利用语料库可以进行多方面和多层次的语言学研究,近年来不断有这方面的成果发表。例如词的语义及功能研究、近义词的比较研究、搭配及其结构的研究、语体的研究、英语口语音型和语调研究、英语名词短语的成语性研究和英语句法发展研究等。由于可用于注释语料库的研究工具较少,所以在短语以上层次的研究成果不多。

2.4.1.一个示范性研究实例——英语语义差别的句法证据

语义的差别通常是通过语感来区别和描述的,因此一般没有具体操作标准为某个语言成分确定其语义。但是,一个语言成分的具体意义在很大程度上取决于其所处的环境。那么是否有可能发现与某些语言成分的语义有关的句法结构呢?Mindt(1991)通过对语料库的研究发现这是可能的。其研究的假设是:一个语言成分的意义可以由其形式体现或由上下文中的信号表明,在句子内这个信号可以是语音的、形态的或是句法的。但是,以句法手段区别语义常常被忽略。Mindt(1991)根据语料语言学的方法所做的研究揭示了句法与语义之间的系统关系。

以Mindt对时间说明语与将来时间的研究为例。英语中大部分动词只有两种标记的时态曲折形式,即现在时和过去时。时间上的区别大多数情况下以其它形式表示。将来时一般由以下几种形式表示:will,be going to,现在进行时和一般现在时。一般认为,will和be going to表示将来时通常不需要将来时间说明语,同时大多数语法书都认为现在进行时和一般现在时在表示将来时间时毫无例外地伴有一个时间状语或其它说明语。Mindt以英语会话语料库(The Corpus of Englishconversation)和含有12个当代戏剧剧本的语料库为依据对上述说法进行研究。对两个语料库内四种结构带将来时间说明语的绝对和相对频率的统计结果见下表:

会话语料库戏剧语料库

出现次数 %出现次数 %

一般现在时 61 95.3 56

86.2

现在进行时 70 86.4102

79.1

will

33079.7710

74.6

be going to11773.6159

68.0

表中数据揭示了不同动词结构时间说明语的变化具有系统性。Mindt通过对以上数据的分析研究得出的结论是:

1)由于一般现在时的将来时间说明语在两个语料库内的频率最高,所以最不具备固有的将来含义,而be going to结构在四种结构中最具固有的将来含义。

2)两个语料库内将来时间说明语频率的排列顺序完全相同,即四种结构将来时间说明语的相对频率在不同语篇类型中有相同的趋势。

3)将来时间说明语的程度也可作为冗余度的衡量尺度,上表清楚地表明会话语料库内的冗余度大于戏剧语料库。这是因为在真实的口语中,听话人没有机会停下来去考虑已经说过的内容,因此说话人在说话时下意识地考虑到这一点。

4)将来时间说明语显然是语义指示成分,但它同时也可以用于区别不同类型的语篇。

从以上的研究实例可以看出,基于语料的语言研究最终还需要靠语言学家对数据的分析和概括能力。但是,其优势在于数据有较强的客观性,能使得出的结论更可靠。

3.有关语料语言学研究的学术组织、会议和期刊

目前国际上最主要的一个语料语言学学术组织是ICAME(International Computer Archive of Modern English),本节将对这个组织的情况做一简单介绍。其它有关语料语言学的信息可参见本文附录。

3.1.ICAME

ICAME成立于1977年,是从事英语机器可读语篇研究工作的语言学家和信息科学家的国际性学术组织。该组织的目的是:1)收集和分发有关可用计算机处理的英语语言材料的信息和对这些材料正在做的或已完成的语言学研究的信息;2)建立一个机器可读形式的英语语篇文档(即语料库);3)向世界各地的有关研究机构提供资料。此外,ICAME也对外销售计算机化的英语语料库和与其它有关的检索软件(参见附录)。

ICAME设在挪威卑尔根(Bergen)的挪威人文学科计算中心(Norwegian Computing Centre for the Humanities,简称NCCH),其顾问委员会由这一学科的知名学者构成,其中包括Jan Aarts 、Sidney Greenbaum、Henry Kucera、Geoffrey Leech、John Sinclair和Jan Svartvik等人。

3.2.国际学术会议

从1977年开始,ICAME每年在5月或6月召开一次国际性学术会议,会议的名称为International Conference on English Language Research on Computerized Corpora,为本领域的学者提供交流信息和最新研究成果的机会。这是语料语言学界学术水平很高的年会,会后出版论文集。

3.3.期刊

ICAME的学术期刊ICAME Journal每年出版一期,刊登有关语料语言学研究的文章、会议报告、评论和通知等。每期约150页。

4.问题和结语

语料语言学作为一个独立学科的地位已经确立,但是,仍然有许多问题需要解决。主要有以下几方面的问题。

4.1.语料库建设方面的问题

语料库的规模越来越大,随之而来的是对语料的注释问题。由于受人工智能发展水平的限制,目前自动句法分析的准确率还不能达到令人满意的程度,因此需要花大量的时间和人力进行人工校对,使注释语料库的成本相当昂贵。目前只有少数几个语料库做了词性附码,经句法分析的语料库更是寥寥无几。此外,对语料库的注释也不会到句法分析为止,语义分析和话语分析是发展的下一步,如对LLC语料库话语标记的注释和在Lancaster大学建立的“照应树型结构库(anaphoric treebank)”便是两个更高层次分析的例子。后者不仅包括框架句法分析,而且还包括照应语—先行词语关系标记(Leech,1991)。这就对语料库注释的自动化提出了更高的要求。

4.2.注释语料库编码的统一问题

与注释语料库有关的另一个问题是注释编码一直不统一,不同语料库的注释采用的编码系统不完全相同或很不相同,为信息交换和基于语料库的语言研究带来很大的困难。为了解决这个问题,1988年,美国和欧洲开始了一项称为语篇编码工程(Text Encoding Initiative,简称TEI)的研究工作。这项研究的一部分基本目标是:1)提供人文研究数据交换的标准形式;2)提出以相同的形式进行语篇编码的原则建议;3)提出适合各种不同应用目的的编码集的建议;4)尽可能维持与现存标准的兼容性(Sperberg-McQueen and Burnard,1990)。TEI的完成为解决编码统一问题带来了希望。

4.3.研究工具方面的问题

用于机器可读语料语言研究的工具的发展赶不上语料库本身的发展。随着注释语料库的数量的逐步增加,语言研究者对研究工具提出了更高的要求。词频统计和检索工具除了具备处理一般格式的语料库以外,还应具备处理复杂格式语料库的能力,以便满足更高层次语言研究的需要。

4.4.其它方面的问题

除了上述问题之外,还有一些问题,例如商品化语料库的价格偏高、机器可读语料库中的语篇仍有版权限制和研究成果如何更好地应用于语言教学等。

4.5.结语

语料语言学的发展为语言研究打开了一条新的道路。越来越多的从事语言学研究的人开始注意到其重要性和发展潜力。但是,目前的语料库绝大多数是英语语料库,其它语言的语料库很少。希望本文对语料语言学的介绍能够引起我国语言学界对这方面研究的重视,借鉴国外的研究经验来发展汉语语料语言学的研究。

标签:;  ;  ;  ;  ;  ;  

语料库语言学研究_自然语言处理论文
下载Doc文档

猜你喜欢