几个大型语料库综述_自然语言处理论文

几个大的语料库评介，本文主要内容关键词为：语料库论文,几个论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

在现代西方语言研究中，语言学家由于研究的范围不同，使用的方法不同，所持的态度不同，而形成了不同的主义或流派。但不论属于哪个主义，何种流派，语言学家大都是在充分掌握语料的基础上，通过对语料的分析、对比、假设、综合等手段来描述和解释语言的。一般来说，语言学家获取语料的方法，主要有以下三种：

（1）依赖自己的语言直觉（intuition），通过自我内省（self-retrospection），自造例证；

（2）以取样调查的方法（sampling technique ）收集有代表性的语料，并建语料库（corpus work）；

（3）进行诱导询问（elicitaton），发放调查表，向合作人提问诱导来获取经过验证的语料。

这三种方法虽然各有各的用途，各有各的优点，但使用最普遍的是第（2）种方法，这就是建语料库。本文着重介绍几个影响较大的语料库。

1959年伦敦大学语言学教授Randolph Quirk组织发起了“英语用法调查”（The Survey of English Usage）（SEU）项目，有计划地收集不同语体的大量语料，并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下（引自Jan Svartvik et al.1982）：

表1.“英语用法调查”语料库

(I)原始书写语料(100篇)

(A)印刷品(46) (B)非印刷品(36)

人文科学 6 ┌ 想象性 5

连续书写品┤

自然科学 7 └ 资讯性 6

教学 6

┌ 一般新闻

┌亲密6

报刊┤社交书信┤平等4

└ 专门报导

└疏远4

文书 4 ┌平等 4

非社交书信1┤

法律 3 └疏远 4

论说文5

日记 4

散文小说 7

(C)口语(18)

┌资讯性 4

剧本 4

谈话┤

└想象性 2

正式演说(经转写) 3

故事 2

广播新闻 3

(Ⅱ)原始口说材料(100)篇

有准备的演说(未转写) 6 ┌ ┌亲密 24

┌演说

10 │不公开┤

自发言语┤┌体育 4 │ └疏远 10

└评论┤│ ┌亲密 20

└其他 4 交谈┤可公开┤

│ └疏远 6

│┌亲密

│电话┤

└└疏远6

可以看出，该库共收集200个语篇，口头语书面语各占一半，每个语篇约5000字左右，共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。

纵观西方语言科学发展的历史，Quirk的SEU无论是在研究观念上还是方法上都是一大创新，为语料库语言学的发展开了个好头，也为语言学研究提供了全新的科学手段。

六十年代初,美国布朗大学（Brown University）的两位语言学家Nelson Francis和HeRRy Kucera继Quirk之后,建起了第一个计算机可读的（machine-readable）布朗语料库（Brown Corpus）。此后不久,G.Leech（Lancaster大学），S.JohanSSon（Oslo大学）和K.Hofland（Bergen大学）三方协同，依据布朗语料库的模式，建起了“兰开斯特—奥斯陆／卑尔根语料库”（The

Lancaster- Oslo／Bergen （LOB）Corpus）。与Brown Corpus所不同的是，LOB Corpus 还能对英语的不同变体（varieties）进行分析研究。

三大电脑语料库的建立，结束了个人费时费力收集语言材料的历史，确立了语料库语言学在语言研究中无可争议的地位。同时也给corpus赋予了新的含义，提出了新的标准。这一点在Francis给corpus 下的定义中得到了充分体现：语料库即“文本的集合，假定代表某一语言、方言或语言的品种，用于语言分析”（1979：110）。

从这个定义可以看出，所收集的语料已从早期的词语、短语、单句扩大到语篇（text）；收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是，所选语篇必须考虑到典型性或代表性，语篇本身和语料库还得具备相当的容量，才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准，毫无疑问，在收集语料的过程中，语言学家就得凭自己对语言的直觉，仔细地对所选语料内省一番不可。当然，其中也不排除典型调查和诱导询问的方法。这样收集到的语料，不用说，是比较客观真实，详尽可靠的。

SEU Corpus,Brown Corpus,LOB Corpus三大语料库的建立仅仅是一个良好的开端，尚有许多不尽心人意之处，有不少问题有待解决，如：库容量还不够理想，利用电脑直接检索、查阅、统计等操作系统还很不完备，当时SEU还无法用计算机程序获取所需资料等。

1975年，Quirk的一名学生，瑞典隆德大学（Lund University）英语系教授Jan Svartvik带领他的同事们，发起并组织了一项“英语口语调查”（The Survey of Spoken English）（SSE）。这项工程实际上是SEU的姊妹工程（sister project），目的是实现用电脑自动化处理方式获取SEU Corpus的英语口语的原始资料。语料库标注包括节律分析（prosodie analysis），语调单位（tone unit），重音（streSS）语调（tone），调核位置（place of nucleus）等。SSE历时六载,1981年宣告完成。这个电脑自动化语料库被命名为“伦敦——隆德口头英语语料库”（London-Lund Corpus of SpokenEnglish（LLC））。LLC可称得上是一项复杂而艰巨的工程,是把计算机技术与语言研究相结合的较完美的成果，是计算机与语言学交叉领域里的一个创举。LLC最初包含87个语篇,每篇约5,000字左右。为了检索方便起见,首先对这些语篇进行详细的分类编目。这些语篇共分为五大类：

（1）CON（面对面交谈）

（2）TEL（电话交谈）

（3）DIS（讨论，采访，辩论）

（4）PUB（未经准备的当众评论、论证、演讲）

（5）PRE（经准备的当众演讲）

接着又在这些分类后编上子目录（subgroup）：对话（Dialogue）；面对面（Face-to-face）；私人（Private）；广播（Radio）；不公开（SuRReptitious ）等。最后,用字母S 和数字给各语篇加上标示。Svartvik除了给各语篇内的每个语段标出语调及节律外，还精心设计了一套索引程序（concordance program），叫做KWIC（key word in context）。这样一来，不仅为检索某个语篇提供了方便，同时，还可用这套程序检索某个语段，甚至某个词在整个语篇中或语段中所处的位置、搭配关系、属何种词类、出现次数等。这就要求不仅对每个语段标上数码，而且，还要给每个词按不同词类设计一套标示。在词类标示中先用不同的英语大写字母来表示不同的词类：A＝副词（adverbs）；C ＝连词（conjunctions）；E＝前限定词（predeterminers）；G＝关系代词（relative pronouns）；V＝动词（verbs），然后在每个大写字母后附加上其它符号以表示词的不同变化形式，如在表示名词N 的字母后加上+2来表示名词的复数形式（plural）；用+z表示名词的所有格（genitive）；用+φ表示动词原形（the baseform of a verb）； +D表示动词的过去时形式（past form）；+G表示动词的-ing形式； +N表示动词的过去分词（past participle）；+3表示单数第三人称形式等。用VM表示情态动词（model verb），系动词用VB表示，如：be＝VB+φ，is＝VB+3，been＝VB+N，being＝VB+G，仅词类标示的设计就够费心思的了，更不用说为了达到语法描写的目的，还要设计一套句法标示（ syntactic

taGGing ）以区分句法分析单位（the unit ofsyntactic analysis）。而且，为了对语法进行更为精细的描写，甚至还设计了一套短语分析程序（the phrase analysis program）。当然，也少不了为各类从句里的不同语法成分设计一套标示（ taGGing of clause elements）。另外，还得注意到各种不同的否定形式,如否定词缀和非否定词缀等，以及其它一些语言现象。不仅如此,LLC 的库容量也从最初的100,000增加到了500,000个词。LLC 的诞生标志着语料库建设已跨入了全新的电脑自动化阶段,为语言学界提供了可资借鉴的样板。

进入八十年代以后，不少国家相继建成了许多用途不同，容量各异的电脑语料库（computerized corpora），如：

伯明翰英语语篇语料库（2千万字）

科尔哈普尔印度英语语料库（1百万字）

兰开斯特／IBM口头英语语料库（5.2万字）

TOSCA语料库（1.5百万字）

九十年代以来，还有一些电脑语料库正在筹建之中。 Sidney Greenbaum（伦敦大学教授）计划从所有讲英语的国家里广收最新语料（1990—1993），设计筹建“英语国际语料库（ The International Corpus of English （ICE ））。赫尔辛基大学（ University of Helsinki）英语系的三位教授M.RiSSanen,O.Ihalainen和M.Kyto 正在筹建“赫尔辛基英语历时和方言语篇语料库（ Helsinki

Corpus of English Text:Diachronic and Dialectal），计划历时部分收词 1.6百万（包括公元850—1720期间的英语语篇），方言部分计划收集当代英语的各种语篇约24.5万个词。为了对美国口语进行广泛深入的研究，美国加州大学（University of California）语言学系的三位教授W.L.Chafe,J.W.Du Bois和S.A.Thompson正着手筹建“口头美国英语语料库”（The Corpus of Spoken American English （CSAE）），计划收词约20万左右。另外，其它一些讲英语的国家如澳大利亚、新西兰等国也已建成或正在筹建电脑语料库。

为了便于交流信息，共享资料，加强合作，共同研讨，早在八十年代初，Bergen大学建起一个英语语料库信息储存交流中心，命名为TheInternational Computer Archive of Modern English （ICAME ）（现代英语计算机国际档案）；其宗旨是编制供电脑储存的英语资料档案，发布各种有关语料库语言学研究的信息,并发行由Stig JohanSSon教授（Oslo大学）主编的学术期刊—ICAME Journal，刊登有关语料库语言学方面的论文及研究成果，报道有关的学术发展动态。这个中心自成立以来的确为语料库语言学的发展起到了相当大的促进作用。进入九十年代以来，随着愈来愈多的电脑语料库的建立，这个交流中心已很难满足客观形势的需要。尤其是由于电脑语料库编码系统和标示系统很不统一，给联网工作造成了很大困难，因而无法进一步增进国际间的合作与交流。要解决这一难题，就迫切需要对语料库实行统一编码，需要编制出标准统一的、方便可行的标示系统和操作程序。值得庆幸的是，目前名称为Text Encoding Initiative的工程（语篇标码起始工程）已经启动，并决定采用“标准通用的标码语言”（The StandardGeneralized Markup Language ）来为语料库设计标记系统及操作程序。

标签：自然语言处理论文; 语料库论文; 语言学论文;

几个大型语料库综述_自然语言处理论文

猜你喜欢