索引软件：语料库语言学的有力工具_自然语言处理论文

索引软件：语料库语言学的有力工具，本文主要内容关键词为：语料库论文,语言学论文,索引论文,工具论文,软件论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

语料库语言学得以迅速发展，与用于开发与分析语料库的程序软件密切相关。其中用得最广的工具之一，就是索引软件。

1.索引软件的原理与功能

1.1. 索引、索引大全、索引软件

讨论之前，先要区分索引（index），索引大全（concordance）和索引软件（concordancer）。

索引一般是全书的一小部分，附在书后，将著作中主要词语按字母顺序排列，并注明在书中的主要出现页码。索引大全与索引的不同之处，在于索引大全同时提供中心词所在的上下文的一部分。如果要查找具体的引证，则索引大全要有用得多，但同时也需要更多的篇幅，因此索引大全通常是独立的著作。索引软件，是检索计算机语料库的程序。它可将语料库中各词形出现的全部场合在屏幕上显现出来或打印出来。词形每次出现时，都处于所在的上下文之中。索引软件与索引大全有几个显著的不同：

（1）它所检索到的信息是动态的，内容是可以扩展的。它不但能检索出输入到计算机中的文本所含的全部词形，而且其出现频率与在原文中的地址也一目了然。确定查找某一词形的上下文时，该词形所在的行就在屏幕上同时显现。要更深入的观察某一同现行的上下文，该行所在的原文又可扩展到原句、原段并显现出来。这样，既可对文本有总体认识，又可对局部仔细考察。

（2）查到所需要的内容后，处理方便。既可在屏幕上观察，又可打印出来进一步研究。还可以存盘再处理，或写入到其它的文件中去，节省了许多抄写、再生的环节。

（3）计算机所能处理和储存的信息量很大。对输入的语料，不需要删略语法功能词或高频词。用索引软件检索语料库中的原著，会比索引大全查得更全。它不但能查词和词语，还能查语法结构，语法类型，扩大了研究的范围。

1.2 索引软件的工作原理

建立可以用计算机处理的语料库，输入的文本一般为很简单的形式：一串字母，空格，标点。这些通称为字符，保留大小写的区别。页号与行号也保留，作为参考。排版，字体号等内容则已删掉（Sinclair，1991：27）。

索引软件对一个词的定义，在英文里是以符号串之间的空格为准的。每两个空格之间的字符串称为一个标形（token）。相同的标形被视为同一类型（type），即词形（form）。词尾的屈折变化一般并不归入到某一词的原形之下。例如come 一词，它的几种形式（come， comes，came，coming）被作为4个词形对待。对同形异义词，例如bear （忍受，熊）,bass（男低音，鲈鱼，椴树），在没加词类标记或语法标记的语料库中，被作为同一词形对待。用分割号隔开的一些省略用法，如you'd，we'LL,can't等，均被作为单一的词形对待。这在实际分析语料时很有用。

输入到语料库中的文本,通常以美国信息交换标准码即ASCII 码（American Standard Code for Information Interchange）的形式储存。其它符号需转化为ASCII码。

文本被这样数字化以后，使用索引软件时，程序可以自动给文本中的每一个标形建立一个索引数据，并把每一个标形与它所在的上下文中的地址（addreSS）即位置联系起来,把与每个标形共同出现的索引行确定或产生出来待查。索引程序将建立的索引数据的文本按一定顺序重新分类排序，以利查找。

发出检索某一词形的指令后，计算机快速扫描文本，辨认出构成该词形的所有标形及地址，把与这些标形同现的索引行找出并写在一个外部文件上。该文件每行长度最多可达130个字符。利用标准的外部分类算法，程序将索引出来的行分类，并根据需要集中显示或打印出来（Jones，1991：22—23，Behar，1995：129—130）。

1.3. 索引软件的主要功能

利用索引软件所进行的最简单形式的索引，是位置索引。它指明构成某一个词形的各个标形在文本中的出现位置。同时也能提供该词形的出现频率。第二种是以行的形式索引。它适合诗歌、诗歌剧的文本。其各行长度相仿，一行足以表明某词的作用。

最有用也是最常用的索引形式，是关键词带上下文的定位行索引（Key Word in Context，简称KWIC）。要考察的关键词形在每行的中央出现（有些软件将其设定在行首或行尾），两边各有至少一列空格，左右各有一段均衡的上下文。关键词自上而下形成整齐的竖列，安排十分醒目。

关键词左右的上下文，长度可以根据需要调整设定。如+6 表示左右各有6个词。有些索引软件可将上下文扩展到整句甚至整段。上下文还可以由计算机排序。最有用的是在关键词的右边，按字母顺序排列各同现行的下文。这种排法突出了中心词引起的词组。另一种排序法，是将关键词左边的上文按最末一个字母的ABC顺序排列。当中心词是动词时，这种排序法常能迅速地找出动词的主语，从而为了解主谓搭配和篇章的主题提供有用的线索。上下文也可以按照出现的频率从高到低排列，把与关键词最常出现的词形首先集中同现。这对研究英语词语的搭配极其有用。

对语料库中的高频词，还可以用取样索引的方法，缩小样本。例如索引某词时将参数定为每10行索引一处，就将该词的索引样本缩小到原来的十分之一。

利用通配符（*）能查找与某一词的原形有关的其它词形。如查找 photo*，就能索引出与 photo， photograph， photographer，photography 等有关的词形及上下文同现行。也可用通配符辨认并定位索引特殊词形和某些语法特征，如“*ing”能列出所有含“ing ”的词，“fer ”能找到所有与“fer”有词源关系的词。“*? ”能找到所有的直接问句。利用组合逻辑（Combination Logic）和“with／ n”操作符，还能检索出与词组，短语，词的搭配以及关键词有关但被其它词隔开的上下文。

有些索引软件，

还可以进行布尔组合式检索（BOOleanCombinations），即逻辑性检索。例如，将两个反义词（hot／cold，fire ／water等）各自所在的全部句子同时检索出来加以对比，或将具有逻辑关系的词（如and／or）连同上下文同时检索出来加以分析。还有的索引软件可以检索各类词缀。

对加了词类标记或语法标记的语料库，索引软件可以查找在未分析过的语料库中无法查找到的一些语法现象。如不带to的不定式结构，各种从句，同位语结构等，为研究语法提供了方便（Sinclair，1991 ：33；Jones，1991：23；Levy，1990：180—182；Jones／Sondrup，1989：490—509）。

2.索引软件在计算机语料库中的应用

借助于计算机的强大计算与信息处理能力，索引软件可以快速地从计算机语料库中检索到所需要的内容，并可将它与所在的语言环境一起观察，或与相关的语言现象对比研究，有巨大的实用价值，在文学、语言学和英语教学等方面得到了越来越广泛的应用，产生了丰富的成果。

2.1. 索引软件在文学研究方面的应用

将索引软件与计算机语料库中的文学名著相结合，已经出版了100多种由计算机生成的索引大全。西方大部分名著现在均已有了索引大全。这些索引大全被广泛地用于文学领域的研究，是考察某一位作家或诗人的作品特色、使用词汇的特点和语言风格的理想工具。

文学作品的索引大全，也可被语言学家用来研究这一语体的特点。例如，通过莎士比亚戏剧的索引大全，可以研究英语中第二人称代词的多种形式（ye，you，your，yours，thou，thee，thy，thine）的使用场合，从而提出社会语言学方面的假设：谁是讲话者，对谁讲，对话的场合是什么等。又如，从歌德作品的索引大全中，可以通过研究一些词语的使用，管窥德语在过去200年中的发展变化趋势。象Knabe一词，在歌德的作品中比现代作品中用得普遍得多。所有格的使用也是如此。可以通过与现代作品的对比，对这些变化进行量化的分析（

Jones ／Sondrup，1989：501—504）。用索引软件还可提取计算机语料库中的文学作品的许多侧面的词语、类型与结构进行研究，揭示同一作家早期作品与晚期作品的异同，不同作家的文风的异同。甚至可以为判断某部作品的著作权的归属与文学作品的分期断代提供有力的依据。

2.2. 索引软件在语言学研究方面的应用

Leech（1992：114）指出，以计算机为基础进行研究的最简单、用得最广的工具，就是索引程序。典型的范例是：

（1）词汇学研究。辨明某词汇项在上下文中的含义和与该词用法有关的其它特征，如句法，文体，语用特征。

（2）归纳型语法研究。辨认并归纳出某语法项或结构在句法、语义、语用、语体方面的典型例子。标有词类和句法的语料库更适合这一目的。

词汇学方面,Fill more（1992：38—45）研究了risk一词的用法。方法是：（1）比较10本英语词典的解释，归纳出risk的3种得到解释的用法。（2）从一个含2500万词的英语语料库中，检索出含有risk 一词的全部例句（1743句）并分析研究，发现了词典中没有解释到的risk与in，on，to连用的例子。如：

ROOsevelt risked fifty thousand doLLars in Dakota ranchlands.You risked a month's earnings on that stupid horse.

The captain risked his ship to torpedo attack.

在这类例子中，risk只起了评估某个行动的结果的作用，而没有把行动的特点具体化。介词后的词语才表达了risk 的具体含义。这样，对risk一词的认识就深入了一步。

辞典学方面，Atkins和Levin（1995：85—114）比较了牛津英语语料库一个5000 万词分库里一组与shake 有关的同义词（shake，quake，quiver，shiver，shudder，tremble，vibrate）的用法，然后将归纳出来的结果，与3本重要的英语辞典（OALD，LDOCE，Cobuild ）的解释作了比较。〔1〕发现：（1）被认为无例外地作不及物动词用的5 个词（quake,quiver，shiver,shudder，tremble ）都至少在语料库中用作及物动词一次以上。（2）这3种词典对这7 个同义词的解释缺少系统性。

在这一研究过程中，仅与shake有关的词形，就从语料库中索引出4369处上下文。作者感叹地说，这样丰富的例子是梦想不到的。

词语搭配方面，Cobuild搭配词典的出版，是利用索引软件和统计软件研究语料库中词语搭配的突出范例。另外，Sinclair（KeNNedy，1992：360）在对of一词搭配的研究的基础上，对它的词类归属提出了质疑，认为不应该将它归为介词。因为其它的介词一般位于名词前，构成起从句修饰作用的介词短语。而of则对于它前面的名词更敏感。

KeNNedy（1992：360—362）对LOB英语库中的部分介词索引研究后，揭示了在某些介词前后的搭配词语在词类方面的规律性变化以及这些介词在语义作用方面的变化。例如，在between前面最常出现的是名词，而在through 前面最常出现的是动词。表示动态语义时， through 比between的使用频率高得多（36.8%：4.4%）。

词法方面，冠词的3种形式（the，a／an，0冠词）在句子中均可指类别，这是英语学生费解的一个问题。Quirk等指出，这3种形式并不是可以任意替换的自由变异。the的类指作用十分有限，它与单数名词连用时，语气常很正式，文学化。但Master（ibid，358—359）仅用一个含5万词的科技英语库就表明，在索引得到的起类指作用的冠词中， 38%由the引起，54%是0冠词，8%是a／an。在the作类指的用法中， 71%的标形引起主语，且在段落句首的情况占了大多数。这说明，在科技英语中the起类指作用的用法相当普遍，并不是“十分有限”的。同时也说明，冠词体系是可以解释和掌握的。这为用语料库验证语法书中的结论提供了一个范例。

句法方面，用索引出来的上下文，归纳关键词所在句子的句法结构相当便利。Stubbs（1996：87 ）借助于一个女童子军手册的文本,对happy一词索引出15行同现的上下文,总结出该词出现的具体语法框架：

Make NP haPPy(6) ;

Make haPPy N(1);Be haPPy(4);

Bring haPPineSS(2); Give out haPPineSS(1); Guide tohaPPineSS(1)

[NP 指名词短语，N指名词，括号内的数字指该结构的出现频率]。

从中分析出haPPy的含义更是一种状态，是依使用者想怎样使用它而变化的。

在社会语言学领域,女权运动一向指责用he 在不定代词（someone，somebody，anyone，anybody）后代替he or she的现象是对妇女的性别歧视。但Cobuild词典根据语料库中的证据指出，在不定代词后用复数代词they来代表he or she的现象已经很普遍。Stubbs（1996：61 —62）分析了从含50万词的Lund 语料库中索引出来的人称代词，证实了Cobuild的发现，同时也指出，性别歧视在60年代的Lund 口语库中仍在一定程度上存在，用没有性别歧视的they和有性别歧视的he来指不定代词的比例是19∶6。

对不同语域与文体的文本中的词汇用法，Biber等（1994 ∶174 —179）通过检索LOB等语料库进行了研究，发现语域与文体直接影响词汇的选用与含义。例如在社科类语篇中，certain比sure用得普遍，100万词中的比例是359∶74次，而在小说类语篇中正相反，比例为179 ∶353次。就certain一词而言，“人称代词+BE+certain”的结构，在小说中远比社科文本中普遍，含义是“确信”，“确切”等。其它大部分结构（如 a certain，in certain和of certain）则在社科语篇中要普遍得多，其含义常常是“不确切”。

2.3. 索引软件在英语教学方面的应用

在英语教材编写方面，Biber等（1994：171—185 ）曾对“名词+后置修饰语”的结构进行了研究。他们先统计了80年代的4 本英语语法书中对这一结构的处理篇幅，发现各书重点相同，均把关系从句作为中心，讨论的篇幅合计60页。“名词+介词短语作修饰语”的结构最不受这些书的重视，篇幅合计不足5页。

用索引软件对LOB英语库和一个含11.5 万词的私人信函库的检索却表明，“名词+介词短语作修饰语”的结构，比“名词+从句”的结构的使用频率高得多：每千词中二者的比例是23.4∶5.5，而且已有研究表明，“名词+介词短语”的结构对英语学生是一种困难结构。

这说明教学性的语法书对语言现象轻重缓急的处理，常常不符合实际使用情况。在编写这类教材时，不但应该考虑语言现象的难易程度和可教性，而且应该把它在实际使用中的情形考虑进去。在这一方面，CoLLins Cobuild English GraMMar就是在参考了Cobuild语料库中大量的实际语料后编写的。该书利用索引技术，提供了一些语法结构的一系列实际使用例句。同时，编者还计划将该书中所有的主要词汇，都注明其出现的结构场合，把所有的语法结构，都注明它们与关键的词与词组的联系，以便利使用，并计划通过建立一套与结构相联系的语义，按交际中使用的典型语义的用语来编辑一部语法（Francis et al，1994 ：190—200）。

有无核心英语？专门用途英语有无存在的理据？是教核心英语还是教专门用途英语？这是英语界多年争论的问题之一。Biber（1994 ）利用多元分析法，对LOB和LLC语料库中的481篇原文取样（约96 万词）的分析表明，在所研究的6个角度，不同文体的语言学特征相去甚远，没有哪一种文体可以被认为是“一般英语”。根据对“一般英语”、“核心英语”的直觉进行的高级阶段的英语教学，不大可能给学生提供足够的所要掌握的语体的实际语言类型。而这些语体则是某一专业的学生工作后要经常使用的。这就说明了采用专门用途英语教学方法的重要性。

3. 索引软件的重要意义

索引软件毕竟只是一种工具。计算机化的语料库才是基础。语料库的大小与取样的代表性，直接影响并决定索引结果。 FiLLmore 在研究risk一词的用法时，尽管从含2500万词的一个语料库中得到了全部例句，却没有能说明run the risk与take the risk的区别的例句。他用想象的例句才说明了二者的区别。因此语料库只能提供材料，索引软件只能极大地便利提取材料的过程，但决不能代替语言学家自身的思考与分析。

此外，索引软件容易使研究者只分析形式上易查的语言现象，忽视不易查找的问题。有的软件查全率受到编程的影响，对未标语法的语料库，语法现象不易检索。对多义词，一般不能按语义顺序进行定位行索引。关键词的上文应能按最末一个词形的起始字母排序，以利使用。要把起分类作用的助记符号一起存盘处理也不容易。这些均有待改进。

根据索引软件的一些局限性，Kirk（1994：259—266）尝试将索引到的语料输入到数据库中，如FoxBase库中，可根据助记符将语料进一步分类，增加分析项目；还可进一步输入到（VARBRUL）统计软件下，得出对分类的有效性的分析，以判断索引得到的语言现象是偶然的还是有代表性的。

注释：

〔1〕OALD=Oxford Advanced Leamer's Dictronary

LDOCE=Longman Dictionary of Contemporary English

Cobuild=CoLLins Cobuild English Language DictionaryCK

Atkins,B.T.S.and Beth Levin,1995."Building on a Corpus:ALinguistic and Lexicographical LOOk at Some Near Synonyms",International Journal of Lexicography,Vol.8,NO.2,PP 85—114.

BaLL,C.N.1994."Automated Text Analysis:Cautionary Tales",Literary and Linguistic Computing,Vol.9,No.4,PP 295—302.

Behar,H.1995."Hubert de Phalese's Method", Literary andLinguistic Computing,Vol.10,No.2,PP 129—134.

Biber,D.1988.Variation AcroSS Speech and Writing ,Cambridge University PreSS,Cambridge, p65. ——. 1990 ."Methodological ISSues Regarding Corpus- based Analyses of Linguistic Variation",Literary and Linguistic Computing,No.5,pp 257—269.

Church,KeNNeth W.and Robert L.Mercer,1993."Introductionto the Special Issue on Computational Linguistics Using LargeCorpora",in Susan Armstrong ( ed) ,Using Large Corpora ,ASSociation for Computational Linguistics,The MIT Press ,Cambridge,MaSSachusettes,London,P1.

FiLLmore,Charles,J.1992." 'Corpus Linguistics'or' Computer-aided Armchair Linguistics '",in Jan Svartvik( ed) Directionsin Corpus Linguistics,Mouton De Gruyter,PP 35—60.

Francis,GiLL and John Sinclair,1994"'I Bet He DrinksCarling Black Label'":A Riposte to Owen on Corpus GraMMar" ,APPlied Linguistics,OUP,Vol.15,No.2,pp 190—200.

HiGGins,John,1991."Which Concordancer? A ComparativeReview of MS—DOS Software",System,19(1/2),PP 91—99.

Jones,RandaLL L.and Steven P.Sondrup,1989."Computer- AidedLexicography:Indexes and Concordances",in Batori,Istvan S.,Winfried Lenders and Wolfgang Putschke ( eds) ,ComputationaLLinguistics,Walter de Gruyter,Berlin,pp 490—509.

Jones,S.1991.Text and Context:Document Storage andProceSSing,Springer—Verlag London Limited,p 23.

Kirk,John M.1994."Corpus- Concordance- Database- VARBRUL",Literary and Linguistic Computing,Vol.9,No.4,PP 259—266.

Leech,G.1992."Corpora and Theories of

LinguisticPerformance",in Jan Svartvik (ed) Directions in

CorpusLinguistics,Mouton De Gruyter,PP.105—22.

Levy,M.1990."Concordances and Their Integration into aWord-ProceSSing Environment for Language Learners",System,Vol.18,No.2 PP 177—178.

Renouf,A.1987."Lexical Resolution",in WiLLem Meijs( ed),Corpus Linguistics and Beyond,Rodopi,PP 121—130.

Sinclair,John,1991.( ed) Corpus,Concordance,CoLLocation.Oxford:OUP.

StuBBs, Michasel,1996.Text and Corpus Analysis:computer-aSSisted Studies of Language and Culture,Oxford,Ox:BlackweLL Publishers.

标签：自然语言处理论文; 语料库论文; 上下文论文; 文本分类论文; 索引论文; 语法分析论文; 语言学论文; 文本分析论文;

索引软件：语料库语言学的有力工具_自然语言处理论文

猜你喜欢