语料库语言学与汉语外语教学_自然语言处理论文

语料库语言学与汉语外语教学_自然语言处理论文

语料库语言学与中国外语教学,本文主要内容关键词为:语料库论文,外语教学论文,语言学论文,中国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

语料库语言学的发展前景与资源共享

桂诗春

1.语料库语言学的发展前景

语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown,LOB,Frown.Flob,BNC,CLEC,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。

我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。首先是数学和统计学。Herdan(1960)的一本早期著作,叫做《词次/词型数学》(Type/token Mathematics),其副标题就是《数理语言学教科书》(A Textbook of Mathematical Linguistics),当时还是前计算机时代,但Herdan觉得有两件语言事实值得我们注意:一是大量语言资料(language in mass),二是语言排列(language in line),它们是任何语言运作都不能离开的两个方面。某些语言学研究分支如果考虑到这两个方面,将会从中获益。当时还没有真正的机读语料库,Brown的语料库在1967年才面世,美国心理学家John Carroll根据该语料库以及他后来参与制作500万词的AHI语料库,所提出的词汇频数对数正态模型(lognormal model)均源于Herdan所奠定的基础。一直到最近美国Barber利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。其次是计算机科学。语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown还要大的语料库。但是我们往往只注意到硬件部分,而不认识到软件的建设。从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需要,通过计算机自行编程来检验假设。此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。这也牵涉到许多统计学知识和计算机知识。数理语言学和计算机语言学的研究对象是文本和语篇。有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。

2.资源共享问题

语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。共享的方法有多种:一是免费提供,最典型的例子是George Miller领衔制作的英语大型词汇数据库Wordnet受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。他们认为这不是一个商品,应该为公众所有。二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国Brigham Young大学的Mark Davies在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、葡萄牙语语料库以供检索。三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAME(International Computer Archive of Modern and Medieval English),美国的LDC(The Linguistic Data Consortium),等等。一些语料库工具,如TACT、LEXA,Wordcruncher,Wordsmith、Antconc也都很容易在网上获取。资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。

双语语料库的建设与用途

冯志伟

1.双语料库的建设

我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。桂诗春教授刚才提到宾西法尼亚大学的Linguistic Data Consortium(我建议最好翻译为“语言数据联盟”,简称LDC),是一个很好的供语料库语言学研究者进行交流互动的平台。在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。.重要的是,在这些语料中还包括一些标注过的语料,如宾州树库(Penn Treebank),布拉格依存树库(Prague Dependency Tree Bank),命题库(PropBank),宾州话语树库(Penn Discourse Tree bank),修辞结构库(RSTBank)和TimeBank(我不知道TimeBank这个名称如何翻译为中文)。这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervised machine learning)来处理那些在传统上非常复杂的自动句法剖析(automatic syntactic parsing)和自动语义分析(automatic semantic analysis)等问题。这些语言资源也推动了有竞争性的评测机制的建立,评测的范围涉及到自动剖析(parsing)、信息抽取(information extraction)、词义排歧(word sense disambiguation)、问答系统(question-answer system)、自动文摘(automatic summarization)等领域。

几年前由中国中文信息学会发起,在北京创建了“中文语言数据联盟”(Chinese Linguistic Data Consortium,缩写为CLDC),是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。欢迎语言学界的同仁积极参与CLDC的工作,促进语料库资源的共享。

目前单语语料库很多,已取得煌煌的成绩,但双语并行语料库(parallel corpus)不容易获得,它的构建和加工是很困难的工作。我国还没有高质量的、大规模真实文本的英汉双语语料库,更没有成熟的、可共享的加工工具,最近公布的2010年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究”,资助强度大约是50万元左右,可见国家对于双语语料库建设的重视。这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开始招标,希望大家积极投标,积极推进我国的双语语料库建设。

2.如何将语料库语言学运用到外语教学,如何从语料库中挖掘知识?

我认为英汉双语语料库的最大用途就是推进英语教学,我们可以从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,从而编写出高质量的外语教材。有的外语老师冥思苦想地根据自己的语感来编写教材,费时费力,其实,如果依靠英汉双语平行语料库,就可以减轻搜集素材之困难,大大提高编写教材的工作效率。

另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,如果我们使用“文本数据挖掘”(text data mining)的技术,从语料库中挖掘知识,既可以挖掘语言学的知识,也可以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识可以弥补传统语言学的不足,克服研究者的主观性和片面性。我们在text data mining这个术语中使用mining(挖掘)这个单词,而没有使用extraction(抽取)这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里”的深思熟虑的功夫来加工数据,而不要被海量的数据所迷惑。数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据”(data)变为精炼的、系统化的“知识”(knowledge),从而把经验主义方法和理性主义方法紧密地结合起来。这种知识获取方法上的巨大变化,有可能引起整个语言学研究的“战略转移”(strategy transit);我们中国的语言学家应当敏锐地关注“战略转移”问题,做出我们的应有的贡献,千万不要错过这个在语言学历史上千载难逢的良机。

语料库语言学的应用研究与贡献

杨惠中

1.语料库语言学的应用研究

这次专题讨论的题目“语料库语言学与外语教学”我觉得很好,很及时。语料库语言学本来就是实践性、应用性很强的一门学科,脱离了应用,坐而论道,也就失去了发展的基础和动力,将变成无本之木、无源之水。外语教学正是语料库语言学的重要应用领域,语料库语言学以实际使用中的语言事实作为研究对象是一种着眼于语言运用的研究方法(performance-based approach),因此跟语言教学有着直接的关系,对真实语言交际的各个方面,包括词汇的、句法的、语义的、语用的、语篇的,进行深入的探讨和全面的描写,其研究成果可以应用在教学大纲设计中,为确定教学内容、制定教学目标提供坚实可靠的决策依据。

语料库语言学在外语教学中的应用研究在三个方面应当加强。首先,充分利用在国内已经建成的中国学习者英语赋码语料库,包括书面语语料库和口语语料库,进一步深入研究中国学生学习英语的典型困难所在、研究中国学生运用英语的特点、调查不同类型和不同背景的学生的语言特征、探讨学生的学习策略、研究有关学习者语言发展的全面信息,以便建立有中国特色的英语教学体系。其次,把语料库语言学的研究成果,包括对预构成语块、词语搭配与用法、关键词、错误分析等方面的研究成果,建成语言数据库,提供在线帮助,把研究成果直接应用于教材开发和课堂教学,提高语言教学的有效性。再次,可以为高端学生提供“数据驱动学习”,由教师开发有针对性的小型专用语料库,学生利用词语索引软件,通过与母语语料的对比分析,自己探索英语词语的用法,让学生直接接触复杂的语言现象,在老师指导下,通过实际观察语境,通过分析、对比、综合、归纳,自己发现规则,做出假设,通过“探索”进行学习,掌握地道的英语、发展英语语感。当然,不能让学生迷失在海量的语言“事实”中,应当进一步开发便于使用的、界面友好的检索工具、分析工具等辅助语言学习软件,并且对语料进行预分析,帮助学生迅速找到语言的正确用法。

语料库语言学另外一个重要应用领域是自然语言处理,今天在计算机自然语言处理领域里,基于规则的方法已经让位于基于概率的方法,也就是语料库语言学方法,并且已经取得显著成果,充分说明语言概率模型的生命力。

2.语料库语言学促进语言学研究

语料库语言学作为一种研究方法,今天没有人怀疑,事实上众多研究领域已经离不开基于语料库的研究方法,比如社会语言学、语用学、会话分析、语体分析、儿童语言发展研究等等,而在有些领域,像词典编纂,基于语料库的方法则已经是当今词典编纂的范式,很难想象任何原创性的词典编纂项目可以没有自己的语料库的支持。

语料库语言学作为一门学科,则尚有争论。我们认为语言学的任务就是对语言进行科学的研究。由于人类语言涉及人类生活的方方面面,对语言的研究可以从不同的侧面着手,社会的、心理的、历史的、地理的、人种的、比较的、甚至神经生理的、病理诊断的等等,由于人类语言的复杂性,每一方面的研究都会使我们对语言的本质获得进一步的认识,人类的认识是没有止境的。

语料库语言学以真实语言数据为研究对象,凭借计算机技术,采用数据驱动的实证主义研究方法,从宏观的角度对大数量的语言事实、对语言交际和语言学习的行为规律进行多层面的研究,尤其是提供有关语言使用的概率信息,这就为语言学研究提供了新的途径、带来了新的理念、新的方法,这方面的研究必然使人们加深对语言本质的理解,这些研究当然属于语言学研究范畴。至于语料库语言学学科的研究对象、范围、方法等怎样进行界定,这将是新一代语料库语言学家面临的任务。

语料库的教学加工理念与应用

何安平

1.语料库语言学从工具和方法正走向理论构建

语料库语言学经过近半个世纪与计算机科学的协同发展,已经从早期的建设大规模语料库、开展语言调查和研发检索工具进入到语言学理论构建及更加广泛深入应用的阶段。语料库使人类掌控的语言资源空前巨大、检索和提取语言信息的手段空前快捷和灵活,它先从改变人们观察语言的方式进而发展到改变人们对语言本质的认识。其中对语言意义的构建单位和表达范式的研究就已经涌现出一批创新性的理论成果,包括“词汇语法理论”、“口语语法”和“短语理念”等等。上述的理论发展自然对语言教育,尤其是外语教学产生触媒作用,并且已经引发了一系列外语教学理念改革。例如,词汇教学是教单词还是教短语搭配?教搭配是仅教词汇和语法形式搭配还是要扩展至教语义或语用搭配?词汇和语法是分开教还是……?所以,国外有学者称“语料库是一场革命”。

2.语料库的“教学加工”理念

语料库的“教学加工”(pedagogic processing)是目前国内外不少学者对语料库语言学应用于语言教育教学的深刻反思。它包括如何让语料库走进语言教学大纲的设置、教材的编写、课堂教学活动设计、实施和效果评估等等。目前在国外,语料库应用于教学的研究已经从宣传和介绍其可能性和潜在意义发展到深入探究如何与其他学科的理论和方法相结合以及如何解决在教学实施过程中遇到的理论困惑、工具改良、教材设计和教学方法等实际问题。在国内,业内人士虽然越来越认同语料库作为一种新资源和新技术对外语教育教学有巨大的潜在价值,但是语料库辅助的教学还未能切实进入外语教学的主流(即课堂教学)。2010年在捷克召开的第9届“教学与语料库(TaCL)国际研讨会更提出一种观念转变:即,不是由专家学者向一线教师宣讲可能利用语料库来做什么,而是由一线老师提出需要用语料库来做什么,然后再共同研究如何解决这些教学上的实际问题。语言教师要从“语料库产品(如教材)”的“消费者”转变为“合作研发者”、“实践反思者”和“教师自我发展的行动者”。

3.语料库应用于外语教学的发展趋势

语料库语言学在该领域的发展至少有以下几个趋势。一是着力建设外语学习者语料库、口语语料库和专门学科或行业语料库(如英语ESP);二是创建多模态语料库,即语料库与音频和视频相链接的、甚至是同步共现的综合性教学资源库;三是将语料库语言学纳入师范教育和继续教育的必修课程,使之成为外语教师必备的教学资源和信息技术。我们华南师范大学的语料库语言学教学团队将一如既往,朝着这些趋势努力探索实践。

语料库语言学的学科地位及外语教学服务

卫乃兴

1.语料库语言学的学科地位与争议

关于语料库语言学的学科定位,一直众说纷纭。语料库研究创始之初,先贤们以解决语言教学中的实际问题为己任,无疑挑战理论语言学。然而,及至1990年代,大量新的研究发现问世,触动了语言学的方方面面,也引起了诸多反弹。在理论语言学阵营,Chomsky说“Corpus linguistics does not exist”(Tognini Bonelli 2001:50)。在应用语言学阵营,Widdowson(2000)认为,语料库语言学的研究成果不能应用于语音教学,如果那样做,就是在搞Linguistics applied。显然,Widdowson认为语料库语言学不属于应用语言学。然而,Halliday(1993:1)却认为,将语料库语言学家与理论语言学家区分开来是非常奇怪的做法,因为语料库语言学是一种理论性极高的探索。时至今日,大家仍在讨论,并无共识。我个人十分赞赏黄国文教授刚才主旨报告中讲的观点,即语料库语言学和功能语言学一样,属于Halliday所阐述的“适用语言学”(Appliable linguistics)。事实上,几年前我在洛阳举行的一次会议上也提出过类似的观点。也就是说,语料库语言学是介于理论语言学与应用语言学之间的一种语言学,它的研究活动及其成果既适用于语言理论构建,也适用于语言教学的实践。“适用语言学”是个十分有用的概念,因为有些语言学在可预见的将来是无法应用的。它可以较好地解决语料库语言学的学科定位问题。

关于中国国内过去数年进行的语料库研究,我认为基本上属于应用语料库语言学(Applied Corpus Linguistics),因为大家主要是针对二语习得和教学问题进行探讨。

2.语料库技术在外语教学中的运用

杨惠中教授关于语料库应用于外语教学的观点一语中的。中国的语料库研究应当也必须为外语教学服务。遗憾的是,过去数年间,语料库帮助一大批学子获得了硕士、博士学位,却未能有效帮助外语教师和学生提升教学效果。我认为,应当首先从教师培训做起。帮助教师从语料库证据归纳最频繁使用的类联接型式、最频繁使用的词语搭配、最频繁表达的意义和功能;帮助他们学会发现新的语言事实,新的意义和用法模式。这对发展他们的语言意识大有裨益。教师的语言意识提高了,使用语料库的技能娴熟了,观念发生了变化,会逐步改进教学,并最终使学生受益。

3.语料库语言学的现状和未来

全球范围内的语料库语言学现状可谓喜忧参半。一方面,越来越多的不同学术路线和背景的研究者加入到了语料库研究队伍,包括心智语言研究者,阵容空前庞大,异彩纷呈。另一方面,各种学术理念和方法交织碰撞,有些做法已经明显不同于第一代语料库学者创设的基本经典方法。问题不在于能做什么;平行语料库、多模态语料库、动态语料库等等,都可以做。问题在于如何做:任何学科都有其认识论和方法论;背离了基本立场和方法,就不再属于该学科了。总之,这个学科的未来有很多不确定性。不过,我们什么时候都应相信严肃科学的力量。

语料库开发与语料库研究

李文中

1.语料库语言学的发展问题

我不敢去做什么预测,只是把我们自己正在做的和希望做到的,以及在此过程中碰到的一些困扰,向在座的各位汇报,并请大家指导。(1)语料库开发问题。我们感觉到,语料库开发正在向两头快速发展和延伸:一是通用型的、基于网络的超大型语料库开发,其主要特征是应用新技术新方法,如网络服务和云计算,提供可定制的动态开放语料库,以满足使用者日趋多元的需求和应用取向;二是个性化、专门化、行业化的小型语料库开发。前者需要大规模的投入和专业化的开发队伍,愈来愈注重数据挖掘、信息智能处理、以及知识挖掘,强调语料库数据的组织结构和呈现方式;而后者仅需要小规模、小投入,开发者即是研究者,又是研究成果的田野使用者,更强调语料库的整体平衡性和代表性。当然,二者虽离心发展,但之间的界限却非泾渭分明,而是相互借鉴,互为发明,互相促进。(2)语料库研究的发展问题。语料库研究需要更大的发展纵深,要解决如何从描述到解释,以及如何从发现到理论建构等难题。描述须完备,解释须充分;研究发现强调可靠性,理论建构则注重可验证性。(3)语料库研究方法和视野问题。无论是基于语料库的研究,还是语料库驱动研究,我们都可能需要解决如何从词语分析、短语学分析到文本分析、话语分析以及文本群落分析的视角和方法问题,把具体的、散点的词语层研究统一到多维纵深的文本整体研究上,这使得语料库研究方法和视野呈收敛趋势:不是用其它各个学科的理论和观点来观照和审视语料库语言学,而是拿语料库语言学来观照和审视相关的研究发现和成果。(4)语料库研究应用问题。语料库研究应用越来越多元化和日常化。方法、工具和应用是语料库语言学学科从一开始就不可或缺的要素。它既不是纯理论的推演,也不是机械的泛工具。纯粹把语料库当作工具的学科需要谨慎,他们可能要么为语料库大量产生的“废料”感到头疼,要么为无限增长的反证而感到束手束脚。语料库语言学方兴未艾,目前对其发展作任何预测可能都是徒劳的。借用一部电影的对白,对语料库语言学的发展,我们只能知道开头,却永远猜不中结尾。

2.语料库与外语教学

再汇报一下我们对语料库应用的工作和学习体会。我们河师大团队目前正在解决以下几个问题:(1)如何使语料库服务语言教学的目标、内容、过程以及评价,使语料库应用纳入到教育教学这个整体框架下。语料库研究成果不仅需要融合应用语言学理论,还需要教师行动研究来具象,使之语境化、具体化,更富于针对性。(2)基于语料库的学习平台应与网络无缝联接。(3)多媒体语料库集成语料库检索技术、网络音视频流媒体技术及人机交互界面,在学科教学理论指导下,为语言教学提供底层数据支持,真正实现虚拟语料驱动学习。

大型语料库的合理使用与共建共享

梁茂成

1.外语教学中如何合理使用大型语料库

这里我想谈两个问题。第一个是语料库在外语教学中的应用问题。正如许多学者所言,语料库的最大优势在于其语言的真实性,有别于教师凭直觉杜撰出来的例句。或许是受这种思想的启发,前一阵子,有一位老师很得意地向我演示他如何利用数据库技术,将总容量达到一亿词的英国国家语料库(British National Corpus)存放到自己的服务器上,并提供网络入口,任由学生进行“探索性学习”。对这位老师的高超技术和热情投入我十分佩服,但不难想象,大型通用语料库往往口笔语兼收、语料庞杂,口语方面包含日常会话、公共演讲、电视访谈等;笔语方面既涉及书信往来、娱乐小报和时尚杂志,又不乏小说戏剧、学术著作和政府文书,不一而足。在教学实践中,若将如此混杂的语料不分青红皂白地和盘托出,交给初涉外语的学生,无异于把刚学游泳的孩子扔到茫茫大海之中,其结果可想而知。

几乎在语料库问世之时,人们就意识到语料库在外语教学中的广阔应用前景。的确有一些学者在大纲制定、教材编写、语言测试中尝试使用语料库,然而,迄今为止,普通外语教师和外语学习者,充分利用语料库的人少之又少。造成这种局面的原因是多方面的,值得我们思考。在我看来,语料库应用于外语教学应以遵循教育教学规律为首要原则。譬如按照因材施教的个性化学习原则,我们可以为不同学生(或不同课程)定制不同难度的分级语料库。或者还可按照不同教学目标,从大型语料库中精选少量语料以适应课堂教学的要求(我称之为“微型文本”)(梁茂成2009)。围绕教材和课程内容构建的微型文本库将会给外语教学提供丰富且可操作的真实语言素材;其次,若想使语料库在我国的外语教学和研究中获得更广泛的应用,我们有必要组织一些针对教学实际的专题研讨,走出“象牙塔”,以网络论坛或研修班的形式,同一线教师探讨语料库应用方面的实际知识。

2.也谈语料库资源的共建与共享

第二个问题是语料库资源共享。资源问题是约束语料库语言学普及和发展的一个突出问题。这其中包括软件资源和语料库资源两方面。我十分敬仰桂诗春教授,他不仅传授给我们做人之道,为我们提供学术指导,更重要的是在与桂老师交往中,他常常与我们共享资源。

我认为,在语料库资源方面,我们应该加强共建和共享。加强共建指的是在语料库建设和软件开发方面各单位应加强合作,整合智力和人力。对于共建的资源,大家则可以共享使用权。这样研发出来的产品便不会只存储在个别单位实验室的电脑里。目前,我们北京外国语大学语料库语言学团队正在联合全国近百所高校的外语教师,共同建设一个共享语料库。希望这成为国内共建语料库的一个成功试点。同时,加强共享也十分重要。我们开发了一些有价值的资源,若拒绝交流,这不利于发现问题,也不利于技术创新。近几年,北京外国语大学中国外语教育研究中心语料库语言学团队不断进取,特别注重与国内外同仁的交流。不仅如此,我们开发了多个专门用途语料库软件,如PatCount(梁茂成、熊文新2008),Colligator(许家金、熊文新2009)等,全部免费在专业的语料库论坛(www.corpus4u.org)上与人分享。这些软件极大地方便了广大语料库爱好者。我们衷心地希望桂诗春老师所提倡的共建与共享的精神可以将我国语料库语言学的发展推向新的高度。

标签:;  ;  ;  ;  ;  ;  ;  

语料库语言学与汉语外语教学_自然语言处理论文
下载Doc文档

猜你喜欢