信息处理中语言知识动态更新的总体思考_语料库论文

信息处理用语言知识动态更新的总体思考,本文主要内容关键词为:用语论文,总体论文,知识论文,动态论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息化社会的推进,人类发送和接收信息的方式也日益变化,人脑的信息处理水平和信息处理量越来越与电脑的信息处理水平和信息处理量息息相关。此前各种语言信息处理软件的“语言知识”都是由语言学家或者领域专家赋予的,随着电子版的文本、数字化的媒体、因特网的网站的几何级数的增加,各种新的知识呈加速度性增长,相应的信息处理用语言知识和规范(首先是词汇、术语知识及规范,其次是语法、语义、语用知识及规范)的动态更新问题已经迫在眉睫。所谓动态更新是与静态更新相对而言的,静态更新是在较长的时期中不定期的更新语言知识及其规范,动态更新是指随着社会语言交际的变化,在较短的时间里定期地或者即期地更新语言知识及其规范。本文介绍近几年来我们在动态更新语言知识及其规范方面的总体构想。

一 语言知识动态更新的必要性

语言自身是每天都在变化的事物,只要有人类社会存在,语言交际就存在,随着人类社会的不断变化,语言也就不断变化,语言的知识和规范实际上处在绝对运动状态。

由于新技术使人类的交际方式、出版行为发生空前深刻的质的变化,语言的变化速度正在加快,当今语言1年的变化可能大于过去10 年的变化,而10年的变化可能大于过去100年的变化。

语言变化的速度使得任何人工编纂的词典(包括术语,下同)和语法规则都难以及时跟进修订。在中国中型词典的修订需要10年以上的时间,大型词典和专业词典的修订周期更长。至今没有任何一部词典能够每年修订一次,更不要说即期修订。

词典是既往语言事实的定格,所以在我们进行大规模真实文本的信息处理时,任何词典都显得相对滞后,信息处理需要有及时更新的词典、即期更新的词典,动态更新的语言知识。我们需要“活”的词典去处理“活”的语言事实。

“活”的词典来源于“活”的语言事实。我们无法依靠人工从“活”的语料中随时寻找新的语言变化,以随时编纂新的词典供语言信息处理使用,我们也无法依靠机器自动搜寻以自动生成新的语言词典,因为机器不具备人的语感能力,不能自行评价和判断那些语言中的变化,不能自行进行吸纳和扬弃。目前世界上能够提供的更新语言知识的最好的办法是“机器自动回收——专家进行评价”,即有人工后处理的计算机辅助更新,或者叫“协作性知识管理”。(注:参见 ( 1999.6) D.Vervenne, Co— operative

knowledge management through

a thesaurus—based document indexing intranet:a case study inthe domain of Applied Epistemology,Synthesis of the Ph.D.dissertationfor thedegree of Doctor in Philosophy,Promotor:Prof Dr.F.Vandamme UNIVERSITY GENT

Faculty of Literature

and Philosophy belgium.)

本文旨在探讨一种可以动态更新语言知识的新设想,为此我们已经进行了一系列的预备性研究,并发表了若干相关的论文。(注:参见下列参考文献中所列论文:)

二 信息处理用语言知识动态更新的总体构想

1.语言知识动态更新的理论体系和基本方法

流通度理论

语感的量化和语感的计算机模拟

动态流通语料库

结构化语言知识库

动态语言知识评估

启动性语言知识和滚动性语言知识

语言知识的学习与扬弃

语言知识的提问与解释

语言知识的容错与纠错

目前,我们可以比较具体一点说明的是前6项内容的总体设想,后3方面的内容我们以后再细说。

2.语言知识动态更新的系统构成(图一见下页)

三 语言知识动态更新体系的说明

1.关于动态流通语料库

语料库的类型:

生语料库和熟语料库\单语种语料库和多语种语料库\单媒体语料库和多媒体语料库\平衡语料库\平行语料库\监控语料库\虚拟语料库\动态流通语料库

三代语料库的划分:

语料库的发展已经历了第一代和第二代,目前正向第三代语料库发展。一般认为这种发展主要表现在以下几个方面:

语料:从单语种到多语种。

数量:从百万级到千万级再到亿和万亿级。

加工:从词法级到句法级再到语义和语用级。

就基于语料库的经验主义研究和语言统计分析而言,上述三个方面中,数量自然是衡量语料库的级别的十分重要的标准。

“动态流通语料库”的特点:

我们认为:我们提出的“动态流通语料库”是第三代语料库。衡量语料库是否进入新的一代,不仅看贮存数量,还要看加工深度,“动态流通语料库”为语料库的深加工提供了两个极为重要的新属性:动态性和流通性。这两个属性使语料库从过去的死语料库成为“活语料库”,从而成为“活”的语言知识的生存环境,如果说“活”的词典、“活”的语言知识是鱼,“活语料库”则是水。

动态性:“动态流通语料库”的语料是追踪语言的交际不停地即期获取的,从而可以进行历时语言知识的评价和抉择。它的库容量、文本抽取领域、文本抽取媒体、文本抽取时间等都不是一成不变的,而是由一些因素动态决定的,在这方面我们与“监控语料库”和“虚拟语料库”的主张有一些相似之处。(注:参见(1999.4)Sinclair,John《语料库、检索与搭配》,上海外语教育出版社。)

流通性:“动态流通语料库”是依据流通度来确定抽样的媒体和文本的,因此“动态流通语料库”的文本均具有一个新的属性:流通度。流通度具有量化的属性值,其量化值取决于文本的发行量、发行周期、发行地区、阅读率等数据,就网络而言,与主页的访问率、链接率、下载率等数据有关。文本的流通度将决定基于这些文本获取的语言知识的流通度。各种语言成分的流通度首先是基于频度的,但是却比频度更加科学地描述了其流行通用的程度。流通度是语料库的一个极为重要的新属性,它使语料不仅发生量变而且发生质变。我们据此有可能进行人类语感的量化和语感的计算机模拟。

2.关于流通度和流通度的量化

流通度定义:“流通度”(circulation )是一种语言现象在社会传播中的流行通用程度。流行通用程度高,人们的视觉、听觉已习惯于接受,就感觉能说,否则,就觉得陌生,不顺畅,不能说。语言的流通度与社会传媒的流通度密切相关。流通度不仅是判定新词、新义、新用法的重要条件,也是判定方言词语、术语、文言词语、外来词语是否进入普通话、是否进入通用领域、是否合乎规范的极为有效力的量化操作标准。这样看来,语料的流通度的选择、首先是社会传媒的流通度的选择,就显得十分重要。

社会传媒及语言知识的流通度体系:流通度是一个普遍适用的概念,是一种普遍存在的现象,它存在于两大类媒体——书面文本媒体(报纸、杂志、图书等)和口头文本媒体(广播、电影、电视等)——之中,也存在于因特网上。首先是媒体具有流通度的属性和属性值,其次是刊载于这种媒体的文本具有流通度属性和属性值,再次是依据这种文本所获取的语言知识也具有流通度的属性和属性值。我们已经给出这两种媒体的流通度层次框架及其相应的标记体系:

媒体的流通度体系

C:流通度 Cn:网络流通度Ct:书面流通度

Cs:口头流通度 Ctm:书面媒体流通度

Csm:口头媒体流通度

Ctnm:书面报纸流通度 Csrm:广播媒体流通度 Ctmm:书面杂志流通度

Cstm:电视媒体流通度 Ctbm:书面图书流通度 Csfm:电影媒体流通度

语言知识的流通体系

Ctt:书面文本流通度 Cst:口头文本流通度 Ctw:书面词语流通度

Csw:口头词语流通度 Ctp:书面短语流通度 Csp:口头短语流通度

Ctg:书面语法流通度 Csg:口头语法流通度 Cts:书面语义流通度

Css:口头语义流通度 Ctl:书面语用流通度 Csl:口头语用流通度

流通度的量化:

我们提出书面流通度的最简单最基础的计算公式:

Ct=Vc·Dc·Ac·Fc·… 即:流通度=流通量·流通密度·流通空间·流通率·…

流通量(the volume of circulation)、流通密度(the densityof circulation)、流通空间(the area of circulation)、 流通率(the frequency of circulation)来自于以下的分析:

媒体的发行量:发行100万册和发行1000 册的媒体对于社会交际和语言的影响力是绝对不一样的。中国的《人民日报》、《中国青年报》、《北京青年报》与一份销量不大的报纸的影响力;一部畅销书和一部非畅销书的影响力相比较,其悬殊是不言而喻的。发行量可以定义为“流通量”,“流通量”与流通度成正比。

媒体的发行周期:同样是较高的发行量,日报、周报、月刊、季刊、年鉴发行周期大大有别,对于流通度的影响显然不一样。发行周期可以定义为“流通密度”,发行周期与“流通密度”成反比,周期越短,密度越大,“流通密度”与流通度成正比。

媒体的发行圈:同样的发行量、同样的发行周期,只在本地发行或面向全国发行其影响力显然也不一样。发行圈可以定义为“流通空间”,从某种角度看,发行圈也是一种分布或散布,是文本流通在地域或领域方面的散布。“流通空间”与流通度成正比。

媒体的阅读率:媒体的流通度当然取决于流通量、流通密度、流通空间,但是一个读物印量再大,发行周期再短、发行地区和领域再广,大家拿到手不读,也没有什么影响力,某些依靠权力派购的报刊就属于这一类。阅读率可以定义为“流通率”,阅读率高的文本才是真实流通的文本,才是对语言的发展有真正影响力的文本。目前的阅读率只能靠社会调查,将来网络电子版的阅读率的计算可能会更方便。

实际上流通量、流通密度、流通空间、流通率都还要有自己计算公式以及一定的权值或系数。我们对中国1997年出版全部2058种报纸的流通度属性及其属性值进行了初步分。(注:参见参考文献[7]隋岩、张普论文。)

3.关于语感的量化与语感模拟

(1)关于语感

语感(Intuition)是对语言运用的正误、优劣、 常殊的一种直觉或说就是对一种语言现象流行通用程度的感觉。语感能力是一种最基的语言能力,是对表述得正确不正确(即“信”)、顺畅不顺畅(即达”)、恰当不恰当(即“雅”)的一种直观的认识能力与审析能力。们用符号I 来表示语感。语感是一种“度”,一种“分寸”。实际上就是对流行通用的程度感,对于语言运用中“信达雅”的分寸感。因此,语感一定是可以量化的,可以计算的。我们希望探求语感的量化方法,首先要对语感进行分析研究。

一种语言事实能不能“被理解”、“被认同”和“被传播”,通常的办法是看其“能不能说”。而“能不能说”主要靠的是个人的“语感”,个人的语感则与对话双方的许多背景因素有关,甚至连年龄、性别、性格、品德、情感、阅历、职业、职务等也可能影响到人们的语感。因此可以认为:原则上没有也不大可能有两个语感完全相同的人,即使是同一个人,其语感在不同时期也可能会有所变化。操同一语言的不同的人,其语感和语感能力是有强弱之分的。我们把人与人之间的这种语感的差别称为“差别语感”,用符号Id来表示。“差别感”Id是一个变数,它随着不同人的语感和语感能力强弱的变化可大可小,同一个人的“差别感”也随着影响语感的因素的变化而变化。所以,“差别感”是语感和语感能力中的动态部分,是一种动态语感。

但是,操同一语言的人毕竟还保持着共同的语感,这样才能沟通。共同的语感是最基本的语感,最常规的语感,最一般的语感。我们把这种人与人之间存在的共同的语感称为“共同语感”,用符号Ic来表示。“共同感”Ic是一个定数,对于所有的人都是一定的。所以,“共同感”是语感和语感能力中的稳态部分,是一种稳态语感。任何一个人的语感(我们用I来表示)都是有稳态部分和动态部分这样两种成分的, 所以,语感的公式是:

I=Id+Ic(I:语感;Ic:共同感;Id:差别感)

我们说Ic是稳态而不说是静态,因为共同感并非静止不变,只是相对稳定而已。随着时代、民族、国家、社会的发展,随着人类文明的进步和世界经济的交融,“共同感”也会发生变化,只不过无论怎样变化,无论变化大小、快慢,对于每一个人来说,这部分永远是一样的。我们主要分析差别感。

(2)关于语感差别

人与人之间的语感差别主要体现在如下一些方面:

新旧差别:这主要表现在新词、新义、新用法方面。语言总是要发展变化的,新词、新义是最活跃的部分,“能指”必须适应“所指”,新事物、新思想、新发现带来的新概念常常需要用新词、新义来表达。例如:“手机”“网址”“彩打”“数字化”等,青年人思想最活跃、最容易接受新事物,所以,一些新词、新用法往往首先从青年人群开始传播,例如:“网虫”“黑客”;“光盘”“盗版”等等。新的语言成分总是有人最先在局部范围内开始使用,传播开关稳定后,就成了被大家接受的新词、新义、新用法,如不然,就逐渐被淘汰,个人或极少数人仍然使用,就被视为生造。语感的量化和可计算,应该能够提供一个阈值,从而较为科学地确定——一个新的语言成分何时算是“约定俗成”,被公众(或者说是被绝大多数人)认可。

学科差别:这主要表现在词汇中的术语和一般词汇的术语义。一些人士(往往是从事某一学科的知识分子或从事某一行业的同行)对本领域的术语和术语义有较强的语感,而该学科领域或行业范围以外的人则没有这种语感。例如:“扇区”“总线”“等离子”“夸克”等等。术语或术语义的使用范围有时会扩大,进入一般词汇,进入一般词汇后,学科差别消失,成为新的具有共同感的词汇和词汇义。语感的量化和可计算,应该也可以寻找到从术语进入一般词汇的阈值。

地域差别:这主要表现在方音、方言词汇、方言义、方言语法等方面。一些人士长期生活在方言区,对本方言的语感较强,不在该方言区生活的人士或者不了解该种方言的人士,就缺乏或不具备该方言语感。方音、方言词汇、方言义或方言语法有时也会扩大,进入共同语领域,进入共同语后,地域差别消失,成为新的具有共同感的词汇、意义和用法。语感的量化和可计算,应该也可以帮助我们寻找到一个语言成分从方言进入普通话的阈值,达不到这个阈值的就仍然是方言成分。

文白差别:这主要表现在文言词语、文言用法在现代汉语中的遗留。一些人士出于不同的交际目的或者处于不同的交际环境,常常使用某些文言词语或文言语法,不熟悉文言的人,就不会有文言的语感。平常说这叫“转文”。“白”是指口语,不用口语而用文言,这是一种以文白来表现的风格差别。在特定的场合需要体现出文白的差别,以显示学问的高深或文笔的凝炼、庄重等。怎样确定一个语言成分属文言还是白话?现代书面汉语中究竟有多少文言成分的遗留?语感的量化和可计算应该也可以帮助我们找到区分文言和白话的阈值,以确定哪些是文言成分的遗留。

翻译差别:这主要表现在外来词的翻译方面。最初,不同人士或不同的地区对同一事物常常会有不同的译法。例如:“互联网”“国际网”“网际网”“国际互联网”“因特网”等等。后来,也许会慢慢趋于一致,或者由有关的权威机构颁布标准来统一。例如:国家自然科学名词审定委员会规定:Internet一词的译名取“因特网”,废其他。此外,欧化的句式也是出于翻译的影响。语感的量化和可计算,应该也可以帮助我们找到合适的阈值,来确定外来词的恰当的译法。

也许语感还有其他方面的差异,暂不细论。

(3)关于公众语感

共同语感Ic总是稳态的语感,是操同一语言的全体人的语感。差别语感Id总是动态语感,是操同一语言的部分人的语感,这“部分人”有三种情况:少部分人、大部分人、一半人。刚好一半人说的时候是偶然的,少部分人、大部分人说的时候是必然的。只有当一种语言现象为大部分人或者绝大部分人所接受时,这种语言现象才可以说是比较成熟的,已经流通了。如果需要进行语言规范,除了共同感的部分进入规范外,这种已经为大部分或绝大部分人接受的语言事实也常常进入规范。我们把这种代表大部分或绝大部分人的语感称为公众语感,用符号Ip来代表,Ip>Ic,即公众语感不仅包含了共同语感,其外延还包括一些大多数人认可的部分。

一大批这种“多数人认同”的语言事实进入规范后,自然会遭到对这种事实语感不强的少数人的反对,那是很正常的。只不过我们无从证明反对者就是代表少数,所以规范常常陷入两难的境地。当然,反对者当时可能代表多数,时过境迁后来又可能成为少数,语言随时都在发生变化,这也常常使我们的一些语言学家陷入尴尬的境地。例如:当初被极力禁绝的“人均”“达标”“彩电”“面的”“邮编”“焗油”等,最终顽强地生存下来,有的甚至进入词典或成为规范。

(4)关于语感的量化和语感模拟

倘若语感可以量化、可以计算,我们就能科学地找到规范化的“多数”的依据,从而以“(数)理”服人,而不仅仅是以权力或权威服人。我们进一步的目标是叫电脑模拟人脑。赋予电脑语感,实际上就是给它一个“大多数”的阈值,叫电脑能科学地判定那些“成熟的”“已经流通的”语言事实,自动地“认可”和“接受”,这就是自学习和自反馈,就是人工智能研究所追求的高智能境界。

我们认为,对于操同一种语言的人的公众语感无论进行周遍统计还是抽样统计,都是不现实的,也难以确定科学的抽样原则。我们发现所谓个人语感和公众语感都是对于语言成分的流通度的一种感觉。因此我们提出用流通度相似于公众语感的量化方案,我们说“相似”,是因为流通度本身并不是精确的,它已经略去了一些影响语言流通度的因素,例如:个人之间的语言交际也是一种发表和流通,但是受众和影响有限,与大众传媒的复制与流通相比较,对于语言流通度的影响就忽略不计了。此外,还有学校教育、父母教育等。所以,依据大众传媒的流通度计算出来的语言的流通度,客观上只是流通度的一种最大接近值,这一点我们还要另文详述。而公众语感就是绝大多数人对这种流通度的感觉。所以,我们有:I[,p]≈C。这样我们就可以从流通度的量化进入语感的量化,进而计算语感,模拟语感。这是极其关键的一步,对于计算机的智能化、人性化具有相当深刻的意义。

4.结构化的语言知识库

(1)关于启动知识库和滚动知识库

为了动态更新语言知识,我们必须给更新体系注入一定的启动知识,即建立启动知识库。这样的启动知识库我们在此前的语言信息处理中实际上已经基本具备了,如上文所述,这个库好比是“鱼苗”,以便它可以在“动态流通语料库”这样的“活水”中渐渐长大,长大的“鱼”,就是含有新的语言知识的滚动知识库。滚动知识库又作为新的启动知识库,启动在动态更新环境中的新一轮的滚动,如此不舍昼夜,这样的学习人将莫及。

(2)关于结构化的词典知识库

语言的各个平面并不是以同样的速度在更新,语音、词汇、语法、语义中,词汇和语义是最活跃的部分。就是词汇和意义也不是每个成分的变化都一致。我们认为研究语言变化的规律性,建立适应语言知识动态更新的结构化语言知识库,是实现语言从启动知识到滚动知识的循环往复的重要环节之一。在结构化的语言知识库中,结构化的词典是首先要建立的。

我们提出结构化词典的基本结构设计:

结构化词典的内核是最稳定的部分,越向外层越活跃,变化越大越快,并且有一些语言成分从外向内发展,逐步走向稳定。

结束语

动态更新语言知识的研究工作刚刚开始,我们并不认为这个总体思考是绝对不变的,它也是不断变化和更新的,事实上一些细心的读者会从我们的一系列文章中发现这些变化和更新。不过,它的一些基本理论、基本方法、基本思路是相对稳定的,也是动态更新语言知识体系的内核。

这些内核来自于理论语言学、社会语言学、认知语言学的思考,它们并不是只就汉语信息处理而言的,而是适合信息时代的数字化的普遍语言信息处理的,是跨语言的,超语言的。这些内核将会在实践中越来越完善,越来越稳定。

标签:;  ;  ;  ;  ;  

信息处理中语言知识动态更新的总体思考_语料库论文
下载Doc文档

猜你喜欢