通过映射分析揭示语法中隐藏的规律:加权最小边映射_语义分析论文

通过地图分析揭示语法学中的隐性规律——“加权最少边地图”,本文主要内容关键词为:边地论文,隐性论文,语法论文,学中论文,规律论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1.语义地图及相关分析方法

      在语言类型学研究中,“语义地图”(semantic maps)是一个十分重要的跨语言调查数据的分析方法,如Haspelmath(1997)的经典案例,即关于“不定代词”(indefinite pronouns)的语义地图;Croft(2001)一书中大量应用语义地图作为分析工具,并提出了“语义地图连续性假说”(Semantic Map Connectivity Hypothesis;参看Croft,2001:96)。

      在汉语学界,王瑞晶(2010),张敏(2010),陆丙甫、屈正林(2010),吴福祥(2011、2014),郭锐(2010、2012a)等对语义地图理论的发展有较为详细的介绍,也探讨了它对汉语研究的作用,并就一些案例做了精到的分析。2015年论文集《汉语多功能语法形式的语义地图研究》的出版,标志着汉语语义地图研究进入了一个较快的发展时期。

      迄今为止,国外已发展出两代语义地图模型,按王瑞晶(2010)所说,它们分别是第一代“经典语义地图”和第二代“多维扫描”(MDS)地图(参看Croft & Poole,2008)。限于篇幅,本文不再详述。不过这两种地图并不是相互替代的关系,而是相互补充的关系,第一代地图给出点与点之间的联系关系,有利于分析它们之间的蕴涵关系,第二代则给出空间中点与点之间的远近距离,有利于进行聚合分析。如能将二者合而为一,显然更为方便。

      另一方面,早期的地图分析中存在着一些缺陷,主要表现在地图结构的不完备,以及地图构造方法上的主观随意上。当代的研究者希望通过数学计算的方法,使地图更为客观准确地反映语言调查的数据。

      Cysouw(2003)曾构造了一个关于“人称标记”的地图,然而他并不满意;在Cysouw(2007)中他详细讨论了地图的构造原理与方法,试图在经典语义地图中将点与点之间的频率高低反映出来。下面是我们据其调查所做的数据表。

      

      说明:其中第一行表示共有八个项目,其意义为:1言者,如I;2听者,如you;3言者与听者之外的第三者,如he/she/it;12包括言者与听者,如we(复数包括式);123所有各方,有多个听者,如we(复数包括式);13不包括听者,只包括言者和第三者,如we(排除式);23不包括言者,只包括听者和第三者,如you;33不包括言者和听者,只是多个第三者,如they。

      表中每一行都代表语言中存在的一个组合,它在八个调查项目中有不同的yes(用“+”表示)和no(用空白格表示)分布情况,一共有35种不同的组合。每一种组合第一列的频率数字代表拥有这一意义组合的语言形式的数字。右边的最后一列“yes”反映每行中所共现的“+”号的数量。

      将表中数据全部反映出来,就得到图1这样一张完整加权的语义地图。这图非常复杂。但是地图越复杂,语义关系反而越不清晰,可以从图中找到的隐性规律越少。这是因为图中有不少“回路”(loop),每一条回路都会破坏规律性。

      

      之所以会形成图1这样的局面,是因为在调查的数据中,混入了一些“噪声”,即有的联系在调查中很少出现,它们不反映必然性规律,而仅仅是反映一些偶然现象,即在历史演变中因为某个特殊的原因造成的特殊的现象,但它们对“规律性”的数据会产生干扰。我们需要对这些噪声进行过滤。

      Cysouw(2007)的办法,是将上述语义地图中的某些连线删除,从而构成更为简约的地图。我们称之为“降噪”的过程,如图2:

      

      这些地图的简约程度各不相同,究竟哪张图更反映语言事实?更为重要的问题是,为什么是保留这些连线,而不是其他的连线?“降噪”的依据是什么?这是一个大问题。

      Cysouw(2007:19)的操作方法中有一个漏洞。如在图1中,“12-13”这条连线的出现次数为“181”,意味着有181个形式中,同时出现12和13的语义内容。共现次数越高,则两个项目之间的连线越粗;反之,连线越细。这一次数本应作为删或留的标准,但虽然“12-13”之间的连线相当粗(是图中第三粗的线),Cysouw却将它删除了,不再出现在图2中,为什么?

      郭锐(2012b:115-116)对计算方法做了改进,引入了“关联度”的概念;马腾(2015:201)详细解说:两个点(基元)之间关联度的计算公式为“兼有数/总数”,其中,点A、B的兼有数指A、B的共现次数;而点A、B的总数指A、B各自出现次数之和,再减去它们的共现次数。

      不过,这一计算仍然存在很大的问题,在郭锐(2012b)的计算中,“12-13”之间的关联度仍高到59.54%,排名第五,比排名第六的“1-13”的31.48%高出不少;而在马腾(2015:202)中,“12-13”的兼有数被从郭锐(2015:169)中的“181次”一下下降到了“2次”,但却未说明原因。

      除以上研究外,Haspelmath(2003)和de Haan(2010)①也就如何绘制经典语义地图以及如何解决在绘制过程中可能遇到的一些技术性问题做了详细的叙述,但他们未设立权重计算步骤。

      2.“加权最少边地图”的构造与原理

      本文试图在Cysouw(2007)和郭锐(2012b)的基础上,提出一种进一步改良的语义地图,我们称为“加权最少边地图”(weighted maps with least edges),它要满足以下三个要求:

      1)尽可能的完备性(但不一定要求百分之百);

      2)真实地反映实际语言中的使用频率对各项目之间关系的影响,能够像MDS那样,划分出共现项目的区域;

      3)尽可能反映项目之间的倾向性蕴涵关系,能够像传统语义地图那样作出一定的理论预测,这需要一个更有效的“加权”和“降噪”处理程序。

      因此,我们将以传统的连线式语义地图为主干,并从频率中统计出每条连线的权重,以此作为判定各节点间空间距离的依据,以及各个连线保留或删除的理由。

      我们认为,前人计算方法的最大缺点是没有采用“博弈论”的优先选择决策方法。

      2.1 “加权最少边地图”的基本原理

      在社会学中,有“显性控制”与“隐性控制”两种社会现象。

      1)显性控制:一旦社团产生明确的关于某种运行规则的认识时,这一规则便“外化”于该社会,成为一条显性的机制,从而得以在纷繁复杂的社会事件中保持相对独立、静止的面貌,并反过头来要求社会必须遵从于它。语言系统中,明确的“形式标记”就是显性控制的体现,标记必须出现就是外化的显性规律。

      2)隐性控制:在显性化之前,一个未曾事先规定任何规则的社团,在其自身的运行中仍然会自发地形成一套运行机制,但它仅仅是当下的、动态的、自动地形成着的,每一个成员都卷入其中,而未必知道它,“不识庐山真面目,只缘身在此山中”。社会关系中几乎任何一个社团都存在这样的隐性中心,如一个朋友圈里的核心成员和他的亲密圈子,如国王身边若干个最具有影响力的大臣集团,再如一个家庭有了小孩以后,因为小孩极弱需要依赖旁人照顾,所以使得父母的“二人空间”大大减少,一切家庭活动多是围着小孩在转,从而小孩成为了自然的隐性“家庭中心”。语言系统中,凡是没有被“形式标记”明确化的一切控制都是隐性控制。

      “加权最少边地图”的最终目的,就是利用数学方法研究任何一个系统中的“隐性控制”。“控制”(controlling)来自“交际”(communication)中的不平衡状态。最典型的“无控制”状态是团(clique),它是指三元或三元以上的完全图(complete graph),其中任意两点之间都是可以“直接、均匀”相连的“完全回路”,因此最终来说任意两点间都是绝对“平等”的,自然没有任何控制关系。这正是语义地图中要尽可能减少“回路”的根本原因。

      在社会生活中如何达成“不平衡”?根本的动因是“从众”心理,比如有两条路,一条人多,一条人少,在选择时大多数人都走人多的一条,多者愈多,少者愈少,其最终结果是“赢家通吃”。在语言中,它就是“约定俗成”这种动态语言现象背后的决定性心理机制。

      在任何一个社会性系统(包括语言系统)的分析中,在做每一步抉择时,都采用“优先选择”(走人多的路)和“优先赋权”(今后所有人都走人多的那条路,人少的则一个也不去)两个策略,就会最大限度地达成不平衡,从而量大限度地反映出系统中的隐性控制关系。

      2.2 “加权最少边地图”的具体操作

      [P1]排序

      先把调查数据按频率及项目多少排序,以确定操作的前后步骤,其原则是“选yes的项目越少的越先操作,出现频率越高的越先操作”,如表1所示。

      [P2]一般连线与赋权

      从前向后,每次操作,只对一行数据进行操作,先画出项目间的连线,再将该行的频次赋予这一条连线,作为它的权重计算的一个相加的数值。

      各步骤如下表2所示,在第一步中,将3与33连线,并赋予“3-33”一个数值125;在第十七步中,也会连线3如33,因此再赋予它一个数值5;……

      [P3]优先选择

      当在某一步骤中,可能同时存在多种连线的可能性时,按照以下方法优先选择:

      如在第16步中,是12、123如13三个项目共现,频次100。这时有三种的连线方式,即“12-123、123-13”、“12-123、12-13”、“123-13、12-13”。

      1)先将在此以前的连线中,与本步骤有关的连线的已被赋予的权重总值W计算出来。在第16步中,“12-123”已被赋予97,“123-13”已被赋予3,“12-13”已被赋予2。

      2)再将在此以后的步骤中,与本步骤有关的各项目的可能的共现频次总值S计算出来,但必须减去这三个项目都同时出现的数值。在第17到35步中,“12-123”可能会共现98,“123-13”可能会共现9,“12-13”可能会共现1。

      3)将W与S值相加,数值高的优先选择。在第16步中,W+S的值,“12-123”为195,“123-13”为12,“12-13”为3。显然,应选择前两条连线,即“12-123、123-13”。

      4)在以上计算后,若还有其他选择,则是属于“多图同义”的歧解现象。在第22步中,“12-33”和“123-33”,W+S的值都是2,所以两条线可以选任何一个。

      [P4]选先赋权

      选择之后,将本步骤的频次赋予所选的连线,作为它的权重的一个数值;而未选的连线,则不再赋予。在第16步中,频次100赋予了“12-123”和“123-13”,而“12-13”没有得到任何权重。

      [P5]权重

      将表中形式全部连完后,为每一条连线计算出权重值,它既表明了项目之间的关联程度,也可以作为降噪的依据。如对“3-33”而言,最终的权重=125+5+6+1=137。

      [P6]降噪

      研究者可以根据研究目的的不同,选择不同的噪声阈值α,将权重值低于α的连线删除,从而对地图进行深度为α的降噪处理。不过,阈值设立的操作标准,并非数据分析本身可知的,要由研究者的具体研究目的来决定,带有一定的主观性。

      

      

      

      图3中“123-33”和“12-33”连线上有黑点,表明是歧解,实际上只需选一个。图3中大多数连线都是小概率的,可以根据研究需要进行不同程度的降噪处理:1)如设噪音阈值为60,将权重60以下的连线删除,则得到图2a。2)如设噪音阈值为30(不包括30),则得到图2c。3)如设噪音阈值为10,则得到前面的图2b。②本文的研究证实了Cysouw(2007)的设想。

      2.3 控制度参数

      作为一个社会性的系统,其隐性控制的程度会有差异,呈现出一种动态的梯级,其中一端是最为严格的隐性控制,其控制度为百分之百;另一端则是完全没有隐性控制的自由状态,控制度为零;大部分系统则居于其间。在语言系统中,控制度高则语言内部的规律性强,反之则弱。有时因为各种原因,或者是因为我们错误地把一些实际上并不相干的调查项目“凑”在一起,或者是因为这一领域仍处于“自由竞争”状态,尚未形成稳定的相互关系,或者纯粹就是因为调查的数据不充分,系统的控制程度会显得非常低,虽然不一定为0。

      我们根据调查的实际数据,对研究领域的控制程度进行评估,这就是控制度指数(index about control degree)。其计算公式是:

      D=(SUM(w简)-SUM(w简·歧))/SUM(w全)

      其中,“简”指一个系统的“最简图”,其定义为:当地图上每个点都选择并只选择唯一的一个邻居,作为它所依附的对象时,这就是最简地图。它代表目前状态中可能存在的、最严格的隐性控制关系。

      “SUM(w简)”表示最简图的全部权重之和,“SUM(w简·歧)”表示最简图中歧解边的权重之和,“SUM(w全)”表示全图的权重之和。

      根据Cysouw(2003)的数据,其最简图正是图2a,这一系统的控制度为83.5%,反映了很强的语言规律性。

      3.用“加权最少边地图”揭示语法学的隐性规律

      3.1 语义地图中的歧解问题

      语义地图构建中时常会发生歧解问题,如果少量发生,或发生在权重很低的边,影响不大,如图3中“123-33”和“12-33”连线权重仅为2;但有时会大量地发生,或发生在权重很高的边,则其控制度指数就会大大下降,说明在这一领域实际上规律性不强,仍处于一种竞争状态。

      1)吴福祥(2009、2011、2014)归纳了东南亚语言54种语言里“得”义语素的多种功能。

      

      在没有更多的数据发掘之前,就已有的数据而言,这一系统歧解很多,有2×3×4=24个可选的地图,吴文中给出的仅是其中的一种。该系统的控制度为32.64%,说明规律性十分地弱。从图4可以看到其中回路和歧解不少,由于歧解太多,图中就不一一指明了。

      

      2)屈正林调查了我国境内35种语言中定语标记与定语类型的搭配关系(见陆丙甫、屈正林,2010:119。数据略),计算后发现控制度为50%,规律性略高,但依然较低。

      当然,歧解问题实际上也许并没有这么可怕,只不过它提示我们研究的深度还很不够。

      1)数据分析只能就数据本身给出客观的结论,数据可以给出多个结果,但研究者之所以仅仅选择一种语义地图,很显然是受其知识背景而作出的主观选择,与研究者对“得”义语素的语法化路径的理解有关(参看吴福祥,2009),而这一点是数据分析无能为力的。

      2)歧解本身往往也有一定的规律可循。“得”义动词的演化中,“得”义动词和动相补语是全图的核心,能性补语、状态程度补语标记则与这个核心关系最为紧密。那些产生歧解的项,则往往是近一步语法化的结果,如完整体标记、能性补语标记。

      3.2 地图分析的更广泛的运用

      Anderson(1982)早就认为,语义地图的应用应不限于语言类型学的范畴;Boye(2010)、de Haan(2010)也以为,从语义地图本身来看,我们可以更为主动地来划分语法范畴。王瑞晶(2010)说,“语义地图”的方法也应用于人文领域的其他学科的分析,尤其是对于影响因素复杂、表现形式多样的多个体间的比较分析,语义地图模型在这方面的努力将为我们提供更多的方向与思路。因此,“语义地图”号称“语义”,实际上调查的却可以是任何形式、意义甚至语用项目,只要对象个体间具备某种联系,或者相关性。下面看几个例子:

      1)郭锐(1993)调查了汉语常用动词与“了、着、过、在/正在、时量”六个标记间的搭配关系(数据略),用本文方法计算可得下图:③

      

      从中可以看到,汉语是以“过”和“了F”作为整个系统的核心的,且“过”更为重要,“过、了I、了F、在、着”形成紧密的关系,这对时体研究具有重要的启示作用。又,即使存在“在”是与“过”关联,还是与“了F”关联的歧解,该系统的控制度仍高达74.2%,说明汉语的这些时间标记已经构成了一个高度规律性的系统。

      另外,图中带方框的项目可以独用,称为“高地”(high land),其高度即独用的频次,标记在圆圈之中。“高地”的存在对于权重的计算来说是一个大问题,并会破坏蕴含共性,目前尚未进行研究。

      2)亢世勇(2004)调查了汉语常用动词与“名宾、动宾、小句宾、形宾”四种宾语句法类型之间的搭配关系(数据略),计算后控制度高达95.27%,规律性极强(图见下),可以看到“动宾、名宾、小句宾”形成一个以“名宾”为核心的区域;“形宾”则另外形成一个区域。“名宾”是一个绝对的高地,比周围的项目高出一大截,独用现象非常普遍。

      

      亢世勇(2004)对名宾的语义角色类型做了进一步的调查分析,根据其数据,在删除大量极低频率的连线(绝对权重在10以下的全部删去)后得到下图。可以看到,汉语中“受事一处所”宾语处于核心地位,其中处所宾语的发达尤为突出,这很可能是汉语各种非受事性宾语十分发达的重要原因;而且这一系统的控制度达84.9%。

      

      本文致力于开发一种有用的技术手段。自从进入互联网时代以来,当代的社会科学研究,包括语言学研究,已经迈向大数据、大平台、大集群、团队化的新时代,开始转向以大规模数据库为核心、以一批优秀人才为主干、以丰富的语言资源为基础、以国际化的大规模研究任务为导向的新研究范式。从目前国内语言研究的现状看,调查工作卓有成效,而数据分析却是一大短板。已有的分析工具,如MDS图都未能满足研究的需要,不足以发掘出尽可能多的隐性规律,成为制约发展的主要瓶颈之一。

      本文是这一方面的一个小小的尝试。“加权最少边地图”将人类认知的共性放在首位,认为同类语言现象会尽可能地构成最大公约关系,所以可以从优势选择与优势赋权出发,设计一个新的数据分析方法,为降低噪声的影响提供新的算法,从而将蕴涵关系、聚类关系及其他隐性的规律在一张地图中反映出来。此外,“控制度指数”的设定,第一次为研究者们评估系统是否形成隐性控制规律,以及这一规律性的强弱,提供了较为可靠的量化分析手段。

      然而没有一个技术是万能的。“加权最少边地图”操作的优点是概括性强,可以最大限度地发现隐性控制规律;但这也是它的缺点,可能造成“过度理解”(over-understanding),即忽略了有时会出现的、小概率的“逆众”心理现象。为此,在进一步的研究中,我们引入了“赢多输少”(由陈振宁设计)这种概括性较弱的算法,以便对过度理解进行适当的压制。

      当数据太大、歧解太多时,无法由人工去计算,需要由计算机处理。我们已经用“交际与控制”(CCG,Communicative and Controlled Graph)理论这一名称,在“永新语言学”网站(http://www.newlinguistics.org/De-fault.aspx)设立了免费“数据计算”项目,提交数据即可自动完成分析与制图。

      第一作者受金立鑫教授有关课程的启发开始本研究;文章初稿曾在第二届《中国语文》青年学者沙龙(2014·扬州大学)上宣读;吴福祥教授、郭锐教授及《中国语文》匿名审稿专家提出了中肯的意见,谨此一并致以诚挚的谢意!当然文中错谬之处由作者本人负责。本文涉及的计算软件,由第二作者负责设计开发。

      ①de Haan在此之前已有研究成果,不过这一篇更有代表性。

      ②多位研究者向作者提出,降噪处理(尤其是阈值设立较大或样本语言数量本身不够大时)会不会带来过强的结论,或者说限制/缩小了语言可能存在的变异性?操作中的主观随意性如何控制?这些问题确实应引起足够有重视,尚须进一步加以研究。例如当阈值取10时,2-12这条连线也删去了,这与图2(b)略有不同,虽然因为2-12共现次数本来就很小,所以这一差异可以忽略。

      ③感谢复旦中文系“计算语言学”研修班的同学指出“在”的歧解问题,本文初稿时忽略了这一点。

标签:;  ;  ;  

通过映射分析揭示语法中隐藏的规律:加权最小边映射_语义分析论文
下载Doc文档

猜你喜欢