汉语信息处理研究:语义研究--汉语同轴网络_语义分析论文

中文信息处理专题研究:语义研究——汉语的意合网络,本文主要内容关键词为:汉语论文,语义论文,中文论文,专题研究论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

世界上各民族的语言按照其思维方式和编码体系可以分为两种类型:

一、以英语为代表的“句法型语言”。这种语言的主要特点是:句子结构的线性序列是“主语—谓语”,语言单位的组合手段是“形态变化”(Inflection)。

二、以汉语为代表的“语义型语言”,这种语言的主要特点是:句子结构的线性序列是“话题—述评”,语言单位的组合手段是“意合法”(Semotactics)。

汉语信息处理应从汉语是“语义型语言”的特点出发,加强对“意合法”的研究。

美国学者奎廉(M.Quillian)1966年从心理学角度研究人的记忆时提出了“语义网络”(Semantic Network)。后来经过西蒙斯(R.Simmons)和亨德里克斯(G.Hendrix)等的改进,比较成功地用于英语的“知识表示”和“自然语言理解”。为了适合于汉语信息处理,我们对语义网络的内容和形式作了改进,称之为“意合网络”(Semotactic Network)。

意合网络是“语义组合系统”的形式化图解,也是智能电脑的“知识表示”。意合网络是由各级“语义单位”组成的,清晰表示“语义关系”“语义依附”和“语义指向”的有层次的网络。

把语义组合关系标注在句法结构分析图上是不行的。句法结构分析图是“树形图”,它只能标注“父节点”跟“子节点”的关系,不能够标注“兄节点”跟“弟节点”的关系,而“网络图”则可以标注任何“节点”之间的关系。

例:刘大嫂死了三只鸡。

此句子[事件]的中枢是“死了”[变化]。“三只鸡”是“死了”的[当事](承当者)。“刘大嫂”是“死了”的[涉事](受损者)。“刘大嫂”跟“三只鸡”之间必有领属关系:“刘大嫂”是[领事],而“三只鸡”是[属事],即“死了”的是“刘大嫂的三只鸡”。

这个句子不能扩展为:*“刘大嫂死了别人的三只鸡”。

在“句法树”上,主语跟宾语的语义关系无法标注,所以必须用“意合网络”。

向电脑输入自然语言的“线性序列”,如果电脑能把表层的“线性序列”自动地变成深层的“意合网络”,则可以认为电脑“理解”了自然语言。

一 意向网络中的语义单位

语义单位是语义平面上的单位:“概念”“标记”“事件”。

(一)概念(Concept)

“概念”是对客观事物及其特有属性概括的反映,是所传递的全部信息中的客观信息。概念的形式是一个语言符号串。一个概念是意合网络的一个“节点”(Node)。

1.述谓概念(Verbal Concept)

在认识客观世界时,人们使用这样的一种语言符号串来叙述所指事物的运动状态、描述所指事物的属性特征、表述所指事物的相对关系,也就是对所指的事物加以“说明”。这种语言符号串所表达的是“述谓概念”,也称为“运动类概念”

2.指称概念(Nominal Concept)

在认识客观世界时,人们指定这样的一种语言符号串来称呼所指的事物,也就是对所指事物给以“命名”。这种语言符号串所表达的是“指称概念”,也称为“事物类概念”。

(二)事件(Event)

“事件”是以一个述谓概念为“中枢”(Pivot),以一个或者多个相关的指称概念为“外围”(Periphery)的组合所反映的客观现实。一个事件形成一个简单的意合网络。

语义平面上的术语“事件”可以是:1.一个“事实”(“李振华学电脑”),2.一个“描述”(“李振华很正直”),3.一个“判断”(“李振华是组长”)。

(三)标记(Marker)

语言所传递的信息包括客观信息和主观信息。主观信息包括信息传递者(说话者)对于客观世界的认识、视点、情绪、态度,以及交际的意图、愿望等等。

“标记”是说话者传递语言信息时,在客观信息上所“标”明的主观信息的“记”号。“标记”本身不表示“概念”,因而不能单独占据意合网络的一个“节点”。

1.关系标记(Relation Marker)如:与、或、被、把、因为、如果。

2.依附标记(Attachment Marker)如:吗、呢、着、了、居然、果然。

二 意合网络中的语义组合

语义组合(Semantic Combination)是语义平面上的各种语义单位的组合,包括各种语义关系和语义依附。

(一)语义角色(Semantic Role)是一个概念或事件在意合网络中的作用或地位。

(二)语义关系(Semantic Relation)是由两个语义角色组成的“有序对”。

1.对称关系(Symmetric Relation)是双方语义角色相同的组合关系。

对称关系包括:(1)“并列”(2)“选择”(3)“同指”。

2.非对称关系(Asymmetric Relation)是双方语义角色不同的语义组合关系。

(1)配合关系(Collocational Relation)是一个事件之内的中枢概念跟外围概念之间的“合性”语义组合关系。

1)中枢角色和外围角色各分为6个大类、26个小类,如下表:

2)中枢角色和外围角色的语义配合模式

A.[处所]【存在】[当事]桌上有一台电脑。

B.[当事][〈比〉依据]【特征】[数量] 哥哥比弟弟高五厘米。

C.[施事][〈对〉对象][程度]【性情】 张强对邻居非常热情。

D.[施事】【心情】[对象][原因]周华爱他聪明。

E.[当事][方式]【认知】[内容]李芳突然听见一声枪响。

F.[领事]【领属】[属事]哥哥有三支笔。

G.[领事]【结构】[分事]凳子有四条腿。

H.[当事]【类同】[类事]鲁迅是文学家。

I.[当事]【关联】[涉事]河北省毗邻渤海湾。

J.[涉事]【自变】[当事]水果店烂了三筐香蕉。

K.[当事][〈在〉处所]【自进】[历程] 小明在老家过春节。

L.[施事][〈从〉起源]【自移】[〈到〉趋向]运动员从山下跑到山上。

M.[当事][〈从〉起源]【自流】[〈到〉趋向]热量从这一端传到另一端。

N.[施事][〈跟〉涉事]【自为】 演员跟战士们联欢。

O.[施事][〈用〉工具]【触动】[受事] 王大嫂用铁勺砸了丈夫的酒壶。

P.[施事][时间]【支配】][受事] 学校昨天处分了作弊的学生。

Q.[施事][处所]【改变】[当事]妈妈在厨房里热牛奶。

R.[施事]【使令】[受事][目的]厂长派科长去买原料。

S.[施事][〈用〉耗材]【创造】[成果] 奶奶用小米熬稀饭。

T.[施事][〈把〉受事]【搬动】[趋向] 客人把茶杯搁桌上。

U.[施事]【给予】[对象][受事]总经理奖励刘工程师一台电脑。

V.[施事][〈把〉受事]【索取】[结果] 小徐把旧彩电卖了七百元。

W.[施事]【对待】[对象][目的]姐姐帮助妹妹考大学。

X.[施事][〈向〉对象]【探求】[内容] 警察向居委会调查案情。

Y.[施事]【传信】[对象][内容]蔡老师教我们物理。

Z.[当事][〈在〉范围]【遭遇】【内容】 小赵在工作上遇到了很多困难。

(2)加合关系(Additional Relation)是一个“复合”的外围概念之内“添加部分”跟“核心部分”之间的“修饰性”语义组合关系。

上述“配合关系”的26种“中枢角色”和26种“外围角色”互相组合也完全适合于描述各种各样的“加合关系”。(在意合网络的标注时,可只标“添加部分”的角色)。

1)添加部分是述谓概念

A.挺立的青松〔存在—当事〕N.出席的贵宾〔自为—施事〕

B.高大的身材〔特征—当事〕O.抽打的皮鞭〔触动—工具〕

C.急躁的脾气〔性情—当事〕P.关押的犯人〔支配—受事〕

D.尊敬的老师〔心情—对象〕Q.提高的利率〔改变—当事〕

E.听到的消息〔认知—内容〕R.派遣的任务〔使令—目的〕

F.拥有的财产〔领属—属事〕S.编制的程序〔创造—成果〕

G.含有的元素〔结构—分事〕T.运输的车辆〔搬动—工具〕

H.假冒的茅台〔类同—类事〕U.奖励的形式〔给予—方式〕

I.相邻的地区〔关联—涉事〕V.采购的资金〔索取—耗材〕

J.挥发的汽油〔自变—当事〕W.欢迎的群众〔对待—施事〕

K.度过的岁月〔自进—历程〕X.研究的课题〔探求—内容〕

L.出发的钟点〔自移—时间〕Y.演说的听众〔传信—对象〕

M.奔流的河水〔自流—当事〕Z.受到的批评〔遭遇—内容〕

2)添加部分是指称概念

A.曹禺的剧本〔施事—成果〕N.失败的战争〔结果—当事〕

B.奶奶的去世〔当事—自变〕O.欢迎的宴会〔目的—当事〕

C.汽车的轮子〔领事—分事〕P.凭空的猜测〔依据—探求〕

D.企业的管理〔受事—支配〕Q.挂号的邮包〔方式—当事〕

E.灾区的救济〔对象—给予〕R.大提琴乐师〔工具—当事〕

F.计算机讲座〔内容—当事〕S.不锈钢勺子〔耗材—当事〕

G.程序的编制〔成果—创造〕T.大专的水平〔程度—当事〕

H.钱包的主人〔属事—领事〕U.三十本期刊〔数量—当事〕

I.元素的化合〔分事—结构〕V.昨天的报纸〔时间—当事〕

J.钢铁的意志〔类事—当事〕W.后排的观众〔处所—当事〕

K.客户的服务〔涉事—对待〕X.广东的香蕉〔起源—当事〕

L.那两本词典〔范围—当事〕Y.五天的会议〔历程—当事〕

M.无故的旷工〔原因—自为〕Z.朝南的窗户〔趋向—当事〕

(3)接合关系(Connectional Relation)

接合关系是互不嵌套的两个事件之间的“衔接性”语义组合关系。接合关系中的事件是平等的。

1)接合关系共有16种“事件角色”:

A.先行 B.后继 C.递进 D.转折 E.原因 F.结果 G.推断 H.条件 I.假设 J.让步 K.手段 L.目的 M.舍弃 N.选取 O.总括 P.分述。

2)接合关系的基本组合模式

A.先行—后继:他们先学电脑原理,然后上机操作。

B.先行—递进:姐姐不仅会英语,而且会阿拉伯语。

C.先行—转折:足球场下着雨,但是足球比赛仍在进行。

D.让步—转折:即使明天下雨,也得进行足球比赛。

E.假设—推断:如果明天下雨,就别进行室外训练。

F.手段—目的:她刻苦地进行训练,为的是夺取冠军。

G.目的—手段:她为了夺取冠军,刻苦地进行训练。

H.原因—结果:赵芬的孩子病了,所以她没来上班。

I.结果—原因:赵芬没来上班,因为她的孩子病了。

J.原因—推断:既然得了病,就该安心治疗休养。

K.条件—结果:只有坚持刻苦训练,才能迅速提高技术水平。

L.舍弃—选取:与其束手就擒,不如拼个鱼死网破。

M.舍弃—选取:宁愿拼个鱼死网破,也不束手就擒。

N.总括—分述:兄弟俩都是理科生,哥哥学物理,弟弟学化学。

O.分述—总括:哥哥学物理,弟弟学化学,兄弟俩都是理科生。

(三)语义依附(Semantic Attachment)是“标记”依附于“概念”的语义组合。

“关系标记”在上文中已经提到了,下面只讨论“依附标记”。因为“中枢概念”是“事件”的中枢,所以“事件的依附标记”标在“中枢概念”上。

1.事件的依附标记

事件的依附标记标明事件在“ ”说话者不同的交际意图或对事件的情绪和态度。

(1)语气(MOOD)表达说话者主观上的交际目的和意图。如:陈述、询问、反诘、请求、命令、建议、抱憾、敬意、感叹、否定等。

(2)情态(MODALITY)表达说话者因对事件的观点而引发的情绪和态度。如:确定、终归、原样、反常、巧合、极端、适度、估计、评价、必要等。

2.中枢概念的依附标记

标明中枢概念在“时态”“视点”“动貌”和“语态”范畴的依附属性。

(1)时态(ASPECT)表达说话者所看到的事件在时间轴上所处的阶段。如:恒常、开始、继承、进行、延续、完成、经历等。

(2)视点(VIEWPOINT)表达说话者的观察点在“时态阶段”之前还是之后,如:即将、刚刚。

(3)动貌(APPEARANCE)表达说话者看到中枢概念与其动量有关的情貌。如:尝试、适量、重复、惯常。

(4)语态(VOICE)表达说话者是把中枢概念的主体还是客体选择句子的话题。如:主动、被动。

3.外围概念的依附标记

标明外围概念在“数”和“定指”范畴的依附属性。

(1)数(NUMBER):单数、复数。

(2)定指(DETERMINATION):有定、无定。

三 意合网络的形式

(一)意合网络的两种形式

意合网络的形式分为竖式和横式,现将竖式跟横式比较如下:

(例)虽然这个问题非常复杂,但是研究生们却十分迅速地解决了。

1.竖立意合网络的形式

2.横式意合网络的形式

从上面的对比中可以看出:竖式意合网络形式“清晰直观”,适合于对人的语言教学。横式意合网络的形式“简单明了”,适合于电脑的语言处理。

(二)模式意合网络的范例

1.运输公司要求各车队节约汽油。

2.研究所所长说自己没去过深圳。

3.施工队有9名技术人员和140名工人。

4.你们理解了总经理的销售策略吗?

5.你把那个报告复印三十份吧。

6.十名或十名以上的实习生大概明天就要到达建筑工地。

7.缉私队已经查获这些走私犯许多电视机、录音机和录相带。

8.我们不但要开放沿海地区,而且要开放内陆地区。

标签:;  ;  

汉语信息处理研究:语义研究--汉语同轴网络_语义分析论文
下载Doc文档

猜你喜欢