原型理论中“家族相似性”理论的形式方案_维特根斯坦家族论文

原型论对“家族相似”论的形式化方案刍议,本文主要内容关键词为:刍议论文,原型论文,家族论文,方案论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      中图分类号:B842.2 文献标识码:A 文章编号:2095-5804(2015)04-0082-16

      “家族相似”理论是后期维特根斯坦提出的一个非常有名的理论,其核心名意在于通过某个特定经验概念下属成员彼此部分分享的相似性,来取代柏拉图式的“共相”范畴,以便重新勘定经验概念与其下属成员之间的从属关系。虽然对于“家族相似”的泛泛讨论早已充斥于各种哲学读物,但是对于如何在技术上刻画这一理论,并将其带入“认知建模”(cognitive modeling)的新语境中予以考量,以便进一步施惠于人工智能的相关研究,国内学界还缺乏相关文献积累。在国外,对于此理论的技术刻画往往是凭借认知语言学家罗什的“原型论”及其后续理论进行的(详后),但对于此类刻画方案对维特根斯坦原意的可能偏离却少有提及。有鉴于此,我们非常有必要展开某种跨学科的对话,以便从实证科学和思辨哲学这两个向度来看待“如何将‘家族相似’理论从哲学带向认知建模”这个问题。具体而言,实证科学方面的技术性思考将为哲学观念在经验世界中的实现提供可行性方案,而哲学上的规范性思考则将为相关的可行性方案背后的哲学预设提供批判性的反思。

      本文的讨论包含三个子话题。首先,试图以尽量明晰化的语言,重述“家族相似”学说蕴含的对人工智能研究中知识表征工作和认知建模工作提出的规范性要求;而后,将对罗什及其后继者提出并加以发展的“原型论”的技术框架加以勾勒,并对这些理论建模和“家族相似”论之间的关联作出提示;最后,将从哲学层面揭示“原型论”和“家族相似”论之间的差距,并在此基础上为一种可以克服“原型论”的新的概念表征模型作出展望。

      二、“家族相似”论对概念建模研究提出的规范性要求

      语义网构建是传统人工智能研究(即“符号AI”研究)的一项核心工作,其主要任务是以某种次序将系统的概念表征加以系统化,以此为智能体的推理活动提供便利。但对于以经典数理逻辑为技术根底的语义网构建工作来说,人类自然语言之概念内涵的模糊性和可变性往往让相关的编程作业陷入“刻舟求剑”的窘境。其背后的道理是:传统的概念定义方法是“种加属差”,也就是说,要定义概念A,首先要确定它的上级概念A'是什么,并确定A的平级概念B、C、D……和A之间的差异。这整套做法,显然就得迫使定义者预先表征出A的整个上级概念A'的内部语义结构。但麻烦的是,由于人类程序员在认知上必然存在的局限性,他们所预先给出的概念图谱只可能是对其当下知识的一种概括,并无法豁免于未来的修订。反过来说,一旦这种被预先给定的语义结构需要被更新了,系统设计者先前做好的定义工作就必定被推倒重来,他们自己亦会为克服新、旧定义之间的逻辑冲突而做出大量的修订工作(顺便说一句,以经典逻辑为其技术支持的知识表征系统对逻辑矛盾是异常敏感的)。这种“牵一发而动全身”的数据更新方式显然是相当低效的。

      从哲学史角度看,这种传统的概念建模的思想预设可以在古希腊的柏拉图哲学中找到根苗。柏拉图将万事万物看成是一个既定的等级秩序中的现成对象——其中每一个对象都有一个表示它在整个宇宙秩序中客观位置的序列编号(需要注意的是,该识别号码是内在地属于这个对象的,而不是由什么人或者社会机构派发的)。毫不夸张地说,即使是那些已经消失的事物(如霸王龙),以及可能出现但还未出现的事物(如奥巴马外孙的第一任女友养的第七条狗),都可以在这个秩序中找到位置——因为这个秩序本身被设定地如此完美,以至于经验世界中发生的任何变动都无法构成哪怕一个反例。很显然,且不提这种概念观在形而上学层面是否成立,至少它肯定不能为人工智能中的概念建模工作提供合适的哲学基础。

      正因为如此,我们需要研究后期维特根斯坦的“家族相似”理论,以便为前述的概念网建模工作提供一个新的哲学向导。请参看《哲学研究》中被广泛引用的两节:

      §66 例如,我们可以考察一下我们称为“游戏”的活动。我指的是棋类游戏、牌类游戏、球类游戏、角力游戏,等等。它们的共同之处是什么?不要说:它们一定有什么共同之处,否则它们就不会都被叫作为“游戏”。相反,我们得看看所有这些活动,究竟有什么共同之处——因为你睁眼看时,是看不到所有这些活动有什么共同之处的,却能够看到相似之处和亲缘关系,看到一整系列这种性质的东西。像上面所说的:不要想,要看!——例如看到棋类游戏,看到它们的各种各样的亲缘关系。现在转到牌类游戏上:在这里你看到了很多和第一类游戏相对应的东西,但是很多共同点不见了,一些新共同点又出现了。再转到球类游戏:有些共同点还在,但另一些共同点却没有了。——它们都是“消闲”吗?比较一下象棋和三子连珠棋。抑或总有输赢之分?在游戏者之间均有竞争?想一想单人游戏。球类游戏有输赢,可在小孩对墙玩接球游戏的时候,这个特色又消失了。看看技巧和运气在游戏中所扮演的角色,再看看下棋的技巧和打网球的技巧之间的不同。再想一想跳圈圈这种游戏:这里有消闲的成分,但是多少其他的特点又不见了!我们可以将很多其他种类的游戏都这样过一遍:可以看到种种相似之处浮现出来,又消失不见。

      §67 我想不出有啥说法能比“家族相似”更好地表达这些相似性的特征:因为家族成员之间的各式各样的相似性,就是这样盘根错节的:身材、面相、眼睛的颜色、步态、脾性,等等。——我要说,各种游戏构成了一个“家族”。①

      这两段引文的表层意思并不难解读。维特根斯坦的意思是说,我们要把传统概念理论中对“共同特征”的追求替换为对“亲缘关系”的追求。这是因为,若抱着“求共同特征”的信念进行概念语义网的构建工作,我们就会发现,在棋类游戏、牌类游戏、球类游戏、角力游戏的背后,并没有一个无例外的共同之处把它们串联起来。或者说得更形式化一些,假设棋类游戏具有特征A、B、C,球类游戏具有特征B、C、D,而角力游戏具有特征A、D、E。不难看出,特征A是第一类游戏和第三类游戏所共有的,特征B是第二类和第三类所共有的,而特征C是第一和第二类所共有的,特征D是第二和第三类所共有的。但是,在A、B、C、D这四个特征里,却没有一个是为所有的游戏类所共有的。然而,我们的日常语用直觉却告诉我们,这四类游戏的确都属于同一个“游戏”范畴。看得出,维特根斯坦在此暗示我们应当采用一种新的概念理论,以便为我们的语用直觉做出辩护。

      尽管维特根斯坦并没有对他的新概念理论作出细致的勾勒,但我们仍然可以从上述引文看出一个大概。或许我们可以如此重构维特根斯坦的看法:

      关系项之间的二元家族相似性关系定义:任两个关系项甲、乙之间有家族相似性关系,当且仅当甲和乙各自占有的属性集之间的交集足够大(不难想见,多少大才是“足够大”是需要概念使用者的直觉予以实时判断的);

      两个以上的关系项之间的同种关系定义:任两个以上数量的概念都属于同一个上级概念(并由此建立起同种关系),当且仅当其中的任一个概念和其中的至少另一个概念存在着(二元)家族相似关系。

      以上的定义需要作出三点澄清:

      第一,以上两个定义虽然用到了以“当且仅当”为提示语的严格充分必要条件,但这依然迥异于通过明述定义来求共相的传统语义网建模思路。这是因为,在这里我们讨论的“相似性”关系乃是一个需要被实时加以判定的“模糊”关系,而无法被一次性地明述表征。这种模糊性集中体现于两个被判断概念各自属性集彼此交集的大小上——既然此交集的大小无法被一劳永逸地规定,那么家族相似关系本身就不可能以一种柏拉图主义的方式而被形而上学地规定。由此,我们也就可以理解维特根斯坦在引文中所说的“不要想,要看!”的含义——“想”在此或可作“(通过明述知识)表征”解,而“看”则可作“(通过隐含知识)实时判定”解。

      第二,第二个定义中“当且仅当”表达的是一个很宽松的条件,因为按照该标准,即使某人长得和布什家的大多数成员都不太像,但只要和他家里的哪怕一个人比较像(即此人和他人分享了一个足够大的属性集),那么此人也可以被吸纳入这个家族。在这样的情况下,我们自然不能指望总是能够在所有的家族成员之间找到一个共同点,因为“家族相似”关系本身是一种“非传递”关系——若甲相似于乙,乙相似于丙,则甲未必相似于丙。

      第三,上文第一点澄清虽提到了形容词“模糊”(vague),但这并不意味着家族相似关系的“模糊性”(fuzziness),就是逻辑学家所说的“模糊逻辑”(fuzzy logic)所试图刻画的那种“模糊性”——尽管这两种“模糊性”彼此之间的确有亲缘关系。先来看看后一种“模糊性”是什么意思。按照模糊逻辑学的创始人扎德尔(Lotfali Askar Zadeh)的看法,②对于我们通常所说的“分明集”(crisp sets)来说,一个成员对集合的隶属度只有“1”(表示隶属)和“0”(表示不隶属)这两个彼此离散的值;而对于“模糊集”(fuzzy sets)来说,其成员对于集合的隶属度却可以被表征为“0”和“1”之间的任意实数。比如,若要表征“B-36轰炸机是飞机”这条知识,传统的分明集的表述方式就已经够用了,因为B-36对“飞机”集合的隶属度非“1”即“0”;而要表征“B-36在一定程度上还是螺旋桨发动机推动的飞机”③这条知识,我们却需要用模糊逻辑的方式说“B-36对于‘螺旋桨发动机推动的飞机’的隶属度是0.7”。④

      家族相似的“模糊性”,则要比此种“模糊性”来得更为复杂。在此我们讨论的不再是一个集合成员和一个集合之间的隶属度的模糊性,而是在一个概念之下的所有成员都“分明”地属于该概念的前提下,任一成员对某一典型概念特征之隶属度的不确定性。比如,在维特根斯坦引文所提供的例子里,我们预先都已肯定球类游戏、棋类游戏、牌类游戏都属于“游戏”集合——尔后,我们才能提出这样一个问题:这些游戏本身是否都额外地属于另一个或另一些集合(即概念特征集),以使得这些游戏能够享有一个稳定的共相。维特根斯坦对该问题的回答当然是否定的,而对这个否定答案的表述本身似乎也无涉于模糊逻辑的表征手段。其理由很简单:对于“有输赢”这个特征来说,球类游戏、棋类游戏、牌类游戏对于它的隶属度都是“1”,而“小孩对墙玩的接球游戏”对于它的隶属度则是“0”——换言之,不确定的事情仅仅是:“是否存在着哪怕一个特征可以为所有游戏所共有”(这是个“是非疑问句”),而非“一个具体的特征为一类具体的游戏所拥有的程度为何”(这是个“程度疑问句”)。

      以上对于“家族相似”理论的刻画自然还是相当粗略的。在我们继续深化这种刻画之前,不妨先来处理三个针对“家族相似”理论的可能的批评,因为很显然,如果这个理论在哲学层面上就是防守不住的话,那么将其具体化为更细致的实证科学理论就没有什么意义了。

      第一个批评是说,不是所有的概念归类活动都需要用到“家族相似”理论。比如,如果要把所有的三角形归类,那么我们很容易就能找到三角形之为三角形的共同特征,而不必担心遭遇例外。也就是说,即使在家族相似关系存在的情况下(诸种三角形彼此之间当然是相似的),有些概念的同属关系也可以不依赖于家族相似关系而得以建立。在这种情况下,传统的“种加属差”的定义法就完全够用了。

      第二个批评是说,有时候两个对象之所以都成为同一个概念家族的示例,并不是因为它们分享了足够多的特征,相反,它们分享的特征可能很少(简言之,没有家族相似关系,也可以存在着概念同种关系)。比如,比尔·克林顿和希拉里·克林顿之所以都是克林顿家的成员,并不是因为他们有共同的发色、性别或者性格(恐怕在这些方面他们都不一样),而仅仅是因为他们之间建立起了夫妻关系。

      第三个批评是说,即使两类事物具有了参考特征集中的足够多的特征(并因此彼此之间具有相似性),但是这并不意味着他们属于同一个更大的自然类。比如,鲨鱼和海豚就具有高度的彼此相似性,但是他们却不属于同一个自然类(前者是鱼类,后者是海洋哺乳类)。换言之,对于家族相似关系的依赖,并不能够保证合法的概念同属关系的构成。

      但是,第一个批评其实并不具有真正的威胁性,因为批评者也并不否认,“A和B之间存在相似性”的门槛,本来就要比“A和B之间存在共同点”来得低。这样一来,一种建立在概念相似性基础上的概念理论,自然就会比一种建立在概念同一性之上的概念理论具有更大的适用性。不难想见,只要通过一些技术技巧,我们很容易就能把“A和B之间有共同点”处理为“A和B之间有相似性”的一个特例——这就类似于,在概率演算理论中,我们可以把经典逻辑的二值命题演算处理为前者的一个特例,或在模糊逻辑中,我们亦可以把分明集的演算处理为模糊集演算的一个特例。相反,倘若我们站在“共同点”的立场上处理“相似性”的话,处理难度就会陡升。

      而且,第二个批评也是站不住脚的,因为我们已经说过,甲、乙之间有家族相似性关系,当且仅当甲和乙各自占有的属性集之间的交集足够大之时——这里所说的“足够大”乃是一个模糊概念,其大小会随着系统所解决问题的性质的变化而实时变化。如果系统从外部环境输入而实时获知,婚姻关系的证据对于判断A和B是否有概念同种关系具有决定性意义,那么对于这一证据的获取就会自动导致系统对其余证据的忽略。

      最后,第三个批评依然是不成立的,因为批评者在此混淆了两个问题。第一个问题是,一个(人工的或自然的)智能系统是按照怎样的组织原则来构建概念语义网的;第二个问题是,怎样的概念语义网经得起知识辩护程序的考验。不得不承认,若仅仅凭倚一张以“家族相似”关系为黏结剂的语义网进行推理,智能体是很有可能犯下“以豚为鱼”的错误的,并因此无法给前述第二个问题以一份令人满意的答案——但这并不等于说此网的产生已然违反了指导智能系统之概念归类活动的一般工作原则。相反,对于很多缺乏科学知识(但却肯定不缺乏基本智能)的人来说,把鲨鱼和海豚都看成鱼类乃是非常自然的事情,因为两者外貌方面的诸属性的确共享了一个很大的交集。不难想见,只有在智能系统额外知道了以下三件事情的前提下,将海豚剔除出鱼类才是可能的:第一,鲨鱼和海豚除了外貌属性外,还各自具有一些重要的遗传学特征;第二,两者的遗传性特征之间的差异度,要大于其外貌属性之间的差异度;第三,对于生物的种系分类而言,遗传学属性的权重远高于外貌属性的权重。然而,并非所有的系统都有机会从外界获得这些信息,因此“以豚为鱼”的误判实际上不是系统内部机制的缺陷导致的,而是由外部信息的缺乏导致的。

      维特根斯坦的“家族相似”论不但能够经得起以上这些质疑的拷问,而且一旦被模型化并成功地施用于人工系统,我们便能够指望这样的系统在相关的问题求解环境中给出更佳的工作表现(至少和以传统定义法为基本范畴组织原则的系统相比)。这主要是因为,家族相似关系本身的灵活性,自然允许相关系统能随时根据环境输入的新信息和具体的任务,实时修订自己语义网的拓扑结构。从一种更为乐观的角度去看,由于家族相似关系和联想关系、类比关系之间明显的亲缘关系,一种能够支持家族相似关系的语义网构建原则自然也能够支持起更为复杂的概念推演关系。故而,该建模路径的衍生性理论价值乃是相当明显的。

      但问题是,以上所说的种种好处,现在看来还只是一串仅仅出现在画中的馅饼,我们需要将“家族相似”论模型化。具体而言,在前述关于“家族相似性”关系的定义中,对于相关关系项的属性集之间交集大小的规定就很“朦胧”,似乎只有更为玄虚的“人类直觉”才能为该规定勘定边界。因此,我们需要做的是在不乞灵于“直觉”的前提下,把一个维特根斯坦的哲学故事转化为一个富有技术细节的科学故事。

      一般认为,哲学层面上的“家族相似”理论在实证科学层面上最直接的模型化产物就是二十世纪七十年代出现的“原型论”(prototype theory)。不过,在演进为某种形式化模型之前,该理论首先是作为一种心理学理论而为学界所知的。

      三、“家族相似”论的标准心理学刻画方案:原型论

      “原型论”的主要倡导者艾莉诺·罗什(Eleanor Rosch)是美国加州大学伯克利分校的一位著名女心理学家。在马格里斯(Eric Margolis)和劳伦斯(Stephen Laurence)合编的语言学经典文选《概念理论核心文献精编》⑤中,以及在认知语言学界的国际学术领军人物雷科夫(George Lakoff)的名著《女人、火和各种危险事物——论范畴对心智的揭示》⑥中,罗什和她开创的“原型论”流派都受到高度重视——而学界也习惯于将罗什的心理学工作和维特根斯坦的哲学工作列为同一谱系。⑦而且罗什本人亦承认自己的理论受惠于维特根斯坦的“家族相似”理论颇多。在她与莫维丝(Carolyn B.Mervis)合写的文章《家族相似:范畴的内在结构研究》⑧的末尾有这样的文字:

      我们的研究乃是对维特根斯坦在《哲学研究》中所作论证的经验验证——他的观点是:形式上的标准[对于范畴把握来说]既非在逻辑上必要,亦非在心理上必要。对于那些看来不具有标准化属性的范畴来说,其范畴关系——正如本研究所研究的那些关系——可以按照家族相似的原则加以理解。

      但罗什理论的核心词毕竟是“原型”,而不是“家族相似”。那么,为何一个关于“原型”的语言学理论会成为对于维特根斯坦“家族相似”论的科学验证,就成为一个需要回答的问题。

      让我们先审视一个具体案例。罗什在其论文《自然类》⑨中提到,在新几内亚有一个依然处于石器时代的古怪民族叫“丹尼”(Dani)族,其成员视觉感知系统的辨色能力完全正常(这一点已由色盲测试验证),但是其关于颜色的词汇却异常贫乏。比如,他们没有“红”、“绿”这样的概念,唯一用到的颜色概念乃是“亮”和“暗”,以及附加在这对范畴上的一些修饰语,如“很”和“有一点”(也就是说,他们的语言所描述的世界实际上就是黑白电视机所呈现出来的样子,尽管他们实际上是能够知觉到彩色世界的)。这里需要指出的是,他们的语言缺乏足够的颜色词汇,不仅仅反映了一个语言学事实,而且也反映了一个心理学事实,即:他们纵然能够在短期记忆任务中把握“红”和“绿”的区别,并在心理表征系统中暂时地贮存这种区别(若非如此,他们就无法通过色盲测试),但是却没有办法将这些区别贮存在长期记忆库中,并在此基础上构建一个随时可被调用的、足够复杂的颜色概念语义网。

      现在心理学家就被赋予了这样一项新任务:通过某种教学手段,使丹尼人构建我们一般人所具有的概念语义网,以此丰富他们的心灵和语言。

      要完成这项任务,按照传统的由定义求共项的方式,心理学家似乎就得尝试着运用苏格拉底式的教学法(即所谓“精神助产术”)来诱导该部落成员说出关于颜色“红”的语义学真理——就像柏拉图的《美诺篇》中所说的苏格拉底用精神助产的方式诱导小奴隶认识到几何学真理一样。但初步的尝试就会表明此路的艰险——不难想见,即使教授一方以现代光学理论为话语框架进行教学,“红”依然是一个难以被定义的概念,因为即使在物理学光谱上,“红”和“非红”的区别也是模糊不清的。更麻烦的是,如果心理学家直接将维特根斯坦的“家族相似”作为新的教学法,他们或许立即就会遇到一个关于概念学习的悖论。具体而言,心理学家只要试图向被试者展示关于“红”的种种下属成员——如“暗红”、“粉红”、“朱红”等——之间的家族相似关系,他们就得预设被试者已然现行掌握了“暗红”、“粉红”、“朱红”等这样的概念。但这肯定是荒谬的,因为“暗红”、“粉红”、“朱红”等概念明显是比“红”更为复杂的概念。如果被试者还未掌握“红”,我们又如何能够指望其先掌握“暗红”。由此我们似乎马上就能推出一个令人绝望的结论:“红”是教不会的。

      按照我们对维特根斯坦的理解,他给出的解决办法很可能是让概念“红”直接和个体对象发生关系,而不是使其和其下级概念发生关系。但考虑到红色的个体数量是无限的,因此教学方就需要从中遴选出比较典型的红色对象作为“样本”,以此作为概念“红”的合适示例。在《哲学研究》§50中,维特根斯坦将颜色样本的作用比作摆放在巴黎的标准米尺,并认为其在颜色概念的教学中扮演了“范型”(paradigm)角色。可能正是这一思想启发了罗什。她在其论文《自然类》中将这类具有“范型”功能的样本称为“原型”(prototype)。

      对于“原型”的科学规定(而不是哲学规定)是什么这个问题,“原型论”派内部有略微的分歧,而这些彼此稍有区分的规定之间也构成了一种“家族相似”关系。为讨论方便,本处采用的是爱德华·斯密斯(Edward E.Smith)等人在其论文《对于原型的捆绑:一个选择修正模型》⑩中给出的规定(他们的研究已然吸收了罗什的成果)。在他们看来,一个原型需要具备三个特征:

      第一,一个原型虽然是一个经验个体,但可以从抽象的角度被分析为由一簇“属性槽—属性值”对子构成的集合。比如,一个苹果的原型就是以下对子的集合:

      

      甚至对于颜色“红”这样高度抽象的概念来说,其原型(比如一块用红色布料做的色样)也可以依此法而被分析:

      

      因此,不难想见,一个智能系统要把握一个原型的特征,就得预先掌握“颜色”、“形状”等属性槽名,即至少在短期(工作)记忆系统中能够标记这些属性槽和相关的属性值。至少对于人类被试者来说,这个条件并不算苛刻——比如,即使无法在长期记忆中标记色相值的丹尼人,他们也能在短期记忆中标记色相值(否则他们就无法通过色盲测试)。

      第二,虽然一个原型的各个属性槽可以具有各种值,但是从规范性的角度看,一个好的原型应当占有这些可能性值中的某个特定值。比如,虽然绿色苹果和红色苹果都可以成为“苹果”这个概念的原型,但让红色苹果做这样的原型显然更合适一些,因为红苹果能够让被试者更快地把握“红色”概念。也就是说,在“苹果”概念的颜色槽中,值“红”比值“绿”更为“凸显”(salient)。这些值的“凸显度”(salience)甚至可以是跨槽比较的:比如,一个苹果的“红”比其“圆”更为凸显,也就是说,红而非圆的苹果要比圆而非红的苹果更适合做“苹果”概念学习的心理刺激物。根据斯密斯等人的看法,一个属性值的凸显程度,或许取决于以下两个更基本的变量:第一,这类对象中的该属性值在被试者面前的出现频率(这和被试者与此类对象接触的历史相关);第二,此属性值在被试者知觉系统中可被知觉的程度(这和被试者知觉系统的硬件配置状况相关)。

      第三,不但带有不同值的各属性槽具有不同的凸显度,甚至每个槽本身也各自具有不同的诊断价值(diagnosticity)。比如,对于一个“苹果”的原型来说,其“滋味”的属性槽的诊断价值就明显不如“颜色”这个属性槽,因为被试者往往觉得从“颜色”角度区分苹果和非苹果,要比从滋味角度更为便捷。

      搞清楚了什么叫“原型”,我们也就得到了对于原型论的规定:

      根据原型理论,一个概念的实质就是这样一个心理表征:它就是对概念的合适原型(带有不同“诊断价值”权重的属性槽和不同“凸显度”权重的槽值)所做的编码。

      这个理论显然和“求定义、寻共相”的经典概念理论不同。依据后者,一个概念的所有外延对象都带有相同数量和相同权重的属性槽,且任意两个对象在同一个对应槽上有相同的值,否则该槽就必须被从概念的信息编码序列中删除(比如,正因为两个苹果的形和色往往彼此不同,因此按照经典的概念理论,“形”和“色”这两个属性槽就肯定未对寻求“苹果”的稳定共相做出贡献,并因为这一点而需被删除)。由此看来,传统的概念理论也就蕴含了这样一层意思:根本就不存在什么“原型”,一个概念下的任何对象都能够和其他任何一个别的对象同样好地充当该概念的示例(我们不妨称此为“敉平化效应”)——只要它们都分享了一个稳定的共相集。

      回答了上述关于“原型论”的定义问题,心理学家也就可以在经验层面上展开对丹尼人的颜色教学活动了(而这样的教学活动是否成功,亦可以被视为检验该理论是否成立的判准标准)。相关的教学案例如下:根据前引论文《自然类》的报道,罗什在新几内亚找到了68个男性丹尼人,通过预检保证其中无色盲,并担保其中无人学过本族语以外的语言(我们知道,外来语言往往带有丰富的颜色概念)。实验者通过有偿手段将被试者长期集中在一起,训练其掌握颜色概念。实验者和被试交谈的语言即丹尼语,且为了避免引入任何外来语词,每一个颜色名都用丹尼族内部的一个部落名来代替。具体的教学过程很复杂,但大致的情况就是把带有各种色样(带有不同的色相、明度和饱和度)的纸片给被试看,实验者同时唤出其颜色名(用部落名代替),并要求被试者重复。尔后,实验者打乱色样次序,让被试者凭借长期记忆力来记住声音刺激和色样之间的联系,并在独立于实验者帮助的情况下唤出每个色样的名字。实验者记录下被试的匹配成绩(包括正确率和匹配速度)。从最后的实验结果看,68位被试者中有63人达标(即基本学会了颜色概念)。但对于他们学习不同颜色概念的成绩的统计却又进一步告诉我们,他们学习某些颜色词(特别是红、黄、绿、蓝)的效率要高于学习其他颜色词(如棕、粉红、紫、橘)的效率。不难看出,这个结果很容易就能通过原型论得到解释:对于概念“红”来说,其“色相”属性槽的诊断价值明显高于其“明度”或“饱和度”属性槽的诊断价值。在这样的情况下,“色相”槽位上“红”的值的权重就会被放大,因此,无论其“明度”或“饱和度”属性槽取值为何,都不太会影响样本的典型性。而对于概念“棕”来说,其“色相”属性槽的诊断价值和其“明度”属性槽的诊断价值却相差不大,因此具有不同明度值的棕色样本各自的色相权重就更可能会被各自的明度权重抵消,最终使得被试者对棕色色相的认知产生障碍。与之相比,传统概念理论在解释这一现象时却显得捉襟见肘:按照该理论,既然我们要考察的核心要素是色相而不是明度或饱和度,而且,既然明度和饱和度的变化原则上不会影响色相,那么,无论是对于棕色样本来说还是对于红色样本来说,这两个属性槽的取值对于色相的认知都是同样不相关的。因此,在一大堆明度或饱和度不同的棕色色样中认知棕色色相的难度,并不会高于在一大堆明度或饱和度不同的红色色样中认知红色色相的难度。但前面的实验结果却明明告诉我们,传统概念理论所预报的此类结果并未出现。

      四、对于“原型论”的形式刻画:选择修正模型

      对于本文所关心的认知建模工作来说,上面的讨论心理学色彩浓郁,缺乏一个具有形式化细节的高层建模。从形式化角度发展罗什之工作的文献有忒沃斯基(Amos Tversky)1977年的文章《相似性的特性》(11)、斯密斯和梅丁(Douglas L.Medin)的专著《范畴和概念》(12)等。下文将主要依傍前文已经提及的斯密斯等人的论文《对于原型的捆绑:一个选择修正模型》。这种形式化共有如下四个步骤。

      给一个原型的所有属性槽的诊断价值和每个槽值的凸显度标上数值。比如,对一个苹果原型来说,这种标值会导致如下结果:

      

      在上述图表中,属性槽背后的数值就代表了该槽的诊断价值的大小,而每一个属性值背后的数值则代表了其凸显度的大小。很显然,在“苹果”的各个示例那里,各个属性槽的诊断值虽然会一样,但是其各种取值的凸显度却会不同(因为“天下没有两个一样的苹果”)。比如苹果示例1就是这样的:

      

      这也就是说,“苹果示例1”比“苹果原型”更红、更圆、更滑。按照此办法,我们可以对天下任何一个苹果进行数字化处理。

      在上述处理的基础上,我们可以比较两个苹果个例在同槽位置上的各自值的凸显度。这个相似值的计算公式如下(最早由忒沃斯基给出):

      

      这个公式被称为“对比律”(contrast rule)。在此,“P”表示原型(prototype),“I”表示示例(instance),“Sim(P,I)”表示示例和原型之间的相似程度。“P∩I”表示原型和示例在同一槽位上的不同值的交集。比如,在上面给出的苹果原型中,色槽在“红”一栏的取值是25,而在苹果示例中,色槽在“红”一栏的取值是30。这就说明,在色槽这一栏,原型和示例之间的交集值是25。“P-I”表示在该槽位上,示例有而原型却没有的值量。这显然就是5(=30-25)。“I-P”则表示在该槽位上原型有而示例没有的值量,这个值还是5。(13)“f”就是相关槽值自身的取值。就色槽而言,其值就是1。a、b、c表示“P∩I”、“P-I”和“I-P”各自的权重。为了方便计算,我们先假设a=b=c=1。于是我们就把上述公式具体化为了一个专门计算原型和示例1在“颜色”这个向度上的相似性的公式:

      

      (直观含义:原型的颜色和例1的颜色之间的相似度,等于颜色槽自身的权重值,乘以下述减式之余数:原型的颜色值与例1的颜色值的交集,扣除“原型有而例1没有的颜色量值”,再扣除“例1有而原型没有的颜色量值”。)

      将上面算出的各值代入,可得:

      

      要考察整个苹果原型和整个苹果原型1之间的相似性,我们不仅要考虑其颜色相似性,也要考虑其形状和质地的相似性,所以我们需要把上面算出的三个相似值加起来。这种“累加”的普遍化的计算公式为:

      

      (假设一个原型的槽的数量是i,那么在上式中,“

”就表示“i”号属性槽自身的诊断权重值。这整个式子的直观意义为:一个例子和一个原型在各个方面——而不仅仅是“颜色”这个方面——的整体相似度,乃是其在各个方面的相似度数值的加权和。)

      通过以上的式子,我们可以很方便地计算任意两个对象之间的“家族相似”的程度。比如,我们假设有另外一个苹果个例(个例2),其属性值的分布如下:

      

      根据上面的公式,我们得出“例2”与原型之间的相似度大约是21。(14)很显然,新的个例和原型的相似度大大超过了旧个例和原型的相似度。这也就是说,与旧个例相比,新个例处在整个“苹果家族”中更为中心的位置。遵循此法,我们还可以判定任何一个个例在概念家族中的地位(它和原型越像,地位也就越高)。

      现在我们需要把上面的模型加以推广。我们知道,在语义网构建中,除了要表征出“苹果”这样的简单概念,还要表征出“红苹果”这样的复合概念(最简单的复合概念就是“形容词+名词”的形式)。那么,对于后者而言,上面的计算公式是否还适用就是一个问题。

      斯密斯等人的答案是肯定的。在他们看来,“形容词+名词”组合中的“形容词”的来源其实就是原来的名词概念的某个属性槽的某个取值。比如,“红苹果”(red apple)概念中的形容词“红”(red)的来源,其实就是“苹果”概念下的颜色属性槽中的一个取值方向。现在,这个“红”值已在概念层面上被明晰地加以表征了,这就等于暗示了两件事情:该值所在槽(在此即色槽)的诊断权重值必须上升;在该槽中由相关形容词提示的那个值的凸显度也得提高。所以说,“红苹果”这个概念的原型的属性槽结构和“苹果”的原型并无根本差别,只要调一下相关值的范围就可以将后者的数据结构置换为前者。调整结果详下:

      

      同样的道理,即使有了一个更为复杂的复合概念——比如“圆而红的苹果”——我们也不需要插入更多的属性槽以改变原型的内部结构,而只要调整一下既有槽的诊断权重和相关槽值的凸显度就可以了。这样一来,我们就得到了一个关于简单概念和复合概念的统一的原型论。

      以上统一的模型被斯密斯等人命名为“选择修正模型”(Selective Modification Model)。也就是说,这个模型可以允许我们仅仅通过修正简单概念的原型的属性槽(以及槽的各取值方向)的值,以完成对复合概念的原型的建模。

      五、对选择修正模型的反思

      上文所论及的“选择修正模型”并没有完美地落实维特根斯坦关于“家族相似”的哲学直觉。不难看出,该模型的核心思想,就是把一个概念的原型当成是一个固定的范本,并以此为标尺来衡量概念下的其他成员。换言之,对于一个概念来说,其原型的基本属性槽结构是不变的,变化的仅仅是特定槽位的凸显值或诊断值。但问题是,这个基本属性槽的结构是从哪里得来的。

      答案便是对于人类把握相关概念之一般倾向的经验观察以及理论概括。

      但如果我们用这个办法进行人工智能研究中的语义网建模,就会碰到一些十分棘手的问题。概而言之,若把斯密斯的模型程序化,我们就需要建立一个超级大的概念数据库,用以储存所需要概念的所有关键参数,但是这样一来,建模成本肯定是高昂的。有人或许会说,我们只要建立关于“简单概念”的数据库模型就可以了,因为“复杂概念”的数据仅仅通过对于相关基本概念的选择修正就可以得到——但这可能仅仅是某种一厢情愿的愿景。且不提简单概念的数目是否可以穷尽,就算可以,即使按照选择修正模型的本意,对于复杂概念的数据工作也无法搭上简单概念的顺风车。因为一个复杂概念的原型数据本身也是通过统计学方法而非某些系统的内置规则获得的。比如,即使系统得到了概念“红”的原型数据,也得到了概念“苹果”的原型数据,它也不会自动得到“红苹果”的原型数据,因为对这个复合概念的色槽值以及红色凸显度的取值的调整是无法通过任何内置法则来完成,只能经由人工干预来完成。

      此外,这样的数据库不但营建成本高,维护和更新的成本也很高。如前文所说,选择修正模型的基本预设就是概念的原型的内部结构的恒定性,但在系统和环境的实际交互过程中,该假设的有效性是相当值得怀疑的。假设标准苹果的色槽的诊断值是1,红色特性的凸显度为25——但这只是代表了到目前为止人们关于苹果原型的一般范畴把握方式,却未必能够覆盖未来人类对于苹果的可能经验——不妨试想如下四种可能性:

      可能性一:从某个特殊时刻开始,系统接触到的苹果的黄色特性凸显度飙升到25,红色特性的凸显度陡降到5,其余参数不变。假设以后遇到的所有苹果个例的参数都在此值上下浮动。这样的话,只要系统的感知归纳机制在正常工作,一个新的苹果原型就会在其长期记忆库中慢慢浮现:它的黄色特性的凸显值是25。

      可能性二:从某个时刻开始,系统接触到的所有苹果都是经过基因工程修改过的新品种,于是就有了橙色苹果、白色苹果,甚至还有粉色苹果,但新苹果的形状还和原来的一样。这样的话,只要系统的感知归纳机制在正常工作,一个新的苹果原型就会在其长期记忆库中慢慢浮现:它的整个颜色槽的诊断价值下降,而其形状槽的诊断价值大大上升。

      可能性三:系统接触到的苹果本身没有变化,但从某时刻开始,系统自身的辨色系统被损坏了,这使得系统无法判断其所知觉到的任何一个新的苹果个例的颜色。这样的话,只要系统的感知归纳机制在正常工作,一个新的苹果原型就会在其长期记忆库中慢慢浮现:它的整个颜色槽的诊断价值趋近于零,而其他各槽的诊断价值都上升了。

      可能性四:从某时刻开始,系统多了一个感官通道,即能够品尝苹果的滋味(我们假设在此之前系统没有味觉系统)。这样的话,只要系统的感知归纳机制在正常工作,一个新的苹果原型就会在其长期记忆库中慢慢浮现:它在原来的槽位外加上了一个新的属性槽——味觉槽。

      我们可以把以上四种新原型的浮现称为“原型浮动效应”。值得注意的是,新原型和旧原型之间尽管存在着明显的数据结构方面的不兼容性,但是在一个成熟的智能系统(比如自然人)那里,它们都会被判定为属于同一个概念(具体而言,智能体或许会把前面的苹果原型重新表征为“苹果”概念的一个下级概念的原型,并将现在的苹果原型表征为“苹果”的另一个下级概念的原型)。这也就是说,把什么东西当成原型,乃是根据系统当下的历史经验来判定的,而这样的经验总结本身是可以被系统未来的学习过程所修正的。

      但很明显,选择修正模型并没有向我们提供支持这种“原型浮动效应”的技术手段。前面已经说过,该模型无法在句法层面上直接表征出“形容词+名词”的复合概念结构,而只会将这样的句法结构简化为固有数据结构内的数值调整方案来加以把握。这样一来,以这种模型为支持的系统也就无法将“红苹果”表征为“苹果”的下级概念,而只会将其表征为后者的平级概念——遑论在以上描述的四种可能性中表征出新的下级概念(顺便说一句,这四种可能性所描述的情形,都比表征“红苹果”的例子显得更复杂)。因此,这样的模型便不能有效地支持智能系统的概念学习过程。

      从人工系统设计的实践角度看,这样的结果无疑是令人失望的。就此我们不妨回顾一下本文的讨论思路。我们从讨论传统概念理论的弊端开始,转到了对维特根斯坦之概念论的梳理,尔后转到罗什的心理学实验对原型效应的发现,尔后再转到选择修正模型对原型论的形式刻画。但兜了一个大圈子下来却发现,我们最后得到的模型和原来的传统语义网一样,都需要建模者像上帝一样“未雨绸缪”,都无法支持较大幅度的数据库自主更新。敢问路在何方?

      六、总结与展望

      我们不妨从一个更宏观的角度总结一下,原型论——特别是选择修正模型——究竟在哪些地方偏离了维特根斯坦“家族相似”论的原意。首先,维特根斯坦所说的“家族相似”指的是家族内部两个成员在不借助第三者的情况下的二元关系,但是按照选择修正模型,两个苹果个例之间的关系实际上是以个例和原型之间的既有一阶关系为关系项而被建立出来的二阶关系(或者说,在这样的模型对任何一个苹果个例进行数据处理的时候,都必须以苹果原型的参数为缄默的理想参照系)。但这可能正是维特根斯坦所要反对的,因为“以不变的原型为缄默理想参照系”这一点就已经在某种程度上恢复了柏拉图主义。其次,维特根斯坦虽然也谈到了“样本”(即“原型”)在范畴把握过程中所起的作用,但是他从没有把“样本”说成是恒定不变的东西,相反,样本的有效性必须在相关的语境中加以凸显。因此,在不同的语境下,一个概念很可能会具有不同的样本,并由此体现出最起码的“语境敏感性”。最后,维特根斯坦非常清楚概念网的构建机制本身一定得支持相关的修正机制,或用他自己充满隐喻色彩的话来说,一个概念网就如同一片城区,你可以随时改建其中的老城区,或在老城区的外围新造新城区——换言之,根本就没有固定不变的城市地图和城市疆域(参看《哲学研究》§18)。

      对人工智能的可行性本来就抱有敌意的人,或许会在选择修正模型和维特根斯坦源初哲学精神之间的这种“貌合神离”背后,“参悟”到早就被庄子提及的“鱼”和“筌”、“意”和“言”,以及“兔”和“蹄”之间的对立。他们或许会说,若将维特根斯坦关于“家族相似”的哲学直观比作“鱼”、“兔”、“意”,并将不断逼近这种直观的技术刻画手段视为“筌”、“蹄”和“言”的话,那么,把握这种直观的最好方法恰恰就是去忘掉作为“筌”、“蹄”和“言”的技术刻画手段自身。(15)对于这种技术悲观论的一个更富形式化外观的论证则或许是这样的:既然迄今为止对维特根斯坦关于“家族相似”的哲学直观的最好的形式化工作成果——选择修正模型——并不能很好地体现这个直观,那么能够忠实体现该直观的技术化成果就很可能永远不会出现。此外,考虑到具有把握“家族相似”关系的能力乃是一切高级智能体都应当具备的基本心智能力,上述结论似乎也就同时意味着人工智能的整个理想的虚妄性。

      对人工智能的未来依然保有信心的技术乐观派当然不会赞同上面的推理。不过,若乐观派们仅仅指出上述论证犯下了“以偏概全”的推理谬误,恐怕还是难以服人的,因为在日常生活中,根据既有路径所遭遇到的困难而对目标本身的合理性进行反思,恰恰是决策者行事审慎之体现。而更具说服力的反驳方式显然是“只做不说”——即给出一个关于“家族相似”理论的新技术刻画方案,并由此打消技术悲观论的顾虑。虽然本文有限的篇幅不足以呈现出这样一个方案的细节,但是根据上文的讨论,我们依然不难窥测出这样一个方案所应该具有的一些最关键的规范性技术特征:

      1.任何一个对象的属性数量以及种类都要允许被随时扩容以及修正,而不能被预先规定。譬如,表征系统应当可以以某种不需要人工干预的方式支持整个智能系统的外围传感器在感官的丰富性方面的升级,并由此丰富对于对象的谓述方式。这样,我们也就不需要预先设定一个在特定“谓述频道”(即“属性槽”)上具有固定值的“原型”。

      2.两个对象之间的家族相似关系的涌现需要两者在整个语义网中推理地位的相似性的涌现,而后者的出现又取决于系统本身和环境输入互动的经验历史。这也就是说,仅仅在“概念”研究的语境中看待“家族相似”理论是狭隘的,我们还需要同时将其视为一种推理理论来看待。

      3.由经验得来的语义推理关系是允许随着经验的变化而得到修正的,而这种修正机制将最大限度地为前文所提到的“原型浮动效应”的出现提供担保。

      由此不难看出,能够满足上述规范性要求的形式系统肯定会具有某种“非公理化”的特征,因为迄今为止所有公理化的形式推理系统都不允许后天的经验变化对先天输入系统的公理集的有效性产生任何影响。这样的一个推理系统同时又得兼备概念表征和命题推理这两方面的优势,以便能够顺利地通过概念自身的命题推理角色来勘定其语义地位。但是经典数理逻辑由于其典型的公理化特征,以及其对亚命题层面的概念内涵结构的高度不敏感性,是几乎不可能胜任这些大任的。这也就是说,我们需要一个和经典逻辑系统思路迥异的新逻辑系统来对家族相似现象进行刻画。

      美国华裔计算机科学家王培先生发明的“非公理化推理系统”(英文简称“NARS”,音译为“纳思系统”)(16),便是目前计算机学界所能够提供的最为接近上述规范性要求的一个新技术平台。大体而言,纳思系统乃是一个具有通用用途的计算机推理系统,而且在如下意义上同传统的推理系统有所分别:纳思系统能够对其过去的经验加以学习,并能够在资源约束的条件下对给定的问题作出实时解答。同时,该系统能够以一种图灵机可计算的方式表征出日常语言的主—谓结构,并在此基础上支持对谓述内容之概念层次结构的表征,这样的概念层次结构反过来也会因为整个系统的经验学习能力而具备自主更新的功能。如何在纳思系统的技术平台上处理人工智能研究中的一些经典难题——如“框架问题”(17)——已有学者做过研究,因此,在相同的技术平台上重现维特根斯坦所言及的“家族相似”现象是可行的。

      ①本处引文有改动,参见[英]维特根斯坦:《哲学研究》,陈嘉映译,上海人民出版社,2001年。为方便持有此书不同版本的读者,下文引用此书时只给出节数,不给出页码。

      ②Lotfali Askar Zadeh,"Fuzzy Sets",Information and Control,Vol.8,1965,pp.338~353.

      ③B-36实际上是一种既装备了活塞螺旋桨发动机,又装备了涡轮喷气发动机的混合动力飞机。

      ④0.7这个值只是假定值。在模糊逻辑的操作实践中,大众关于相关概念隶属关系的经过统计学处理的评判意见,构成了此值的主要来源。

      ⑤Eric Margolis & Stephen Laurence eds.,Concepts:Core Readings,Cambridge:the MIT Press,1999.

      ⑥George Lakoff,Women,Fire,and Dangerous Things:What Categories Reveal about the Mind,Chicago and London:The University of Chicago Press,1990.

      ⑦在《女人、火和各种危险事物——论范畴对心智的揭示》(Women,Fire,and Dangerous Things:What Categories Reveal about the Mind)中,雷科夫干脆把第二章的题目定为“从维特根斯坦到罗什”。

      ⑧Eleanor Rosch & Carolyn Mervis,"Family Resemblance:Studies in the Internal Structures of Categories",Cognitive Psychology,Vol.7,1975,pp.573~605.

      ⑨Eleanor Rosch,"Natural Categories",Cognitive Psychology,Vol.4,1973,pp.328~350.

      ⑩Edward E.Smith et al.,"Combining Prototypes:A Selective Modification Model",Cognitive Science,Vol.12,1988,pp.485~527.

      (11)A.Tversky,"Features of Similarities",Psychological Review,Vol.84,No.4,1977,pp.327~352.

      (12)E.Smith and D.Medin,Categories and Concepts,Cambridge,MA:Harvard University Press,1981.

      (13)但这不是从“红”一栏的“30-25”来的,其来源是:因为原型在“绿值”上取值为“5”,而示例没有绿值,所以5-0=5。

      (14)计算根据是:Sim(型,例2)=1(25-5-5)+0.5(15-5-5)+0.25(25-5-5)≈21。

      (15)《庄子》的原文是:“筌者所以在鱼,得鱼而忘筌;蹄者所以在兔,得兔而忘蹄;言者所以在意,得意而忘言。”(《外物篇》)

      (16)对于纳思系统的全面介绍参见Pei Wang,Rigid Flexibility:The logic of Intelligence,Dordrecht:Springer,2006。对于相关内容的通俗化汉语转述,请参见徐英瑾:《心智、语言和机器——维特根斯坦哲学和人工智能科学的对话》,人民出版社,2013年,第七、八、十二、十五章。

      (17)请参见Yingjin Xu and Pei Wang,"The frame problem,the relevance problem,and a package solution to both",Synthese,Vol.187,2012,pp.43~72。

标签:;  ;  ;  ;  

原型理论中“家族相似性”理论的形式方案_维特根斯坦家族论文
下载Doc文档

猜你喜欢