误差后减速的理论模型综述_强化学习论文

错误后减慢理论模型述评,本文主要内容关键词为:述评论文,模型论文,错误论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 B842

“人非圣贤,孰能无过。”人们在日常生活中难免犯错,所以在错误发生后进行及时有效的适应性调控来保证我们生活有序进行就显得特别重要。通常我们在犯错后会减慢做事速度,甚至会暂时停下正在做的事,这样有利于我们把注意力集中到当前任务从而避免再次犯错。目前,研究已经发现三种类型的错误后适应行为,即错误后减慢(post-error slowing,PES)、错误后干扰减少(post-error reduction of interference,PERI)和错误后正确率提高(post-error improvement in accuracy,PIA)(Danielmeier & Ullsperger,2011)。关于错误后减慢是否独立于其他错误后适应行为现在仍有争论(King,Korb,von Cramon,& Ullsperger,2010),也常见研究者把错误后减慢和错误后干扰减少(King et al.,2010; Ridderinkhof et al.,2002)或者错误后正确率提高(Hester,Barre,Mattingley,Foxe,& Garavan,2007; Hester,Barre,Murphy,Silk,& Mattingley,2008; Klein et al.,2007; Marco-Pallarés,Camara,Münte,& Rodríguez-Fornells,2008)放在一起考察。因此,两个或者更多错误后适应性行为也有可能是平行加工的。这些都有待进一步研究探讨,本文将从理论解释、理论对比两方面对错误后减慢效应进行梳理和总结,并在此基础上讨论该领域未来的发展趋势,以期对错误后减慢的研究起到引导和借鉴作用。

1 错误后减慢效应

错误后减慢是指错误后正确反应和正确后正确反应相比反应时显著延长的现象(Rabbitt,1966)(见图1)。Rabbitt在1966年采用选择反应时任务(choice-reaction time task,CRT)发现了错误后校正反应(错误反应后进行即时校正)显著快于平均正确反应,但是紧随错误校正后的正确反应(错误校正完成后的试次反应正确)明显慢于平均正确反应。错误后减慢是一种稳定的行为表现,不仅在经典的选择反应时任务中出现,并且随着认知冲突的研究深入,在Stroop任务(Gehring & Fencsik,2001; Kerns et al.,2004; West & Travers,2008)、Flanker任务(Danielmeier & Ullsperger,2011; Marco-Pallares et al.,2008; van Meel,Heslenfeld,Oosterlaan,& Sergeant,2007)、Simon任务(King et al.,2010; Ridderinkhof,2002a)中也发现了错误后减慢效应。错误后减慢的主要作用是错误校正(error correction)和错误后调整(posterror adjustment)。已有研究发现,在反应刺激间隔较短、清楚意识到犯错、错误事件是小概率事件、强调反应正确率而不是反应速度等情况下,错误后减慢效应尤其显著(Danielmeier & Ullsperger,2011)。

图1 错误后减慢图示。图中E指错误试次,C指正确试次,E+1试次显著慢于E-1、E-2试次。

2 错误后减慢的理论模型

为解释错误后减慢效应,已有研究发展了多种理论模型。主要有冲突监控理论、激活抑制假说、强化学习理论、失匹配理论、注意朝向理论和评估适应假说。其中冲突监控理论是当前最主要的理论解释,而注意朝向理论则是最新提出的比较有影响力的理论解释。

2.1 冲突监控理论

冲突监控理论(conflict-monitoring theory)是由Botvinick等人在2001年提出来的。该理论认为错误会导致认知控制水平提高,促使人们采用更保守的速度和正确率权衡策略,即通过降低反应速度来提高错误后的执行表现。在该理论中错误总是更多地和高冲突联系在一起,而高冲突会导致反应阈限升高,反应激活降低。因为当刺激并未被完全加工时,系统本身所具有的噪声可能导致不正确反应超出阈限产生冲动反应,但是在错误反应之后对信息的加工并未停止,对刺激的进一步加工导致正确反应激活程度增大,错误反应后的反应冲突随之增大(刘玉丽,张智君,2008),所以错误会提高被试的认知控制水平,减慢反应速度。另外,该理论认为前部扣带回(anterior cingulate cortex,ACC)的激活强度和速度-正确率权衡的控制加工相联系,通过ACC的激活强度可以预测随后试次的执行表现,如ACC激活强度越高,错误后的正确反应越慢(Botvinick,Braver,Barch,Carter,& Cohen,2001; Carter & van Veen,2007)。

冲突监控模型(见图2)对错误后减慢理论解释的实验证据有两点:一是错误后ACC或背外侧前额叶(dorsolateral prefrontal cortex,DLPFC)的激活程度提高——反映控制水平提高,导致减慢现象更加明显。因为错误反应发生促使ACC的激活更强、更持久,这就使错误后试次的注意模块处于ACC监控的时间更长,反应激活下降,反应启动被延迟。ACC在错误加工中的这一重要作用已在脑电实验(Miltner et al.,2003; Nieuwenhuis,Yeung,van Den Wildenberg,& Ridderinkhof,2003; Yeung,Botvinick,& Cohen,2004)和功能磁共振成像(founctional Magnetic Resonance Imaging; fMRI)研究(Carter et al.,1998; Mathalon,Whitfield,& Ford,2003)中验证。而DLPFC在错误加工中主要起控制作用,用来保持对目标任务的表征和提高错误后反应阈限(Carter & van Veen,2007; Kerns et al.,2004; van Veen,Krug,& Carter,2008)。二是由于监测活动增强促使运动区激活的降低,导致错误后减慢现象更明显。King等人(2010)的研究证实了这一假设,研究发现错误后试次反应激活下降和错误后减慢成负相关,即在错误后试次中运动激活越低的被试错误后减慢量越多。另外,包括后中部额叶皮层(Posterior Medial Frontal Cortex,pMFC)在内的执行控制网络也可以预测运动激活的大小,错误相关的pMFC激活越多,运动区激活越少(Danielmeier,Eichele,Forstmann,Tittgemeyer,& Ullsperger,2011)。这些实验结果均直接或间接证实错误后减慢效应反映了认知控制功能。

图2 冲突监控模型图示(资料来源:Botvinick et al.,2001)

Dutilh等人(2011)更是把物理学领域的漂移扩散模型引入心理学领域来检验错误后反应谨慎策略的合理性。该模型能够分离连续的错误后减慢心理加工过程,不仅可以解释平均反应时而且可以解释正确反应和错误反应的反应时分布,使反应监控的计算过程更加清晰明了。实验采用词汇决策任务(lexical decision task)证实犯错后被试为了提高任务执行表现而反应更加谨慎,注意力更加集中于目标任务,并对反应速度和正确率进行策略权衡,进一步为冲突监控理论提供了理论上的支持。

但是上述实验均是在错误加工和冲突加工有相同的神经加工机制基础上的研究结论,错误加工和冲突加工分离的研究发现错误加工优先激活ACC的喙部区,而冲突加工则主要集中于ACC后部,甚至延伸至前辅助运动区(pre-supplementary motor area,pre-SMA)(Aarts,Roelofs,& van Turennout,2008; Lütcke & Frahm,2008; Swick & Turken,2002; Ullsperger & Von Cramon,2001)。此外,在某些病人的研究中也发现与冲突监控的假设并不一致。Hajcak and Simons(2002)在对患强迫症(obsessive-compulsive disorder,OCD)的病人进行研究时发现强迫症患者在执行任务时ACC激活增加但是错误后减慢并没有相应的增加。随着年龄的增长,人们的监控能力受损,在West and Moore(2005)的研究中发现老年人的ACC激活确实下降了,但是错误后减慢量与青年人并无差异。这些研究对错误后减慢是由反应冲突驱动的解释提出很大质疑,所以冲突监控模型是否能够有效解释错误后减慢还需进一步的研究探讨。

2.2 激活抑制假说

激活抑制假说(activation-suppression hypothesis)是Ridderinkhof等人(2002b)在双通路模型的基础上对选择性抑制的神经机制进行进一步阐释的理论模型(见图3)。双通路模型(dualroute model)认为任务完成是直接反应通路和控制反应通路共同作用的结果,并且直接反应通路和控制反应通路是并行加工的,其中直接反应通路是自动加工,而控制反应通路受自上而下的调节。控制反应通路加工比较快时,直接反应通路激活的时间就比较短,没有达到反应阈限;控制反应加工比较慢时,直接反应激活相对也会比较久,很可能超出反应阈限形成错误反应。选择性抑制主要抑制直接反应通路的激活,越弱的选择性抑制将导致犯错的可能性越大。当错误反应发生后,控制反应就会受到更强的自上而下的控制,人们为了提高执行表现就会在反应激活之前增加对错误反应倾向的抑制,所以错误反应会导致错误后试次反应选择抑制的增强。另外,根据反应时分布分析(王力,张栎文,张明亮,陈安涛,2012;张德玄,周晓林,2007),在Delta图上,错误后试次(EC)比正确后试次(CC)的斜率更负。反应时Delta分布把干扰效应描述为反应速度函数,越负的斜率说明随着反应时的增加干扰效应越少,这就意味着错误后试次的干扰效应相对减少,抑制增加(Ridderinkhof,2002a; Ridderinkhof,van den Wildenberg,Wijnen,& Burle,2004)。反应行为通过对不适反应的选择性抑制而激活,这种选择抑制机制需要消耗一定的时间来形成,所以只有在一段时间后才有效,即反应行为的激活是在成功抑制不适反应之后形成的,而对不适反应的抑制是耗时的,所以随着错误后试次选择抑制的增加,反应时增加。

图3 激活抑制模型图示(资料来源:Ridderinkhof,2002a)

Aron等人(2007)的功能磁共振成像(founctional Magnetic Resonance Imaging,fMRI)研究中发现包括前辅助运动区(presupplementary motor area,pre-SMA)、外侧后额叶皮层(lateral inferior frontal codex,IFC)、丘脑底核(subthalamic nucleus,STN)的神经网络卷入错误后减慢的加工(Aron,Behrens,Smith,Frank,& Poldrack,2007),这个神经网络和反应停止或减慢相联系,说明错误后减慢和反应抑制相关。Marco-Pallares等人(2008)的研究数据支持错误后减慢的抑制解释,他们采用时频分析(time-frequency analysis)技术发现错误后减慢和beta带能量的增加相关。Beta带能量的增加和抑制加工特别是运动抑制相联系(Kuhn et al.,2004; Marco-Pallares et al.,2008; Swann et al.,2009)。另外,抑制相关的beta带的调节与丘脑底核(STN)(Kuhn et al.,2004)、右侧额后叶皮层(rIFC)(Swann et al.,2009)相联系,这说明抑制加工的神经网络作用于错误后减慢,支持激活抑制理论。

选择反应的抑制也会导致运动皮层激活下降,研究发现初级运动皮层(primary motor codex,M1)激活越低的个体错误后减慢量越大(Danielmeier et al.,2011; King et al.,2010; Swann et al.,2009),这一点与冲突监控理论一致。两者的主要区别可能在于冲突监控理论主要侧重相关刺激维度保持的神经机制的解释,而激活抑制理论主要侧重于无关刺激抑制的神经机制解释。

2.3 强化学习理论

强化学习理论(reinforcement learning theory,RLT)(Holroyd & Coles,2002; Holroyd,Yeung,Coles,& Cohen,2005)是基于计算模型和华生的效果律提出来的,认为错误反应为反应控制提供了学习信号,监控系统根据学习信号对行为进行调整。强化学习理论模型(见图4)包括两部分:任务模块,主要负责刺激-反应映射,产生反应输出;监控模块,主要是评估任务模块中的反应输出,强化好的行为表现,惩罚坏的行为表现。任务模块包含四层:知觉层,负责编码外界刺激;分类层,负责区分刺激、目标和非目标;反应层,负责产生具体的反应,即执行刺激-反应映射;注意层,增加知觉层目标的激活,抑制非目标激活,并决定反应偏向,即直接激活反应层的某一反应。监控模块包含三层:状态层,表征目标刺激、反应,以及刺激与反应的连接,并接收反馈刺激的信息;数值层,计算本次试验成功或失败的概率;TD(暂时差异,temporal difference error)层,计算TD信号(Holroyd et al.,2005;刘玉丽,张智君,2008)。TD是强化学习理论中特有的一个概念,它通过“自适应评估”(adaptive critic)来进行计算,反映了对当前系统状态的评估。当前的行为结果优于预期则产生正的TD值,反之,则产生负的TD值。TD信号通过中脑多巴胺(dopamine,DA)系统传递到ACC,ACC又监控调节一系列运动控制器来调节随后的行为。错误反应发生后,系统检测到当前行为差于预期会导致中脑多巴胺活动水平下降,而输入到ACC的多巴胺量也会随之减少,反之,正确反应可提高多巴胺系统的活动水平。在此模型的研究基础上,Holroyd和Coles认为在任务模块中,注意层可直接与反应层相连接激活反应输出,但是错误发生后,注意层与反应层的连接强度与TD信号的激活强度成比例的下降,因此,延迟了随后反应的产生,从而引发错误后减慢现象。

图4 强化学习模型图示(修改自:Holroyd et al.,2005)

根据RLT的观点,非预期的错误反应诱发的错误相关负波(error-related negativity,ERN)(Debener et al.,2005; Gehring,Goss,Coles,Meyer,& Donchin,1993; Wessel,Danielmeier,& Ullsperger,2011; West & Travers,2008)是由中脑多巴胺携带的错误信号对ACC中的运动神经元去抑制产生,中脑多巴胺系统在强化学习中起着至关重要的作用(Holroyd et al.,2005; Reynolds & Wickens,2002)。有研究发现,注射促进多巴胺释放的d安非他命之后,ERN波幅显著增加(de Bruijn,Hulstijn,Verkes,Ruigt,& Sabbe,2004),但是摄入影响多巴胺受体的酒精之后,ERN波幅显著减小(Ridderinkhof et al.,2002),这说明多巴胺这种神经递质对ERN的产生有重要影响。另外,RLT有个重要的推论:注意层中的注意—反应神经元接受外部刺激输入,然后直接激活反应层中与大概率目标对应的反应,大概率目标犯错会诱发更大的ERN波,产生更大的错误后减慢量,即ERN波幅与错误后减慢量成正相关(Holroyd et al.,2005)。所以,多巴胺的激活水平会影响到错误后行为的调节。

2.4 失匹配理论

失匹配理论(mismatch theory)(Coles,Scheffers,& Holroyd,2001)也被称之为错误检测理论。该理论模型(见图5)认为错误加工系统由探测错误的监控系统和行为补偿系统构成,其中监控系统的核心是一个比较器,主要负责对目标反应和执行反应表征进行比较,而行为补偿系统主要用来抑制错误、校正错误或者对反应采取策略调整。当探测到执行反应和目标反应不一致时,错误监控系统会在包括ACC的后部中额脑区产生不匹配信号ERN。然后错误信号通过比较器传输到行为补偿系统,行为补偿系统为了避免重复犯错而延迟反应时间。

图5 失匹配理论模型(修改自:Coles et al.,2001)

在失匹配理论中主要强调比较器的特殊性,从这个角度看,强化学习理论中的监控模块也起到比较器的作用。不同的是,强化学习理论的监控模块不仅监控当前反应状态,而且可以对外部反馈信息以及内外部反馈相结合的信息进行监控,而失匹配理论对错误检测完全依赖于内部表征。另外,失匹配理论对冲动反应造成的“行为失误”解释尚显不足,因为此类错误主要是由刺激加工不完全,反应偏向影响引起的,对刺激加工不完全将不能对当前的执行反应和目标反应进行比较(刘玉丽,张智君,2008),促使行为监控调整的原因可能在于不确定反应猜测。

2.5 注意朝向理论

Notebaert等人(2009)提出的注意朝向理论(orienting account)认为引起错误后减慢现象的原因不是在于错误信息本身,而是人们犯错的概率(Notebaert & Verguts,2011)。错误概率较小的情况下,被试会对错误较为关注,导致被试的注意力集中在错误上而离开了需要进行的任务。他们采用颜色辨别任务,通过变化色块(红、绿、黄、蓝)的亮度来调节错误发生概率,使错误率达到35%、50%、75%三种比例。实验结果发现正确反应发生概率低时产生正确后减慢,而错误反应发生概率低时产生错误后减慢(Notebaert et al.,2009)。因为小概率事件属于非预期事件,事件发生时较易占用更多的注意资源,而对随后任务的注意定向重置是一个耗时的加工过程,因此会导致小概率事件后减慢现象。这与Molenberghs等人(2009)提出的错误后减慢现象反映了错误发生时人们对认知资源调整分配的能力这一观点一致。

在脑电实验中已经发现错误后减慢和P3波相关(Castellar,Kühn,Fias,& Notebaert,2010),P3波尤其是P3a与注意朝向的新异加工相联系(Danielmeier & Ullsperger,2011)。fMRI研究发现新异性刺激加工和错误加工激活共同的脑区(Wessel,Danielmeier,Moron,& Ullsperger,2012),给注意朝向理论提供了直接的证据支持。Carp等人(2009)采用时频分析技术发现在犯错时alpha频带的能量下降,这说明与正确反应相比,错误反应引起更大的大脑激活或注意朝向反应。他们认为alpha频带能量的变化是错误后减慢的个体差异研究的更直接的指标,这在某种程度上间接支持了注意朝向理论。在Fiehler等人(2005)年的研究中,他们把被试分为两组:一组被试被指导犯错后立刻进行纠正,而另一组被试没有额外的任务要求,他们不知道可以纠正错误。研究发现没有额外任务要求的那组被试犯错更少,并且只在这一组被试中发现了错误后减慢现象,这就为注意朝向理论提供了一定的数据支持。

然而,如果错误后减慢是对非预期事件的一般性注意朝向反应,那么我们可以预测非预期的错误反馈(反应正确但是反馈告诉被试反应错误)将会像非预期的错误反应一样引起错误后减慢效应,但是已有研究发现外部诱导产生的错误并不能产生错误后减慢效应(de Bruijn,Mars,& Hulstijn,2004; Steinhauser & Kieser,2011)。这说明小概率事件引导注意施加的影响只是错误后减慢效应产生的充分条件,而非必要条件(Danielmeier & Ullsperger,2011)。

2.6 评估适应假说

评估适应假说(criterion adjustment hypothesis)是2009年Dudschig等人提出的对错误后减慢效应的一种新的解释,但是还缺少有力的证据支持。他们认为错误后减慢是由于错误评估和随后试次加工之间的干扰导致的(Jentzsch & Dudschig,2009; Núez Castellar,Notebaert,van den Bossche,& Fias,2011)。该假说可以很好地解释不同刺激反应间隔(response-stimulus interval,RSI)条件下错误后减慢效应量不同的现象。错误试次和错误后试次的间隔越短,错误评估加工对随后试次加工的干扰越大,感受到的行为调整信号也就越强烈,错误后减慢效应越大,即错误后减慢效应随反应刺激间隔时间的延长而减小。该研究结论对错误后减慢是一种策略性调整提出质疑。一方面,刺激反应间隔较短时,错误后减慢效应量最大,然而正确率并没有随反应速度的变慢而提高(Danielmeier & Ullsperger,2011; Dudschig & Jentzsch,2009)。这可能是由于错误后反应减慢和正确率提高不相关(Danielmeier et al.,2011),错误后减慢和正确率提高并不是相伴随的平行加工。另一方面,策略性调整预测错误后减慢效应量应随刺激反应间隔增大而增大,因为RSI越长可以用来进行行为调整的时间越充裕,但是研究结果与预期相反,这表明对错误后减慢的加工可能是自动加工而不是策略性调整或者不仅仅是策略性调整的结果。

评估适应假说和注意朝向理论均是针对错误后行为适应提出的理论解释,不似其他理论解释是从别的研究领域中延伸出来的。两者均因是近几年新提出的解释,尚缺乏足够的证据支持,存在很大争议。另外注意朝向理论中也存在反应评估加工,在反应评估的基础上再进行注意朝向的加工。不同的是两者是基于不同研究背景提出的假设,评估适应假说尝试对不同RSI导致错误后减慢效应量不同的现象作出解释,而注意朝向理论则在对错误发生概率不同时引发的心理加工差异进行解释。

3 不同理论间的对比讨论

3.1 对PES产生的解释角度不同

冲突监控理论强调反应冲突对错误加工的干扰作用导致错误后认知控制能力提高,反应激活降低。错误反应的冲突发生在反应之后,随着错误后反应加工的继续,正确反应的激活增大,反应冲突增大,对冲突加工的控制致使随后试次反应延迟。激活抑制理论是从加工通路的角度阐释错误后减慢现象。该理论认为自上而下的加工(控制加工)和自下而上的加工(自动激活加工)是同时进行的。错误发生后,控制加工将受到更强的自上而下的调节,而对干扰反应选择的自动激活加工抑制增强,抑制加工耗时使得反应减慢。强化学习理论认为错误信号是通过多巴胺系统从基底神经节传递到ACC的强化学习信号。错误发生后,基底神经节评价结果比预期坏,多巴胺的相位降低,产生负的TD信号值。随着TD信号激活的下降,注意层和反应层的连接强度下降,反应激活延迟。失匹配理论认为监控系统存在一个比较器,用来比较目标反应和执行反应,当不匹配时就产生一个错误信号,然后促使行为补偿系统调节行为。注意朝向理论认为影响人们行为调整的不是错误信息本身,而是错误发生概率,这是有别于其他理论的关键所在。该理论认为错误发生概率影响人们的注意朝向,而小概率事件更易吸引人们的注意,所以在小概率事件发生后对目标任务的注意朝向重置导致错误后事件反应减慢。评估适应假说认为对反应结果的评估加工会干扰随后试次的知觉加工或者反应选择导致错误后试次加下延迟。

尽管如此,各理论间并不是完全相互排斥的。Botvinick(2007)提出冲突作为一种厌恶或者负性反馈可以促使个体进行更有效地学习。冲突监控中对反应的监控和强化学习中的监控模块有相同的作用,都可以对ERN做出有效解释。另外,冲突监控理论认为错误可以增强个体对目标任务的注意,强化学习则认为错误会导致注意层和反应层的连接强度下降,这些都涉及注意朝向的加工。

3.2 对PES和ERN关系的预测不同

冲突监控理论、强化学习理论和失匹配理论这三种理论虽然是基于不同的基础假设(冲突监控、强化学习信号、错误检测)提出的理论解释,但是他们均认为错误后减慢是犯错后进行的策略性调整,为了提高执行表现而采用更为保守的速度-正确率权衡策略。而激活抑制理论认为错误后减慢是由于对直接通路的选择性抑制导致反应通路激活降低,这一观点与冲突监控理论一致,均认为是反应激活的降低引起的。基于上述理论,可预测错误产生的ERN波幅越大,错误后减慢量越大,即ERN与PES成正相关(Debener et al.,2005; Gehring et al.,1993; Holroyd et al.,2005; Kerns et al.,2004; Marco-Pallares et al.,2008)。评估适应假说认为对错误的评估会干扰随后试次的刺激信息的加工,所以随着RSI减少错误后减慢效应增大。在该理论中,ERN波幅的大小反映了错误评估完成程度。RSI越小,错误评估完成度越少,对随后刺激的加工干扰越大,ERN波幅越小,研究发现ERN与PES成负相关(Dudschig & Jentzsch,2009)。值得注意的是,对评估适应假说中ERN与PES关系的解释要谨慎,因为当RSI比较小时,先前试次与当前试次的大脑激活极有可能发生重叠,那将会使ERP数据受到污染,致使研究推论发生偏差。注意朝向理论认为与注意有关的P3反映了非预期的错误反馈所诱发的对任务的朝向反应。这一朝向反应延迟了随后任务的加工,而与ERN没有关系。导致注意朝向理论与其他理论预测不一致的可能原因有以下三个:一,促使人们调节行为的反馈源不同。注意朝向理论采用的是外源性的反馈,而其他理论采用的是内源性反馈或者既采用内源性反馈又兼顾外源性反馈(如,强化学习理论)。二,采用的错误概率条件不同。日常生活中错误发生的可能性是比较低的,所以先前提出的理论研究均是在错误概率发生比较低的情况下进行探讨。注意朝向理论弥补了错误发生概率较高的情况下欠缺考察的情况。三,采用的实验范式不同。注意朝向理论为了避免刺激冲突或反应冲突对错误加工的干扰而采用颜色辨别任务,而其他研究则采用了Flanker、Stroop、Simon经典冲突范式。不同实验范式的采用极易造成错误性质或者错误类型不同,从而使实验结果不具可比性。

3.3 ACC在不同理论中的作用不同

冲突监控理论认为,ACC直接负责监控同时激活的相互竞争的刺激通道或者反应通道的冲突,该冲突阻止了刺激-反应的匹配。冲突信息被传递到其他脑区,以便增强控制减少冲突。ACC的作用是评价、监控功能,其他脑区负责完成行为调节。强化学习理论认为ACC本身并不监控错误,而是从基底神经节获得错误信号。ACC的作用是使用该学习信号强化行为反应,起到过滤器的作用(刘春雷,张庆林,2009)。激活抑制理论认为ACC反映了对直接通路激活的强势反应的抑制和错误检测。研究抑制加工的神经机制主要集中在基底神经节、额下回、辅助运动区和辅助运动前区,但是近几年也有研究发现ACC也参与了对行为反应的抑制。Leland等人(2008)在一项病人(甲基苯丙胺依赖者)和健康人的对比研究中发现,病人组出现ACC反应激活,并且在给予抑制反应的线索提示后,病人组随着反应抑制的增强,ACC激活增强。失匹配理论认为ACC反映了错误检测或者反应冲突,从这一点考虑,冲突监控理论和失匹配理论没有差异。在该理论中ACC通过对目标反应和执行反应进行比较,检测到不匹配存在而产生ERN,不匹配程度越大,ERN越大;或者发生不匹配时,ACC便产生情感或动机信号促使反应冲突解决。注意朝向理论主要强调注意自下而上的调节加工对随后行为的调节,但是也离不开自上而下的认知控制的调控。ACC在该理论中主要负责对注意资源的分配和重置。

4 总结和展望

错误加工包括错误监测和错误调控两部分。最初的研究主要集中于错误监测的研究,所以错误检测的神经机制、理论解释、计算模型已经发展比较成熟,经过大量的研究论证,已经基本取得一致的结论。但是错误加工的另一部分错误调控的研究仍然有很多盲区,引起很多争论和探究,所以,错误后减慢效应已经成为近几年错误加工研究领域的研究热点。目前的研究主要集中于以下几个方面:1)导致错误后减慢效应产生的机制;2)错误后减慢效应的神经机制;3)错误后减慢和错误相关脑电成分ERN、Pe、FRN的关系;4)错误后减慢和错误意识的关系;5)错误后减慢和反馈信号的关系。虽然错误后减慢的研究已经取得了丰硕的成果,对错误加工的研究向前推进了一大步,但是仍然还有很多问题亟待解决。例如,错误后减慢神经机制的直接证据还很少;错误后减慢的理论研究还存在很大争议;错误后减慢的心理加工阶段不清楚等。这些问题的解决将对我们揭示错误加工的全貌有重要意义。针对错误后减慢研究领域的现存问题,未来的研究可以从以下几个方面展开:

(1)关注不同错误类型的研究。根据错误产生来源不同,分为内因错误和外因错误。如弹钢琴时,自己按错键是内因错误,而按键失灵则为外因错误。根据错误产生对象不同,分为执行错误和观察错误。如写字时,自己写错字是执行错误,而看到别人写错字是观察错误。根据错误产生的性质不同,分为低水平错误和高水平错误。如开车时,不停地调整方向盘以避开一些路障,这些可以及时校正且不会产生很大影响的错误称为低水平错误,而本来该往左转弯但是却向右转了造成的错误称为高水平错误,此类错误一般不易校正。根据错误产生速度不同,分为行为失误和猜测错误。行为失误是指刺激加工不完全而产生的错误,这类错误一般反应很快,而猜测错误是指刺激加工完成之后受到干扰或者信息累积不足引起的不确定反应错误,这类错误一般反应很慢。过去的研究集中于对“行为失误”的研究,而对其他类型的错误研究则较少,努力创造条件在实验室模拟产生其他类型的错误进行研究将会拓展错误研究领域。近年来,观察错误研究更是逐渐成为该领域研究的热点。在镜像神经元的研究中,研究者发现观察他人犯错和自我犯错有相同的神经加工机制(Miltner et al.,2004; van Schie,Mars,Coles,& Bekkering,2004)。在此基础上,研究者对观察错误能否引起错误后适应行为展开研究。已有研究发现观察错误也可以引起错误后减慢现象,只是较自我错误效应减小(de Bruijn,Miedl,& Bekkering,2011; Núez Castellar et al.,2011),但是也有研究发现。ERN和Pe只受自我执行行为的调节(Picton,Saunders,& Jentzsch,2012)。尽管在反馈阶段,FRN(feedback-related negtivity)和f-P300与合作者反应行为相关,但是对随后行为依然没有影响。鉴于研究上的分歧,观察错误和错误后减慢究竟有没有关系?如果有,是否需要一定的环境背景,如处于竞争或合作的关系中,这些都有待进一步的探究。

(2)关注无意识错误加工研究。虽然已有研究证实错误后减慢是有意识的策略性调整,是一个受控的加工过程(Klein et al.,2007; Rabbitt,1966;蒋军,陈安涛,2010),但是也有研究发现与此相反的结论。Cohen等人(2009)采用视觉信号go/no-go任务,no-go试次中一半有掩蔽的提示信号,一半无提示信号,结果发现无意识的no-go提示引起的无意识错误反应诱发了错误后减慢现象。这说明自动的认知控制调节作用于错误后试次,这个研究结论将会使那些在策略性调整基础上提出的理论解释受到严峻挑战。关注无意识错误加工后的行为调整,将对我们更清楚地揭示错误后减慢的产生机制有很大帮助。

(3)关注个体差异研究。不同的人在面对错误的时候采用的策略可能会有很大差异。Themanson等人(2011)研究发现自我效能感越高的个体,错误后适应行为越好。Larson等人(2010)发现对生活满意度越高的人群,ERN波幅越小。所以目前研究中的很多争议可能是受到个体差异的影响造成的,分离个体差异的影响将有助于我们得到更稳定的实验结果,更有利于我们对问题产生原因的把握。另外,在错误后行为适应领域研究中性别差异的影响也不能忽视。

(4)关注新的分析技术的融合和应用。要充分利用ERP技术的高时间分辨率和fMRI技术的高空间分辨率特点获得错误后减慢的研究的更直接证据。利用EEG和fMRI数据可以同时记录的可行性可以获得更多限定在某一神经网络中信息加工的时间动态信息,这将对错误后减慢的产生机制以及错误后减慢的加工阶段的探讨提供更为直接可靠的证据。此外,单试次分析(single-trial analysis)和时频分析也已被广泛接受和应用。传统分析方法主要是从时域进行分析,而小波分析则是从频域着手分析,将传统分析方法和小波分析相结合,将有利于更全面、更深入、更清晰地了解错误加工问题的实质。

收稿日期:2012-07-17

标签:;  ;  ;  ;  

误差后减速的理论模型综述_强化学习论文
下载Doc文档

猜你喜欢