奖励和惩罚对适应性认知控制的可分离影响
冷夏民 ,叶丽琪,哈里森·丽兹,阿米泰·申哈夫
出版日期: 2021年12月28日
抽象
为了将精力投入到任何认知任务中,人们必须有足够的动力。虽然先前的研究主要集中在完成这些任务所需的认知控制如何受到成功的潜在回报的激励,但众所周知,控制投资也可以同样受到失败的潜在负面后果的激励。以前的理论和实验工作尚未研究积极和消极的激励如何影响人们分配控制的方式和强度。在这里,我们开发和测试了在积极和消极绩效激励不同的条件下进行控制分配的规范模型。我们的模型预测,我们的实证研究结果证实,成功的奖励和失败的惩罚应该分别对证据积累率与响应阈值的调整产生不同的影响。这种分离进一步使我们能够推断出一个人对成功与失败的后果的动机。
作者简介
从学校到工作场所,某人是否实现了他们的目标在很大程度上取决于他们在任务中投入的脑力。最近的工作已经证明了人们为什么以及如何调整他们投入的努力,以应对实现这一目标的预期奖励的变化。然而,在现实世界中,我们的动机既取决于我们的努力可以达到的积极结果(例如,赞美),也可以受到他们可以避免的消极结果(例如,拒绝)的激励,这两种类型的激励不仅可以激励我们投入的努力量,还可以激励我们投入的努力类型(例如,是否优先考虑高效或谨慎地执行任务)).结合使用计算建模和一项测量不同激励条件下自愿努力分配的新任务,我们表明人们应该并且确实参与可分离形式的精神努力,以响应积极与消极的激励。随着实现目标的奖励增加,他们优先考虑有效的绩效,而随着失败的惩罚增加,他们优先考虑执行谨慎的绩效。我们进一步表明,这些可分离的策略使我们能够根据成功的积极后果相对于失败的消极后果来推断给定的人的动机。
数字
Fig 5Fig 6Fig 7图1Fig 2表 1Table 2Fig 3Fig 4Fig 5Fig 6Fig 7图1Fig 2表 1
引文:Leng X,Yee D,Ritz H,Shenhav A(2021)奖励和惩罚对适应性认知控制的可分离影响。PLoS Comput Biol 17(12):e1009737。https://doi.org/10.1371/journal.pcbi.1009737
编辑 器:安宇英,首尔国立大学,大韩民国
收到:五月 21, 2021;接受:十二月 9, 2021;发表:十二月 28, 2021
版权所有:? 2021 Leng等人。这是一篇根据知识共享署名许可协议条款分发的开放获取文章,该许可证允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性:所有人类数据均可在OSF上通过链接https://osf.io/24ud5/获得。为支持本出版物而编写的所有代码均可在https://github.com/Jasonleng/RewardPenaltyPaper上公开获取。
资金:这项工作由互动主义者认知神经科学培训计划T32-MH115895(X.L.),计算精神病学培训计划T32-MH126388(D.Y.),创新奖(A.S.)和布朗卡尼脑科学研究所的Daniel Cooper研究生奖学金(H.R.)资助;并由美国国立普通医学科学研究所(P20GM103645)和美国国家科学基金会(职业奖2046111)资助给A.S.资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益:作者宣布不存在相互竞争的利益。
介绍
人们必须定期决定在一项任务上投入多少脑力,以及投入多长时间。在这样做时,他们权衡了付出这种努力的成本与由此产生的潜在收益[1,2]。这些好处不仅包括成功的积极后果(例如,金钱或赞美),还包括失败的负面后果(例如,批评或拒绝)。先前的研究表明,人们可能在多大程度上受到获得积极结果与避免消极结果的前景的激励[3,4]。例如,一些学生勤奋学习以赢得父母的表扬,而另一些学生则这样做是为了避免尴尬。这些激励措施的总体显著性将决定一个给定的人何时以及如何决定投入脑力劳动(即,参与相关的认知控制过程[5],包括他们何时选择脱离努力的任务[6,7])。然而,虽然人们对人们如何调整认知控制以响应不同水平的潜在奖励知之甚少[5,8,9],但对他们如何同样地适应不同水平的潜在惩罚,以及在这两种激励条件下最具适应性的控制分配策略类型知之甚少。
以前的研究已经研究了控制分配如何作为任务表现良好的奖励的函数而变化,使得参与者在获得更大的奖励时通常表现得更好[10–14]。例如,当在认知控制任务(例如Stroop)期间获得奖励取决于速度和准确性时,随着潜在奖励的增加,参与者更快和/或更准确[11,15–17]。虽然研究已经研究了避免负面结果的动机如何影响认知控制[18-22],但解释这些混合行为模式的挑战是,随着潜在惩罚的增加,参与者会部署各种行为策略[22,23]。过去的工作表明,这些策略,例如增加任务处理(例如,注意力集中)或调整决策阈值,可以与不同形式的控制调整相关联(例如,优先考虑速度与准确性;[24–27])。然而,目前尚不清楚参与者在不同激励机制下(即,避免表现不佳与实现良好绩效)激励时,是否会选择性地部署不同形式的控制调整。
Recent theoretical work helps to frame predictions regarding when and how people might vary their control allocation in response to different forms of incentives [1]. For instance, normative accounts of physical effort allocation have proposed that animals and humans vary the intensity of their effort (e.g., motor vigor) to maximize their net reward per unit time (reward rate [28–31]). We have recently extended this framework to describe how people determine the appropriate allocation of cognitive control in a given situation. Specifically, we have suggested that people select the amount and type(s) of cognitive control that maximize the overall rate of expected rewards, while minimizing expected effort costs. The difference between these two quantities, referred to as the Expected Value of Control (EVC), indexes the extent to which the benefits of control outweigh its costs [1,2,32] (see also [33]).
The EVC model has been successful at accounting for how people vary the intensity of a particular type of control (e.g., attention to a target stimulus/feature) to achieve greater rewards [34,35]. However, limitations in existing data have prevented EVC from addressing how the type of control being allocated should depend on the type of incentive being varied. One limitation, noted above, is the dearth of research on how people adjust control to positive versus negative incentives. A second potential limitation is that most existing studies examine how performance varies over a fixed set of trials (e.g., 200 total trials completed over the course of an experiment). The maximal expected reward is determined by the number of trials in the task, which could limit the underlying drive to maximize reward rate. A stronger test of reward rate maximization, and one that is arguably more analogous to real-world effort allocation, would allow participants to perform as much or as little of the task as they like over a fixed duration [36], to tighten the link between reward rate and overall expected reward.
在目前的研究中,我们开发了一种新颖的范式,其中参与者在固定的时间间隔内对需要控制的任务(Stroop任务)进行连续试验。我们研究了分配给这项任务的控制数量和类型在不同的激励类型(奖励与惩罚)以及这些激励的不同程度(小与大)下如何变化。在两个实验中,参与者在两种激励条件下表现出不同的任务绩效模式:增加奖励的响应更快,但增加惩罚的响应更慢但更准确。我们表明,这些模式与控制分配模型的规范预测一致,该模型在最大化奖励率的同时最大限度地降低努力成本。该模型预测,奖励与惩罚有利于不同的控制策略:奖励越高,信息处理越快,以最大限度地提高(纠正)响应率,而惩罚越高,越谨慎,以尽量减少潜在的错误。在漂移扩散模型(DDM)的框架内,我们的规范模型预测参与者将通过增加证据积累率(漂移率)和降低响应阈值来响应奖励水平的增加,而他们将主要通过增加阈值来应对惩罚水平的增加。模型与两项研究的行为数据拟合证实了这些预测。
我们的模型能够对激励对两种控制形式(即跨越漂移率和阈值)的联合分配的影响做出不同的预测,这使我们能够根据每个参与者的独特行为特征做出进一步的推断。具体来说,通过估计这些DDM参数在不同条件下如何一起变化,我们能够推断出参与者对奖励和惩罚的敏感程度,以产生他们所做的行为模式。总的来说,这项工作展示了一种令人信服的新方法,用于推断人们在决定何时以及分配多少认知控制时如何评估成本和收益的可变性。
结果
参与者(N = 32)执行了一项任务,其中他们被给予固定的时间间隔(在8到12秒之间),以执行他们想要的认知要求任务(Stroop任务;图 1)。他们在给定的时间间隔内获得每个正确响应的货币奖励,并因每个不正确的响应而遭受金钱损失(罚款)。奖励和罚款(0.01美元或0.10美元)的大小在不同区间内变化,并在每个区间开始之前提示。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1.基于区间的激励认知控制任务.
在每个间隔开始时,视觉提示指示该间隔内正确响应的奖励金额(货币收益)和错误响应的罚款金额(货币损失)。参与者可以在该间隔内完成任意数量的Stroop试验。在屏幕底部跟踪给定时间间隔内的累积奖励。正确的响应会增加此值,而不正确的响应会降低此值。在每个间隔结束时,参与者被告知他们赚了多少钱。右上方插图显示了四种情况的提示。
https://doi.org/10.1371/journal.pcbi.1009737.g001
行为表现
我们发现,当参与者期望每个正确反应获得更大的奖励时,与期望较小的奖励(F(1,31)= 28.72, p<0.001;图2A,表1)。惩罚幅度的可变性似乎对行为产生了相反的影响。当参与者期望对每个不正确的反应进行更大的惩罚时,他们在给定的时间间隔内完成的正确试验比他们期望的惩罚更小(F(1,31)= 23.11, p<0.001;图2B)。我们还观察到奖励和惩罚之间的趋势相互作用(F(1,29)= 3.77, p = 0.062),与低惩罚间隔相比,高惩罚区间级别表现中与奖励相关的改进得到增强。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2.奖励和惩罚对整体任务绩效的影响。
(A)随着预期奖励的增加,参与者在给定的间隔内每秒完成更多的正确反应(左),这反映了在正确试验中更快的反应(右上),而总体准确性没有任何变化(右下)。(B)随着预期惩罚的增加,参与者在一段时间内每秒完成的试验更少,反映出更慢,更准确的反应。误差线反映 95% 的置信区间。编号: p>0.05;:p<0.001。
https://doi.org/10.1371/journal.pcbi.1009737.g002
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1.每秒正确响应的混合模型结果。
https://doi.org/10.1371/journal.pcbi.1009737.t001
当单独研究激励如何影响速度和准确性时,我们发现了一个有趣的解离,它有助于解释奖励和惩罚对每秒正确响应次数的反向影响。我们发现,更大的潜在奖励会诱发更快的反应(F(1,28)= 31.83,p <0.001),但不更准确或更不准确 (Chisq (1)= 0.26, p = 0.612;图2A和表2)。相比之下,较大的潜在惩罚诱导的反应较慢(F(1,30)= 35.28,p <0.001)但也更准确(Chisq (1)= 26.73, p<0.001;图2B)。这些结果控制了试验间同余性的差异,正如预期的那样,这些差异的显示速度更快(F(1,31)= 115.28,p <0.001)和更准确(Chisq (1)= 4.13,p = 0.042)与不一致刺激相比,一致刺激的反应。 虽然激励和绩效一致性之间没有显著的双向相互作用,但我们观察到奖励、惩罚和一致性之间存在显著的三向相互作用(Chisq(1)= 6.24,p = 0.013)特定于精度。 总之,这些数据表明,参与者应用了不同的策略,在奖励和惩罚激励中进行认知控制。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 2.对数变换反应时间和准确性的混合模型结果。
https://doi.org/10.1371/journal.pcbi.1009737.t002
奖励率-最优控制分配:规范预测
为了生成有关Stroop任务性能的预测,我们使用漂移扩散模型(DDM)[34,37]将任务参数化为向两个边界之一(正确与误差)累积的噪声证据的过程。我们假设在给定试验中决定性能的两个DDM参数是证据积累率(漂移率v)和决策阈值(a)。随着漂移率的增加,正确响应的可能性增加(错误率降低),响应速度更快。随着阈值的增加,响应也更有可能是正确的,但速度较慢(图3A;正如我们在下面描述的那样,一个关键的预测是,这些参数的调整可能是认知控制分配的不同策略的基础。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3.DDM参数设置对奖励率估计值的影响。
(A)预期误差率(ER)和决策时间(DT)可以估计为漂移率和阈值的函数。B-C)奖励率传统上被定义为预期错误率的函数,按正确与错误响应的值以及总体响应时间(决策时间和决策无关过程的组合[31])进行缩放。漂移率和最大化奖励率(黑点)的阈值设置的组合因是否假定漂移率产生努力成本而异。 (B) 如果没有成本,最大化漂移率始终是最佳的。(C) 对于成本,漂移率和阈值必须都属于一组更受约束的参数值。(B-C)中的奖励率等值线定义为主观奖励= 5,主观惩罚= 5,非决策时间= 400ms.(D)随着每个正确响应的主观奖励增加(从8到20 a.u.绘制),漂移率和阈值(黑点)的最佳联合配置主要朝着增加漂移率的方向移动。随着错误响应的主观惩罚增加(从 5 a.u 绘制为 625 a.u.),此最佳配置将朝着增加阈值的方向移动。
https://doi.org/10.1371/journal.pcbi.1009737.g003
先前的理论和实证研究表明,参与者可以调整这个潜在决策过程的参数,以最大限度地提高他们在实验过程中获得奖励的速率[31,38]。这个奖励率(RR)是由绩效指标(响应时间和错误率[ER],[31])和绩效激励(即正确与错误响应的结果)的组合决定的:
在这里,分子(预期奖励)由正确响应的可能性(1?ER)决定,由正确响应的主观奖励(R)相对于错误的可能性(ER)缩放,由相关的主观惩罚(P)缩放[39]。分母(响应时间)由积累决策证据所需的时间(决策时间[DT])以及处理刺激和执行运动响应的额外时间(非决策时间[NDT])决定。
为了正确响应Stroop试验(即命名刺激颜色),参与者需要招募认知控制以克服自动阅读单词的倾向[40,41]。基于过去的工作[31,38,39],我们可以使用上面的奖励率公式来确定参与者应该如何规范地分配控制权以最大化奖励率(图3B和3C)。为此,我们做了三个关键假设。首先,我们假设执行任务的参与者在调整两种策略以提高奖励率之间进行选择:(1)增加对Stroop刺激的注意力(导致向正确反应的漂移率增加),以及(2)增加他们的阈值,以便在回应之前需要更多的证据积累。其次,我们假设参与者试图确定这两个DDM参数的组合,以最大限度地提高奖励率。第三,我们假设增加漂移率会产生非线性成本,参与者试图将其最小化。包含此成本项的动机是先前的心理学和神经科学研究[1],以及其限制模型寻求难以置信的高漂移率值的绝对必要性(即,当该成本接近零时,奖励率最大化漂移率接近无穷大,如图3B所示)。虽然基于先前的工作[33,42]先验地选择了二次成本项,但后续分析(参见补充结果1)表明,与线性(即绝对)函数相比,该二次函数的预测也更符合我们的数据。
在此公式中,E表示工作量成本的权重。由于最佳漂移率和阈值是由R/E和P/E比率决定的,因此对于奖励率优化过程,努力成本的大小保持不变(E = 1),将奖励和惩罚放入努力成本的单位。通过这种修改形式的奖励率,最佳漂移率受到很好的约束(图3C)。
使用奖励率(RR)的这个公式,我们可以生成关于认知控制分配(漂移率和阈值的组合)的预测,这些预测在不同的奖励和惩罚条件下是最优的。为此,我们改变了奖励和惩罚值,并为每对确定了漂移率和阈值对,以最大限度地提高奖励率。随着奖励的增加,该模型表明最佳策略是提高漂移率。随着惩罚的增加,最佳策略是增加阈值(图4A)。这些发现表明,奖励和惩罚的权重共同调节了分配认知控制的最佳策略,并且这两种类型的激励集中在策略的不同方面。具体来说,他们预测人们往往会增加漂移率,因为他们更看重获得正确反应的奖励。相反,人们会根据他们对正确响应的奖励(降低阈值)和因错误响应(增加阈值)而受到惩罚的价值来调整他们的阈值。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4.对激励效应对DDM参数的规范和经验观察估计。
(A)在不同的奖励和罚金值下,优化(成本折扣)奖励率的漂移率和阈值的组合。(B) 我们将行为数据拟合到 DDM 的不同参数化,漂移率和/或阈值随奖励、惩罚和/或一致性水平而变化。最佳拟合模型将两个 DDM 参数与所有三个任务变量一起变化。(C)实验中四个条件的漂移率和阈值组合的估计值。向上的三角形表示高幅度,而倒置的三角形表示低幅度。误差线反映了s.d.(D-E)与基于奖励率优化的预测(D,参见面板A)一致,我们发现更大的预期奖励会导致漂移率增加,而更大的预期惩罚会导致阈值增加(E,参见面板C)。在较小程度上,我们发现阈值降低,预期奖励更高。误差线反映 95% 的置信区间。*: p<0.05;:p<0.001。另请参阅 S1 第 4 部分支持信息,了解 DDM 的后验预测性检查。
https://doi.org/10.1371/journal.pcbi.1009737.g004
奖励率-最优控制分配:经验证据
为了测试任务性能是否与规范模型的预测一致,我们使用分层漂移扩散模型(HDDM)包[43]拟合任务的行为性能(反应时间和准确性)。系统模型比较表明,该模型对于我们的任务的最佳拟合参数化允许漂移率和阈值随试验间在同一性,奖励水平和/或惩罚水平方面的差异而变化(图4B;另见S1支持信息中的第3部分)。至关重要的是,该模型的参数估计值与我们的奖励率最优DDM的预测一致(图4C,4D和4E)。与规范性预测一致,我们发现奖励和惩罚对DDM参数表现出不相容的影响,使得较大的奖励增加了漂移率并降低了阈值,而惩罚越大,阈值越高。这些发现控制了一致性对DDM参数的影响(不一致的试验与较低的漂移率和较高的阈值相关)。综上所述,我们的实证研究结果与参与者正在优化奖励率,考虑潜在奖励,潜在惩罚和努力成本的预测一致。
推断个体对奖励和惩罚的敏感性差异
我们的研究结果表明,绩效随着预期奖励和惩罚的变化而变化,并且这些绩效变化与规范模型一致,根据该模型,参与者最大化奖励并最小化努力成本。然而,我们的模型预测和实证发现也表明,仅凭绩效不足以确定参与者在多大程度上受到给定激励的驱动。例如,更快的表现可能是由于参与者对奖励更敏感,对处罚不那么敏感,或者两者兼而有之。对于在这些条件下对单个模型参数的估计也是如此 - 我们的模型预测,对奖励更敏感的参与者将比对奖励不太敏感的参与者降低他们的阈值,但对于参与者来说也是如此,而不是对惩罚更敏感。然而,我们的规范模型的一个关键特征是,它预测了人们在给定条件下将如何根据他们的预期奖励率共同配置对漂移率和阈值的控制,并预测这些DDM参数在给定的预期奖励和惩罚水平下的独特组合(图4A)。因此,我们可以检查参与者如何在这个二维空间中移动,因为他们的奖励和惩罚各不相同(图5A),以便对他们的表现在多大程度上受到这些激励的驱动做出更有力的推断。换句话说,我们可以"逆向工程"该参与者对我们任务绩效相关的奖励和惩罚的敏感程度。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5.基于DDM估计和奖励率优化模型的奖励和惩罚敏感性推论。
(A)实验中四个条件的漂移率和阈值的估计组级奖励率最佳组合。向上的三角形表示高幅度,而倒置的三角形表示低幅度。误差线反映了s.d.(B)为了推断给定个人对奖励和惩罚的敏感性,我们反转了这个奖励率优化过程,估计了最能解释该人在给定条件下的行为模式的奖励和惩罚权重(R和P)的集合。(C-D)由此产生的对奖励和惩罚的敏感性的估计概括了我们的实验操作,在高与低奖励条件下对奖励的敏感性更高,对高与低惩罚条件的惩罚更敏感。面板 (C) 显示各个参与者的汇总统计数据。图(D)显示了对高奖励和惩罚的敏感性与低奖励和惩罚之间的个人水平对比的摘要。误差线反映 s.e.m. **: p<0.01;:p<0.001。参数恢复验证主观权重估计(请参阅S1 支持信息中的第 5 部分)。
https://doi.org/10.1371/journal.pcbi.1009737.g005
为了实现这一点,我们使用反向奖励率优化,根据参与者估计的DDM参数,在四个任务条件下推断奖励和惩罚的个性化主观权重。对于每个任务条件,我们首先估计每个个体的漂移率(v)和阈值(a)。然后,我们计算了奖励率(RR)的偏导数,相对于这些特定于条件的v和a的估计。通过将这些导数设置为0(即优化奖励率方程),我们可以计算出奖励和惩罚(和)的灵敏度,使估计的DDM参数成为最优策略(图5C)。此工作流可以总结如下:
为了验证这种方法,我们模拟了不同奖励和惩罚灵敏度(R和P)组合下的DDM参数,并测试了我们是否可以基于模拟数据恢复真实参数。我们能够成功地恢复这两个参数(参见S1支持信息中的第5部分;模拟值和恢复值之间的相关性:R = 0.99,P的r = 0.93),证实了我们的估计方法可以有效地推断个体在确定认知控制调整时对奖励和惩罚的主观评估。
对R和P(对数变换)的估计重复测量方差分析揭示了激励幅度 (F)的主要效应(1,251)= 12.64,p = 4.5e-4),高奖励区间(t (31)= 4.9,p = 3.2e-5)和高惩罚区间(t)更大(31)= 4.72,p = 4.8e-5)。 我们还观察到了效价的主要效应,使得的估计值高于(F(1,251)= 603.70,p <2e-16)。 方差分析还揭示了价与星等(F)之间的显着相互作用。(1,251)= 7.47, p = 0.007;见图5D),因此不同惩罚级别的估计值之间的差异大于不同奖励级别的估计值之间的差异。奖励和惩罚对奖励率的这些不对称效应与对损失厌恶[44]和错误厌恶[45]的研究是一致的。
在独立样本中复制和扩展研究1的发现
为了验证我们观察到的奖励效应对漂移率的影响和惩罚对阈值的影响之间的分离的鲁棒性,我们招募了一组单独的参与者(N = 65)来执行我们的任务。为了进一步调查这些影响是否普遍超过两个级别的奖励和惩罚,我们还在之前测试的两个极端之间包括了中间级别的奖励和惩罚。因此,每个区间的奖励和惩罚幅度是独立于三个可能的级别选择的:1美分(低),5美分(中)和10美分(高)。然后将选定的奖励和惩罚组合成指示这些激励水平的提示。
第二项研究复制了在研究1中观察到的可分离行为模式。与之前的研究一致,我们发现参与者更快(F(2,64)= 13.91,p <0.001)但同样准确(Chisq (2)= 2.23,p = 0.317),奖励水平越高,随着预期奖励的增加,每秒的正确响应总数增加(F (2,70)= 12.28, p<0.001;图6A)。与研究1一致,受试者速度较慢(F(2,63)= 8.49,p <0.001)但更准确(Chisq (2)= 15.21, p<0.001), 惩罚水平较高, 导致每秒正确响应较少 (F(2,64)= 4.30, p = 0.018;图6B)。中等奖励和惩罚水平下的答复率与这些变量的低和高水平下的答复率相比是中等。有关已安装的混合型号的详细信息,请参见S1 支持信息中的第 6 部分。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6.
研究2中奖惩对整体任务绩效(A、B)及漂移扩散模型(C)参数的影响(A)随着预期奖励的增加,参与者在给定的时间间隔内每秒完成更正确的反应(左),这反映了在正确试验中反应更快(右上),而总体准确性没有任何变化(右下)。(B)随着预期惩罚的增加,参与者在一段时间内每秒完成的试验更少,反映出更慢,更准确的反应。(C)漂移率随着预期奖励的增加而增加,而阈值随着预期惩罚的增加而增加。误差线反映 95% 的置信区间。编号: p>0.05;*: p<0.05;**: p<0.01;:p<0.001。
https://doi.org/10.1371/journal.pcbi.1009737.g006
当将研究2的数据与研究1中的最佳拟合模型拟合时,我们复制了该研究中观察到的规范预测解离。奖励对漂移率(p<0.001)和阈值(p = 0.013)产生了显着的正影响。惩罚对阈值(p = 0.008)施加了显着的正影响,但对漂移率(p = 0.47)没有产生显着的正影响。这些发现与奖励率优化模型的预测一致。
激励和试验一致性之间的相互作用
我们进行了一组探索性分析,以调查奖励和惩罚对任务绩效的影响是否取决于试验的一致性。在研究1中,我们发现奖励和惩罚对行为表现的主要影响在一致性和不一致性试验之间没有显着差异(ps>0.20;图7A和表2)。同样,对于研究2,我们没有发现奖励和试验一致性之间的显着相互作用(响应时间:F(2,246)= 1.32, p = 0.27;精度:奇斯奎(2)= 5.83, p = 0.054;图7B)或介于惩罚和审判一致性之间(反应时间:F(2,63)= 1.54, p = 0.22;精度:奇斯奎(2)= 5.03, p = 0.081;图7B)。有趣的是,使用DDM的随访分析揭示了两项研究中惩罚水平与漂移率一致性之间的显着相互作用,使得较高的惩罚增加了不一致性试验的漂移率,降低了一致性试验的漂移率(参见S1支持信息中的第1部分)。虽然很有趣,但鉴于这种特殊的相互作用不是先验预测的,并且在RT或准确性中没有可靠地观察到,因此应该谨慎解释这一发现。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 7.奖励和惩罚在一致和不一致的试验中的影响。
(A)与不协调刺激相比,参与者对一致刺激的反应更快,更准确。奖励和惩罚对响应时间和准确性的影响在研究1中一致和不一致的试验中是一致的。(B) 研究2重复了奖励和惩罚对一致性和不一致性试验的这些平行影响,仅为准确性而观察到激励和试验一致性之间的边际相互作用。
https://doi.org/10.1371/journal.pcbi.1009737.g007
讨论
我们研究了奖励与惩罚对认知控制分配的不同影响,以及这些激励相关控制调整的规范基础。参与者执行了一项自定进度的认知控制任务,该任务承诺为正确的反应提供金钱奖励,并因错误而惩罚金钱损失。我们发现,更高的潜在奖励导致更快但同样准确的响应(导致货币收入增加),而更高的潜在惩罚导致更准确但更慢的反应(因此获得更少的奖励,但避免了惩罚)。我们表明,这些与激励相关的绩效模式可以通过两种不同的策略(注意力强度与响应阈值的调整)来解释,这两种策略是响应这两种类型的激励的差异最优(即奖励率最大化)。
我们的研究结果建立在过去关于奖励率最大化的研究表明,人们灵活地招募认知控制,以最大化他们单位时间的主观奖励[30,31,35]。我们目前的实验以几个重要方式建立在这项研究的基础上。首先,我们将此奖励率优化模型应用于认知控制任务的自定进度变体中的性能。其次,我们对激励值进行建模和实验操作,以获得正确与不正确的响应。第三,我们将众所周知的认知努力成本[1,46]纳入奖励率优化模型(见下文)。最后,我们使用我们的模型对数据进行反向推理,确定在给定试验中产生绩效的激励的主观权重。
我们表明,阈值和漂移率的调整可以作为任务激励的函数而变化,从而推动认知控制的适应性调整。值得注意的是,要实现这一结果,我们需要建立漂移率增加会产生成本的假设,这一假设基于过去对精神努力的研究[1,33]。在没有这种成本的情况下,我们的奖励率模型预测个人应该在激励条件下保持最大漂移率,这与我们的发现不一致。然而,虽然我们已经排除了漂移率是无成本的可能性,但其成本函数的确切形式仍然是一个悬而未决的问题。后续模拟表明,我们假设的二次成本函数(由先前对认知努力折扣的研究[47,48]的动机)提供了比线性或指数替代方案更平滑的目标函数(S1支持信息中的图A3),但这三个成本函数都对我们当前的任务做出了定性相似的预测。我们还对成本函数是否以及如何应用于响应阈值的增加提出了悬而未决的问题。虽然有理由相信阈值调整可能会产生与注意力调整类似的努力成本,但部分考虑到它们共享的控制分配机制[2,32,34,49-51],阈值调整已经以速度 - 精度权衡的形式带来了固有的成本。因此,在当前的仿真中,并不绝对有必要为阈值添加额外的工作量成本(S1支持信息中的图A4),尽管这种成本可能会在不同的任务设计下提供额外的解释能力。未来的工作应该调查这些成本函数在这些和其他常见控制信号中的潜在差异。
虽然我们修改后的奖励率优化模型能够准确地表征奖励和惩罚激励如何影响我们任务中的认知控制分配,但关键的下一步将是检查这些发现推广到其他任务和激励方案的程度,并相应地完善模型。例如,除了测试不同控制成本函数的形式外,未来的工作还可以阐明人们在优化此奖励函数时如何贴现时间。我们的模型假设人们以乘法方式(即作为奖励的分母)对时间进行折扣,这是奖励率优化模型中的标准假设[31,38]。然而,我们不能排除另一种可能性,即它们反而加法地打折时间,正如将时间视为努力的机会成本的模型所假设的那样[35,52],因为这些模型可能会在我们当前的研究中对漂移和阈值优化做出类似的预测。识别和测试区分这些预测的任务对于弥合这两条研究线的价值,以便更好地理解工作量分配。
另一个悬而未决的问题是,人们是否根据这些激励措施是积极的还是消极的,以不同的方式权衡正确反应的激励措施。在我们的研究中,正确的反应只与潜在的奖励(正强化)相关,但我们模型的一个关键预测是,当正确的反应避免负面结果(负强化)时,人们应该以类似的方式调整他们的控制配置(即增加漂移率,降低阈值),尽管程度可能不同。因此,我们的方法为解开激励效价(积极与消极)和激励类型(强化与惩罚)在动机控制中的作用提供了希望[53]。
更一般地说,重要的是要测试其他认知控制任务中是否发生了类似的漂移和阈值调整,这些任务具有与此相似的结构,并将我们的优化方法扩展到需要不同形式的多变量控制配置的任务,例如在多个刺激或特征之间分配注意力[54,55].将这种方法的应用范围扩大到更广泛的控制信号,也将为理解人们如何在现实世界环境中的众多任务中分配认知努力提供关键的一步。沿着这些思路,我们当前方法的一个简化假设是,人们假设奖励率在给定的任务环境中是恒定的。虽然考虑到我们任务的参数(即,激励措施被明确提示和伪随机化),这个假设是合理的,但关键的下一步将是检查人们如何动态地重新配置控制,因为他们从反馈中了解到环境中的预期奖励和惩罚正在发生变化。研究表明,人们在决策任务[56]和认知控制任务[30,57]中动态调整他们的反应阈值,因为他们学会了期望更大的回报。这些认知控制调整如何随着奖励和惩罚的变化,以及个人特定的[58,59]和特定于上下文的[60]差异,在从这些积极和消极的结果中学习时,如何在阈值和漂移率上分布,还有待测试。
有趣的是,关于人们如何从积极与消极结果中学习的研究是,这些学习值也会对一个人对给定任务的信心产生差异,负面反馈导致一个人对感知和基于价值的选择任务的表现的信心降低[61,62] 鉴于信心和反应阈值调整之间分别得出的联系[63,[64],这些发现与我们自己的观察结果一致,即面对更高的预期惩罚,门槛会越来越高。因此,未来工作的一个重要方向将是研究与我们任务相关的元认知经验如何随着有经验的激励而变化,并可能用于调节随后的控制调整。
最后,我们的理论和实证相结合的方法使我们能够量化个体差异,即参与者如何仅根据其任务表现主观地评估预期的奖励和惩罚。我们发现,人们比奖励更重地权衡惩罚,尽管货币等值(即金钱收益与损失的金额)。这一发现与过去关于损失厌恶[44]和避免失败的动机[45,65]的工作一致,更一般地说,不同的神经回路专门用于处理开胃与厌恶的结果[66,67]。虽然我们估计这些个体差异的方法是探索性的,并且需要对不同的任务和激励计划(例如上面提到的那些)进行进一步的验证,但我们相信它有望理解人们在日常生活中成功和/或避免失败的动机如何变化[21,68–72 ].这种方法不仅可以帮助隐式地推断给定个体的这些敏感性参数(即,基于任务表现而不是自我报告),还可以为支持适应性控制调整的认知和计算机制提供有价值的见解,以及它们何时以及如何变得适应不良(例如,对于焦虑,抑郁或精神分裂症的个体)[73-78]。
材料和方法
道德声明
所有研究均由布朗大学机构审查委员会批准(批准号:1606001539)。参与者给予知情书面同意,并获得现金(3至6美元,取决于他们的表现和任务突发事件)参加。
参与者
研究 1.
我们通过亚马逊的Mechanical Turk在线收集了36名参与者。我们将样本限制为位于美国境内的参与者,但没有对人口统计数据(例如种族)施加任何其他限制。4名参与者被排除在外,因为他们没有正确理解任务(基于他们在说明后对测验问题的回答),或者平均准确率低于60%,平均反应时间超过所有参与者平均反应时间的3个标准差。其余32名受试者(性别:31%为女性;年龄:35±10岁)包含在我们所有的分析中。
研究 2.
我们通过亚马逊的Mechanical Turk在线收集了71名参与者。
6名参与者被排除在外,因为他们没有正确理解任务(基于他们在说明后对测验问题的回答),或者平均准确率低于60%,平均反应时间超过所有参与者平均反应时间的3个标准差。其余65名受试者(性别:45%为女性;年龄:38±9岁)包含在我们所有的分析中。
激励认知控制任务
研究 1.
我们设计了一项新任务来研究自定进度环境中的认知控制分配(图1)。在此任务期间,参与者被给予固定的时间间隔(例如,10秒)来执行认知要求很高的任务(Stroop任务),其中他们必须命名颜色单词的墨水颜色。在四种可能的颜色词("红色","黄色","绿色","蓝色")中有四种可能的墨水颜色(红色,黄色,绿色和蓝色)。参与者被指示按下对应于每个刺激的墨水颜色的键。墨水颜色可能与单词的含义一致(例如,蓝色)或不一致(例如,蓝色)。对不协调刺激的反应已被证明需要覆盖它们基于单词含义做出反应的更自动的倾向。一致性试验与不一致性试验的总体比例为1:1。参与者可以根据需要进行任意数量的Stroop试验,并且在每个间隔期间都能够进行,每次反应后立即出现新的试验。由于这种自定进度的设计,同余试验的比例可能因时间间隔而略有不同。为了阻止参与者制定试验计数策略(例如,旨在每个间隔完成10个响应),间隔的持续时间在整个会话期间有所不同(即,范围从8到12秒)。
参与者被告知,他们将获得正确回答的奖励,并因不正确的回答而受到惩罚。在每个间隔开始时,视觉提示表示与后续间隔中的反应相关的奖励和惩罚水平。我们在每个主题内对正确回答(+1美分或+10美分)的奖励和对错误回答(-1美分或-10美分)的惩罚各不相同,这导致了四个不同的条件(图1)。每个参与者在每个条件下执行20个间隔。主要任务分为4个区块。在每个区块中,一个激励在区间(例如,奖励级别)之间是固定的,而另一个激励(例如,惩罚级别)在区间内随机变化。固定的激励类型与变化的激励类型在实验中途交换。固定激励的顺序在参与者之间被抵消。在每个间隔期间,参与者可以根据需要完成任意数量的Stroop试验。在每次Stroop刺激下方,跟踪器都指示该间隔内累积的货币奖励金额。在每个间隔之后,参与者被告知他们赚了多少钱。为了确保每个间隔都是独立评估的,参与者被告知(真实地)主要任务的80个间隔中有8个是随机选择的,在这些选定的间隔内赚取的总金额将是他们最终付款的一部分。该实验是在PsiTurk框架[79]内实施的。
在主要任务之前,参与者进行了几次练习。首先,他们练习了键盘键和颜色之间的映射(80次试验)。然后他们完成了Stroop任务的练习(60次试验)。然后,参与者在自定进度设置(4个间隔)中练习Stroop任务。在最后的练习块中,参与者被引入视觉提示,并用这些视觉提示(12个间隔)练习自定进度的间隔。
研究 2.
与研究 1 相比,研究 2 中的任务具有相似的结构。任务之间的主要区别在于,奖励和惩罚的大小是从三个可能的水平(1美分,5美分和10美分)而不是研究1中的二进制级别中选择的,因此实验中存在9个不同的条件(3个级别的奖励,3个级别的惩罚,图6)。每个参与者在每个条件下执行8个间隔。鉴于本研究中每种激励类型有3个级别,主要任务分为6个区块(与研究1中的4个区块相比)。与研究1一样,在每个间隔开始之前提示该病症。
分析
研究 1.
通过这种范式,我们可以分析给定区间水平的性能,以及该区间内对单个Stroop刺激的反应水平。我们通过拟合线性混合模型(R中的lme4包;[80] 估计每秒的正确响应,作为对比编码的奖励和惩罚水平(高奖励 = 1,低奖励 = -1,高惩罚 = 1,低惩罚 = -1)以及它们的相互作用的函数。这些模型控制年龄、性别和同余刺激的比例,并使用具有最大指定随机效应的模型[81]。
为了理解激励效应对整体表现的影响是如何由对速度和准确性的影响组成的,我们分别将线性混合模型拟合到试验方面的反应时间(仅正确响应)和准确性,控制刺激的一致性。我们对拟合的混合模型进行了方差分析,以测试奖励和惩罚的整体效果。
我们使用漂移扩散模型(DDM)将参与者在任务中的反应参数化为一个噪声证据累积到两个边界之一(正确与错误)的过程。DDM是一种决策的机制模型,它将选择分解为一组组成过程(例如,证据积累和响应阈值),允许精确测量选择过程的不同组成部分(例如,RT和准确性)如何同时优化[37]。我们使用 HDDM 包 [43]对 DDM 参数执行分层拟合。在DDM模型中,漂移率和阈值取决于试验类型(一致或不一致),奖励水平和/或惩罚水平。漂移率和阈值预测变量的选择基于使用 DIC 的模型比较。我们将起点固定在两个边界之间的中点,因为之前没有对任务中特定响应的偏见。非决策时间被拟合为自由参数。
我们将认知控制的最佳分配描述为奖励率的最大化[31],并修改了努力成本。基于不同成本函数预测之间的定性比较(参见S1 支持信息中的第 2 部分),我们选择将这些成本函数表示为漂移率的二次函数,并假设阈值增加时不产生任何成本,但请注意,每个成本函数的替代格式都会生成定性相似的预测,用于我们所有的关键发现(请参阅S1 支持信息中的第 2 部分).利用努力折扣奖励率,通过数值识别不同奖惩下的最优漂移率和阈值,对激励对控制分配的影响进行预测。为了验证我们的规范预测,我们使用DDM[43]拟合了不同任务条件下的精度和RT,这使我们能够估计参与者的漂移率和阈值在不同级别的奖励和惩罚中如何变化。我们根据偏差信息准则(DIC;越低越好)进行模型比较,以确定行为数据的最佳模型。基于参与者认知控制分配优化奖励率的假设,我们从估计的漂移率和阈值推断出参与者的奖励和惩罚的主观权重。
研究 2.
我们对参与者的区间级表现进行了线性混合模型分析,奖励和惩罚水平用滑动差对比编码,因此两个对比代表两个连续奖励或惩罚水平(中 - 低,高 - 中)之间的差异。我们将线性混合模型分别拟合到试验方面的反应时间(仅正确响应)和准确性,控制刺激的一致性。
我们使用三级多项式对比编码将参与者的响应与DDM拟合,以获得激励效应对DDM参数的线性和非线性模式。然后将这些对比度中的系数转换回每个条件下的 DDM 参数。
支持信息
支持信息。
跳到无花果共享导航
支持信息1.DDM与激励和试验一致性之间的相互作用我们进行了有关添加的必要性的其他模型比较激励和试验类型之间的相互作用进入DDM分析(图A1A)。最好的一个包括漂移率和试验类型之间的相互作用门槛。当观察惩罚和试验类型之间的相互作用时,我们发现两项研究均对漂移率有显著影响。在研究1中,我们发现更高的惩罚在不协调的试验中增加漂移率,但在同余试验(图A1B)。漂移率的惩罚和一致性之间的相互作用在研究2中遵循研究1中的相同方向(图A1C-D)。1
图 A1.激励水平与试验相互作用的漂移扩散模型一致。基于DIC的模型比较表明,研究1的最佳模型包括漂移率和阈值的惩罚和试验类型之间的相互作用(一).研究1中按试验类型划分的惩罚效果估计值显示在(二).模型比较证实,研究2的最佳模型具有相同的结构(三).研究2中按试验类型划分的惩罚效果估计值显示在(四)。误差线反映 95% 的置信区间。*: p<0.05;:p<0.001。2
下载
无花果共享
S1 支持信息。支持信息。
S1支持信息中的图A1。激励水平与试验一致性相互作用的漂移扩散模型.S1 支持信息中的图 A2。不同奖励与最优漂移率的预测关系。S1 支持信息中的图 A3。预测的激励效应,有和没有阈值的努力成本。工作量成本的格式。S1 支持信息中的图 A4。图4B中最佳模型与包括非决策时间在内的模型之间的模型比较(研究1)。图 A5 S1 支持信息。DDM的后部预测性检查(研究1)。S1支持信息中的图A6。主观权重的参数恢复(研究1)。S1 中的图 A7 支持信息。在研究2中,经验观察了对DDM参数的激励效应的估计。S1 支持信息中的表 A1。每秒正确响应的混合模型结果(研究2)。S1 支持信息中的表 A2。对数变换反应时间和准确性的混合模型结果(研究2)。
https://doi.org/10.1371/journal.pcbi.1009737.s001
(文档)
引用
1.Shenhav A, Musslick S, Lieder F, Kool W, Griffiths TL, Cohen JD, et al.走向对精神努力的理性和机械化描述。Annu Rev Neurosci.2017;40: 99–124.pmid:28375769
查看文章PubMed/NCBI谷歌学术搜索
2.Shenhav A, Botvinick MM, Cohen JD.控制的预期值:前扣带皮层功能的综合理论。神经元。2013;79: 217–240.pmid:23889930
查看文章PubMed/NCBI谷歌学术搜索
3.勒温·人格的动态理论(DK Adams & KE Zener, Trans.)。美国纽约州纽约:麦格劳-希尔。1935.
4.Atkinson JW, Feather NT, Others.成就动机理论。威利纽约;1966.
5.Botvinick M,Braver T.动机和认知控制:从行为到神经机制。Annu Rev Psychol. 2015;66: 83–113.下午:25251491
查看文章PubMed/NCBI谷歌学术搜索
6.Wrosch C, Scheier MF, Carver CS, Schulz R.目标脱离在适应性自我调节中的重要性:当放弃是有益的。自我和身份。2003. 第1-20页.
查看文章谷歌学术搜索
7.Meyniel F, Sergent C, Rigoux L, Daunizeau J, Pessiglione M. 神经计算人类大脑如何决定何时休息。美国国家科学院院刊 2013;110: 2641–2646.pmid:23341598
查看文章PubMed/NCBI谷歌学术搜索
8.Yee DM, Braveer TS.动机和认知控制的相互作用。行为科学的当前观点。2018. 第83–90页.pmid:30035206
查看文章PubMed/NCBI谷歌学术搜索
9.帕罗C,迪克森ML,克里斯托夫K。动机影响认知控制的神经基础。嗡嗡脑马普。2018;39: 5097–5111.pmid:30120846
查看文章PubMed/NCBI谷歌学术搜索
10.Braver TS, Krug MK, Chiew KS, Kool W, Westbrook JA, Clement NJ, et al.动机机制——认知互动:挑战与机遇。Cogn 影响行为神经学。2014;14: 443–472.下午:24920442
查看文章PubMed/NCBI谷歌学术搜索
11.克雷布斯RM,Boehler CN,Woldorff MG。奖励关联对斯特鲁普任务中冲突处理的影响。认识。2010;117: 341–347.下午:20864094
查看文章PubMed/NCBI谷歌学术搜索
12.冷却 R。动态认知控制的多巴胺的成本。行为科学的当前观点。2015;4: 152–159.
查看文章谷歌学术搜索
13.Vassena E,Silvetti M,Boehler CN,Achten E,Fias W,Verguts T.重叠的神经系统代表认知努力和奖励预期。PLoS One.2014;9: e91008.pmid:24608867
查看文章PubMed/NCBI谷歌学术搜索
14.Padmala S,Pessoa L. Reward通过增强注意力控制和偏置视觉皮层处理来减少冲突。J Cogn Neurosci.2011;23: 3419–3432.pmid:21452938
查看文章PubMed/NCBI谷歌学术搜索
15.Chiew KS, Braveer TS.奖励有利于有准备的人:激励和任务信息线索相互作用,以增强注意力控制。J Exp Psychol Hum Percept Perform.2016;42: 52–66.pmid:26322689
查看文章PubMed/NCBI谷歌学术搜索
16.赫弗 C, 德赖斯巴赫 G.绩效或有回报的前景如何调节认知控制:以降低灵活性为代价增加线索维护。J Exp Psychol Learn Mem Cogn. 2017;43: 1643–1658.下午:28287763
查看文章PubMed/NCBI谷歌学术搜索
17.Fr?mer R,Lin H,Dean Wolf CK,Inzlicht M,Shenhav A.对奖励和功效的期望指导认知控制分配。纳特公社。2021;12: 1030.pmid:33589626
查看文章PubMed/NCBI谷歌学术搜索
18.Cubillo A, Makwana AB, Hare TA.通过金钱奖励和惩罚对认知控制网络进行差分调制。Soc Cogn Affect Neurosci.2019;14: 305–317.pmid:30690563
查看文章PubMed/NCBI谷歌学术搜索
19.Yamaguchi M,Nishimura A.通过奖励调节主动认知控制:绩效或有和非或有奖励的差异预期效应。心理研究. 2019;83: 258–274.下午:29855699
查看文章PubMed/NCBI谷歌学术搜索
20.Yee DM, Krug MK, Allen AZ, Braver TS.人类整合货币和液体激励来激励认知任务绩效。Front Psychol. 2016;6: 2037.pmid:26834668
查看文章PubMed/NCBI谷歌学术搜索
21.Braem S,Duthoo W,Notebaert W.惩罚敏感性预测惩罚对认知控制的影响。PLoS One.2013;8: e74106.下午:24058520
查看文章PubMed/NCBI谷歌学术搜索
22.Yee DM, Crawford JL, Lamichhane B, Braveer TS.背前扣带皮层编码认知任务绩效的综合激励激励激励价值。J 神经科学.2021;41: 3707–3720.pmid:33707296
查看文章PubMed/NCBI谷歌学术搜索
23.教会RM.惩罚对行为的不同影响。心理修订版 1963;70: 369–402.下午:14049776
查看文章PubMed/NCBI谷歌学术搜索
24.van Veen V, Krug MK, Carter CS.任务执行期间受控速度-精度权衡的神经和计算基础。J Cogn Neurosci.2008;20: 1952–1965.下午:18416686
查看文章PubMed/NCBI谷歌学术搜索
25.Danielmeier C, Ullsperger M. 误差后调整。前线心理. 2011;2: 233.pmid:21954390
查看文章PubMed/NCBI谷歌学术搜索
26.Ritz H, DeGutis J, Frank MJ, Esterman M, Shenhav A.动机和发展对持续注意力的影响的证据积累模型。认知科学学会第42届年会。2020.
查看文章谷歌学术搜索
27.Ritz H,Shenhav A.干扰注意力的参数控制。认知科学学会第41届年会。2019.
查看文章谷歌学术搜索
28.Niv Y,Daw ND,Joel D,Dayan P.滋补性多巴胺:机会成本和反应活力的控制。精神药理学。2007;191: 507–520.pmid:17031711
查看文章PubMed/NCBI谷歌学术搜索
29.Boureau Y-L,Dayan P. Opponency重新审视:多巴胺和血清素之间的竞争与合作。神经精神药理学。2011;36: 74–97.pmid:20881948
查看文章PubMed/NCBI谷歌学术搜索
30.奥托 AR, 道恩德.时间的机会成本调节了认知努力。神经心理学。2019;123: 92–105.pmid:29750987
查看文章PubMed/NCBI谷歌学术搜索
31.Bogacz R, Brown E, Moehlis J, Holmes P, Cohen JD.最优决策的物理学:对两种选择强制选择任务中绩效模型的正式分析。Psychol Rev. 2006;113: 700–765.pmid:17014301
查看文章PubMed/NCBI谷歌学术搜索
32.Shenhav A, Cohen JD, Botvinick MM. 背前扣带皮层及控制价值.Nat Neurosci.2016;19: 1286–1291.pmid:27669989
查看文章PubMed/NCBI谷歌学术搜索
33.Manohar SG, Chong TT-J, Apps MAJ, Batla A, Stamelou M, Jarman PR, et al. Reward 支付了在运动和认知控制方面降噪的成本。Curr Biol. 2015;25: 1707–1716.pmid:26096975
查看文章PubMed/NCBI谷歌学术搜索
34.Musslick S, Shenhav A, Botvinick MM, Cohen JD.基于预期控制值的控制分配计算模型。第二届强化学习与决策多学科会议。2015.
查看文章谷歌学术搜索
35.Lieder F, Shenhav A, Musslick S, Griffiths TL.理性元推理和认知控制的可塑性。PLoS Comput Biol. 2018;14: e1006043.下午:29694347
查看文章PubMed/NCBI谷歌学术搜索
36.Schmidt L,Lebreton M,Cléry-Melin M-L,Daunizeau J,Pessiglione M.精神与体力努力动机背后的神经机制。PLoS Biol. 2012;10: e1001266.pmid:22363208
查看文章PubMed/NCBI谷歌学术搜索
37.拉特克利夫 R, 麦昆 G.扩散决策模型:二选决策任务的理论和数据。神经计算。2008;20: 873–922.pmid:18085991
查看文章PubMed/NCBI谷歌学术搜索
38.Simen P, Contreras D, Buck C, Hu P, Holmes P, Cohen JD.双择决策中的奖励率优化:理论预测的实证检验。J Exp Psychol Hum Percept Perform.2009;35: 1865–1897.pmid:19968441
查看文章PubMed/NCBI谷歌学术搜索
39.克鲁格PM,范武格特MK,西门P,奈斯特罗姆L,福尔摩斯P,科恩JD。使用缓慢的感知决策在BOLD信号中检测到的证据积累。J 神经科学方法。2017;281: 21–32.pmid:28131862
查看文章PubMed/NCBI谷歌学术搜索
40.科恩JD,邓巴K,麦克莱兰JL。关于自动过程的控制:一个并行分布式处理的Stroop效应。Psychol Rev. 1990;97: 332–361.pmid:2200075
查看文章PubMed/NCBI谷歌学术搜索
41.Bugg JM.认知控制的解离水平:斯特鲁普干扰的案例。Curr Dir Psychol Sci. 2012;21: 302–309.
查看文章谷歌学术搜索
42.Diedrichsen J, Shadmehr R, Ivry RB.运动的协调:最佳反馈控制及其他。趋势认知科学. 2010;14: 31–39.pmid:20005767
查看文章PubMed/NCBI谷歌学术搜索
43.Wiecki TV, Sofer I, Frank MJ.HDDM:Python中漂移扩散模型的分层贝叶斯估计。前神经信息。2013;7: 14.下午:23935581
查看文章PubMed/NCBI谷歌学术搜索
44.Kahneman D,Tversky A.前景理论:风险下的决策分析。计量经济学。1979;47: 263–291.
查看文章谷歌学术搜索
45.Hajcak G, Foti D. Errors Are Aversive.心理科学。2008. 第103–108页.pmid:18271855
查看文章PubMed/NCBI谷歌学术搜索
46.威斯布鲁克A,凯斯特D,勇敢的TS。认知努力的主观成本是多少?经济偏好揭示的负荷,特征和衰老效应。PLoS One.2013;8: e68210.pmid:23894295
查看文章PubMed/NCBI谷歌学术搜索
47.威斯布鲁克A,勇敢的TS。认知努力:一种神经经济学方法。Cogn 影响行为神经学。2015;15: 395–415.pmid:25673005
查看文章PubMed/NCBI谷歌学术搜索
48.Crawford JL, Eisenstein SA, Peelle JE, Braver TS.领域一般认知动机:来自经济决策的证据。Cogn Res Princ Implic.2021;6: 4.pmid:33538943
查看文章PubMed/NCBI谷歌学术搜索
49.Danielmeier C,Eichele T,Forstmann BU,Tittgemeyer M,Ullsperger M.后内侧额叶皮层活动预测与任务相关的视觉和运动区域的错误后适应。J 神经科学.2011;31: 1780–1789.pmid:21289188
查看文章PubMed/NCBI谷歌学术搜索
50.King JA,Korb FM,von Cramon DY,Ullsperger M.通过激活和抑制与任务相关和与任务无关的信息处理来促进错误后的行为调整。J 神经科学.2010;30: 12759–12769.下午:20861380
查看文章PubMed/NCBI谷歌学术搜索
51.van Maanen L, Brown SD, Eichele T, Wagenmakers E-J, Ho T, Serences J, et al. 试验间反应波动的神经相关性 反应警告.J 神经科学.2011. 第17488–17495页.pmid:22131410
查看文章PubMed/NCBI谷歌学术搜索
52.Kurzban R, Duckworth A, Kable JW, Myers J.主观努力和任务绩效的机会成本模型。行为脑科学. 2013;36: 661–679.下午:24304775
查看文章PubMed/NCBI谷歌学术搜索
53.Yee D, Leng X, Shenhav A, Braver T. 厌恶动机和认知控制。神经科学和生物行为评论。2021. pmid:34910931
查看文章PubMed/NCBI谷歌学术搜索
54.Ritz H, Leng X, Shenhav A. 认知控制作为多变量优化问题.arXiv [q-bio.NC]。2021. http://arxiv.org/abs/2110.00668
查看文章谷歌学术搜索
55.Ritz H,Shenhav A.人类重新配置目标和干扰器处理,以满足不同的任务需求。生物Rxiv.2021. https://www.biorxiv.org/content/10.1101/2021.09.08.459546.abstract
查看文章谷歌学术搜索
56.Fontanesi L, Gluth S, Spektor MS, Rieskamp J.一种基于价值的决策强化学习扩散决策模型。Psychon Bull Rev. 2019;26: 1099–1121.下午:30924057
查看文章PubMed/NCBI谷歌学术搜索
57.Devine S,Neumann C,Otto AR,Bolenz F,Reiter AMF,Eppinger B.抓住机会:时间的机会成本对认知控制的影响的寿命差异。PsyArXiv.2021. pmid:34384965
查看文章PubMed/NCBI谷歌学术搜索
58.Rosenbaum G,Grassie H,Hartley CA.强化学习中的Valence偏倚在青春期转移并调节随后的记忆。PsyArXiv.2020.
查看文章谷歌学术搜索
59.Raab HA,Hartley CA.青少年表现出对乐器学习的巴甫洛夫偏见减少。科学代表2020;10:15770。pmid:32978451
查看文章PubMed/NCBI谷歌学术搜索
60.Palminteri S,Lebreton M.人类强化学习中的上下文相关结果编码。Curr Opin Behav Sci. 2021;41: 144–151.
查看文章谷歌学术搜索
61.Lebreton M, Langdon S, Slieker MJ, Nooitgedacht JS, Goudriaan AE, Denys D, et al.同一枚硬币的两面:货币激励同时改善和偏见信心判断。科学技术 2018;4: eaaq0668.pmid:29854944
查看文章PubMed/NCBI谷歌学术搜索
62.Lebreton M, Bacily K, Palminteri S, Engelmann JB.情境对人类强化学习中信心判断的影响。PLoS Comput Biol. 2019;15: e1006973.pmid:30958826
查看文章PubMed/NCBI谷歌学术搜索
63.Boldt A, Schiffer A-M, Waszak F, Yeung N. 置信度预测影响感知决策中的表现置信度和神经准备。科学代表 2019;9: 4031.pmid:30858436
查看文章PubMed/NCBI谷歌学术搜索
64.Desender K, Boldt A, Verguts T, Donner TH.置信度预测了后续决策的速度-准确性权衡。埃利夫。2019;8.pmid:31429827
查看文章PubMed/NCBI谷歌学术搜索
65.阿特金森 JW.冒险行为的动机决定因素。Psychol Rev. 1957;64, Part 1: 359–372.下午:13505972
查看文章PubMed/NCBI谷歌学术搜索
66.Bissonette GB,Gentry RN,Padmala S,Pessoa L,Roesch MR.开胃和厌恶结果对大脑反应的影响:将动物和人类文献联系起来。前系统神经科学。2014;8: 24.pmid:24624062
查看文章PubMed/NCBI谷歌学术搜索
67.佩西廖内M,德尔加多先生。好的,坏的和大脑:决策背后的开胃和厌恶价值的神经相关性。Curr Opin Behav Sci. 2015;5: 78–84.pmid:31179377
查看文章PubMed/NCBI谷歌学术搜索
68.麦克诺顿N,格雷JA。行为抑制系统上的抗焦虑作用意味着多种类型的唤醒会导致焦虑。J 影响偏差。2000;61: 161–176.pmid:11163419
查看文章PubMed/NCBI谷歌学术搜索
69.Kim SH, Yoon H, Kim H, Hamann S. 奖励和回避学习期间对奖励和惩罚的敏感性以及神经活动的个体差异。Soc Cogn Affect Neurosci.2015;10: 1219–1227.pmid:25680989
查看文章PubMed/NCBI谷歌学术搜索
70.洛克 HS, 勇敢 TS.动机对认知控制的影响:行为、大脑激活和个体差异。Cogn 影响行为神经学。2008;8: 99–112.pmid:18405050
查看文章PubMed/NCBI谷歌学术搜索
71.Frob?se MI,Swart JC,Cook JL,Geurts DEM,den Ouden HEM,Cools R. 儿茶酚胺能调节的避免认知控制。实验心理学杂志:一般。2018. 第1763–1781页.pmid:30507233
查看文章PubMed/NCBI谷歌学术搜索
72.Boksem MAS,Tops M,Wester AE,Meijman TF,Lorist MM.与错误相关的ERP组件以及惩罚和奖励敏感性的个体差异。脑研究 2006;1101: 92–101.pmid:16784728
查看文章PubMed/NCBI谷歌学术搜索
73.Cavanagh JF, Shackman AJ.额叶中线θ反映了焦虑和认知控制:元分析证据。J Physiol Paris.2015;109: 3–15.pmid:24787485
查看文章PubMed/NCBI谷歌学术搜索
74.Grahek I, Shenhav A, Musslick S, Krebs RM, Koster EHW.抑郁症中的动机和认知控制。Neurosci Biobehav Rev. 2019;102: 371–381.pmid:31047891
查看文章PubMed/NCBI谷歌学术搜索
75.保卢斯议员。抑郁和焦虑中的认知控制:失控?行为科学的当前观点。2015;1: 113–120.
查看文章谷歌学术搜索
76.黄海,莫夫兰J,保卢斯议员,哈勒KM。抑郁症对认知控制的影响:消除歧义的方法和回避倾向。PLoS One.2015;10: e0143714.pmid:26605795
查看文章PubMed/NCBI谷歌学术搜索
77.Joormann J,Vanderlind WM.抑郁症中的情绪调节:偏倚认知和减少认知控制的作用。临床心理学科学. 2014;2: 402–421.
查看文章谷歌学术搜索
78.巴克DM,谢菲尔德JM。精神分裂症的认知控制:心理和神经机制。在:埃格纳T,编辑。The Wiley Handbook of Cognitive Control,第2017页。第556-580页。
查看文章谷歌学术搜索
79.Gureckis TM, Martin J, McDonnell J, Rich AS, Markant D, Coenen A, et al. psiTurk: 一个用于在线进行可复制行为实验的开源框架。行为方法。2016;48: 829–842.下午:26428910
查看文章PubMed/NCBI谷歌学术搜索
80.Bates D, M?chler M, Bolker B, Walker S. 使用 lme4 拟合线性混合效应模型。统计软件杂志,文章。2015;67: 1–48.
查看文章谷歌学术搜索
81.Barr DJ, Levy R, Scheepers C, Tily HJ.用于验证性假设检验的随机效应结构:保持最大值。J Mem Lang. 2013;68.pmid:24403724
查看文章PubMed/NCBI谷歌学术搜索