免费医学论文-初始期望对学习不对称的阴影效应
抽象
积极和乐观偏见的证据在高层次的信念更新中比比皆是。然而,关于学习不对称是否存在于强化学习(RL)等更基本的更新形式,尚未达成共识。在RL中,学习不对称性涉及将正负预测误差(PE)纳入价值估计的灵敏度差异,即与正负PE相关的学习率不对称。尽管强化学习已被确立为表征智能体与环境之间相互作用的规范框架,但学习不对称的方向仍然存在争议。在这里,我们认为部分争议源于这样一个事实,即人们在进入学习环境之前可能有不同的价值期望。这种默认值期望会影响PE的计算方式,从而影响受试者的选择。我们在两个具有稳定或变化强化概率的学习实验中测试了这一假设,跨越货币收益、损失和损益混合环境。我们的结果一致支持包含不对称学习率和初始值期望的模型,突出了初始期望在价值更新和选择偏好中的作用。进一步的仿真和模型参数恢复分析证实了初始值期望在访问学习率不对称方面的独特贡献。
作者摘要
虽然强化学习模型长期以来一直用于表征学习行为,其中价值更新是学习过程的核心,但在从正负 PE 更新时,学习是否以及如何有偏差仍然存在争议。在这里,通过模型比较、模拟和恢复分析,我们表明,准确识别学习不对称性取决于在货币收益和损失环境中考虑受试者的默认值期望。我们的研究结果强调了初始期望规范的重要性,特别是在调查学习不对称性的研究中。
数字
Fig 7图1图2Fig 3Fig 4Fig 5Fig 6Fig 7图1图2Fig 3
引文: 倪萍, 孙军, 李军 (2023) 初始期望对学习不对称的阴影效应。公共科学图书馆计算生物学19(7): e1010751. https://doi.org/10.1371/journal.pcbi.1010751
编辑 器: Blake A. Richards,加拿大麦吉尔大学
收到: 21月 2022, 4;接受: 七月 2023, 24;发表: 2023月 <>, <>
版权所有: ? 2023 倪等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 用于运行模型拟合和绘图的所有数据和代码都可以在 https://osf.io/pc8qa/ 上找到。
资金: JL得到了国家自然科学基金(31871140,32071090)(网址:https://www.nsfc.gov.cn/),国家科技创新2030重大计划(编号:2021ZD0203702)(网址:https://service.most.gov.cn/xmtj/)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
在与不确定环境的互动中,人类通过试错来学习,将反馈纳入现有的信念中,以积累奖励并避免惩罚,正如强化学习(RL)理论所规定的那样[1]。当一个操作导致的结果好于预期并产生积极的预测误差时,这样的操作往往会重复。相反,如果一个动作之后的结果比预期差(负预测误差),则重复该动作的趋势就会降低。早期的强化学习模型通常假设人们对正负预测误差的敏感性(学习率)是相同的(对称的)[1-3]。然而,最近开始出现证据表明,积极和消极结果的影响可能不同[4-9],不同的神经回路可能不利于从正负预测误差中学习[10,11]。
令人惊讶的是,关于学习不对称的方向还没有达成共识。在高层次和与自我相关的信念更新案例中,人们倾向于高估积极事件的可能性,而低估消极事件的可能性,这种偏见被称为不切实际的乐观主义,以维持自私的心理状态[12-16]。例如,当面对有关不良生活事件的新信息时,参与者更新他们的信念,以响应期望的信息(优于预期)而不是对不良信息(低于预期)的反应[5,17-18](但也参见[19,20])。然而,在更基本的更新形式(如RL)中,学习不对称的结果相当复杂。虽然一些使用标准RL范式的研究发现,人类的正学习率大于负学习率,从而产生了乐观的强化学习偏倚[4,16,21]。然而,其他研究也获得了相反的结果,负学习率更大[6,7,22],这与普遍存在的心理现象“坏大于好”一致[23]。
我们假设,先前文献中的部分差异源于一个通常不太被理解的事实,即初始值或默认值期望(Q0在Q学习框架中)在确定学习不对称的方向方面起着关键作用。在标准的双臂老虎机RL范式中,动作值由学习率(α)和PE(δ的乘积更新t),即获得的奖励(Rt) 和操作值 (Qt?1) 特定试验 t 的先前试验。直观地,设置初始操作值 Q0将直接影响PE的计算[24]。例如,假设二元强化结构,在赋予的初始操作值高于所选选项的真实值的情况下,则原始正预测误差被缩小,负预测误差被放大。PE的失真只能通过在相反方向上缩放学习率来平衡,以实现与RL框架下相同的操作值更新量(α?δ)。因此,它在学习率中产生了表面上的正偏差(正学习率似乎大于负学习率)。相反,如果初始操作值被错误地指定为低于真实操作值,则学习率可能会出现负面偏差。然而,最近的大多数研究都只关注学习率在表征参与者学习行为中的作用,并考虑了Q0作为一个平凡的初始化参数,因为人们相信初始期望的影响会在足够的学习试验后被“洗掉”。事实上,虽然一些研究初始化了Q0为零,可能反映了参与者在完成任务之前没有关于选项的信息[6-8,21,25];其他研究采用可能选项结局的中值或平均值作为Q0,对应于以相等概率获得不同结果的先验期望[4,26–28]。只有有限数量的研究测试了Q0被视为自由参数[29,30]。
但是,初始期望可能存在显着的个体差异。这种初始期望可能反映了参与者在任务中携带的内在动机或反应活力[31,32]。此外,最初的期望可能容易受到指令或上下文线索的影响,这可能会对参与者的选择行为产生重大影响[29,32-34]。此外,与标准观点相反,由于选择选择和行动价值更新之间错综复杂的相互作用,初始价值期望可能会对后续选择行为产生长期影响。例如,如果与特定选项的交互由于初始操作值 (Q0)规范,则选择较低值选项的可能性较小,因此更难了解该选项的真正值 [6]。因此,不考虑初始期望的强化学习模型可能会通过偏向对潜在学习率的估计,将选择行为的方差归因于错误的原因。
为了验证这一假设,我们进行了两个实验,要求受试者在稳定(固定概率,实验1)和变化(随机游走,实验2)概率环境中的两个部分强化选项之间进行选择。两组受试者反复从具有概率二元奖励结果的选项对中进行选择,以获得金钱奖励,避免损失,或两者兼而有之。我们针对参与者的行为测试了RL模型的不同变体,重点是学习不对称性和初始期望。模型比较结果表明,具有不对称学习率和个性化初始期望的RL模型在解释实验1和2中参与者的行为数据方面表现最好。进一步的模拟和恢复分析证实了我们的结果,并通过省略最初的期望证明了对学习不对称的特征影响。
结果
逻辑回归和计算模型
1名受试者(一名受试者因技术问题被排除在外)参加了实验1,他们被要求从一对选项(用不同的视觉刺激表示)中进行选择,这些选项以固定概率部分加强(图1A)。实验40由两个条件(货币收益和损失)组成,每个条件由四对选项组成,它们的赢(收益)或输(损失)概率分别为60-25%,75-25%,25-75%和75-32%。每对选项被分组到一个小块中,由<>个试验组成。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 实验1的实验设计和计算模型(稳定概率)。
(一)实验1的试验程序。在每项试验中,参与者在两个选项之间进行选择,每个选项都以固定的概率部分加强。(B) 分层贝叶斯建模过程假设参数集 {Q0、αP、αN,参与者 i (i∈{1,...,N}) 的 β} 是从 中转换而来的 Φ,而 又是从超分布中提取的样本(参见方法)。Ci,t, ri,t是参与者 I 的选择和在试验 T (t∈{1,...,T} 中获得的奖励)。(三)模型对比结果。在贝叶斯模型比较中,每个候选模型的偏差信息准则(DIC)用于生成受保护的超标概率(PXP),该指数指示特定模型在候选模型中最佳的概率。在所有考虑的模型中,模型A-VI的表现优于其他模型,PXP>0.99。
https://doi.org/10.1371/journal.pcbi.1010751.g001
混合效应逻辑回归分析(R v4.4.2 [2]中的lme35包)表明,受试者的选择对过去的奖励历史敏感(停留概率的最后试验结果:β = 0.958,p < 0.001),表明受试者确实关注任务并通过试错法学习。在试验中,在增益和损失条件下,正确选择的比例都有所增加,25-75%的正确选择率高于40-60%模块(p值<0.001,S1A和S1B图)。为了检验我们关于学习不对称性和初始期望的假设,我们使用标准Q学习模型拟合数据,假设具有特殊初始期望的正负预测误差的学习率不同(模型A-VI)。我们还拟合了该模型的三个变体,一个具有非对称学习率和固定初始期望(A-FI,在增益、损失和混合条件下的初始期望分别为 0.5、-0.5 和 0,有关模型详细信息,请参见 S1 表),另一个具有对称学习率和个性化初始期望 (S-VI),最后具有对称学习率和固定初始期望和 (S-FI)。我们使用贝叶斯分层建模过程来拟合数据(图1B,参见方法)。然后使用偏差信息准则(DIC)在候选模型中进行贝叶斯模型选择。受保护的超越概率(PXP,特定模型在人群中比所考虑的所有其他模型更频繁的概率的模型比较指数[36,37])表明A-VI模型在解释受试者的选择行为方面表现最佳(图1C,S1和S2 表)。当A-FI和S-FI模型被赋予初始期望时,也获得了类似的模型比较结果(Q0) 的 0(S1 表)。
包含初始期望揭示的学习不对称性
由于大多数以前研究学习不对称性的文献都没有考虑初始期望可能因受试者而异的可能性,因此我们专门研究了从A-VI和A-FI模型估计的学习率差异。我们发现这两个模型提出的学习不对称方向是不同的。根据A-FI模型,在两种条件下,正学习率和负学习率没有显著差异(图2A,增益和损失条件的p = 0.265和p = 0.506,配对t检验)。然而,在结合初始期望(A-VI模型)后,在增益和损失(图2B,p值<0.001,配对t检验)条件下都显示出负的学习不对称性。重要的是,学习率与初始期望之间没有显着相关性(Q0),在增益或损失条件(A-VI 模型)中,表明 Q 的独立贡献0以及解释不同学科选择差异的学习率(S2图;r = -0.120, p = 0.550 之间的 Q0 & αP; r = 0.235, p = 0.237 之间 Q0 & αN在增益条件下;r = 0.017, p = 0.935 之间的 Q0 & αP, r = 0.362, p = 0.064 之间的 Q0 & αN,在损失条件下)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 实验1的模型拟合结果。
(A-B)A-FI(A)和A-VI模型(B)的增益和损失条件的估计学习率。积极的 (αP) 和负数 (αN) 学习率用红色和蓝色表示,空圆圈和垂直线表示各学科学习率的中位数和平均值。(中四)α的显著相关性P和αN在A-FI和A-VI之间观察到。增益 (C) 和损耗 (D) 条件下的模型。(E)首选缓解率(PRR)与Q之间没有显著相关性0在增益条件的 25–25% 块中。(F) 然而,在增益条件的 75-75% 块中观察到很强的相关性,其中个体与真实 Q 之间存在显着不匹配0(0.75)的块。(G-H)Q 之间的相关结果模式相似0和损失条件的 25-25% (G) 和 75-75% (H) 块中的 PRR。星号 (***) 表示 p < 0.001(配对 t 检验),n.s. 表示无统计学意义 (p > 0.05)。
https://doi.org/10.1371/journal.pcbi.1010751.g002
尽管通过考虑个体Q来学习不对称反转0然而,在A-VI模型中,仔细检查从A-VI和A-FI模型估计的学习率,发现了有趣的相关性。确实,αP和αN与两个模型之间的对应物密切相关,两个增益(αP: r = 0.958, p < 0.001;αN: r = 0.937, p < 0.001;图2C)和损失条件 (αP: r = 0.832, p < 0.001;αN: r = 0.959, p < 0.001;图2D),表明学习率(正或负)的个体差异的相对排名在A-VI和A-FI模型中都保留得很好。
在实验1中,我们还纳入了25-25%和75-75%的块,根据以前的文献,这些块可能为支持乐观RL假设提供关键证据,而不是对称学习替代方案[4,24,28]。我们还测试了这些假设,发现“首选反应”率(PRR)与Q相关,该术语定义为受试者最常选择的选项的选择率,可能反映了高估某些期权价值的倾向。0.更具体地说,PRR仅与Q0在 75–75% 增益条件下 (r = -0.598, p = 0.001;图2F)和 25–25% 损失条件 (r = -0.398, p = 0.04;图2G)参与者的平均Q之间存在相当大的不匹配0(平均值±s.d.:在增益和损失条件下为 0.171±0.074 和 -0.817±0.034)和真实作用值(在 0-75% 增益模块中分别为 75.75,在 0-25% 损失模块中分别为 -25.25),表明 PRR 可能由相当不准确的初始预期驱动。事实上,当最初的预期接近真实的期权值(25-25%的收益和75-75%的损失)时,没有观察到这种相关性(图2E,r = -0.263,p = 0.185,在25-25%的收益中;图 2H, r = -0.267, p = 0.178 在 75–75% 的损失中)。这些结果表明,个体与真实Q之间的差异大小0可能是个体 Q 之间关联的基础0和蓝耳病(图2E-2H)。
模型仿真和参数恢复
为了全面研究初始期望对学习率估计的影响,我们进一步进行了模型模拟分析。我们系统地改变了初始期望的水平(Q0= 0, 0.25, 0.5, 0.75, 1) 以及正学习率和负学习率的不对称性 ((αP、αN) = (0.1, 0.7), (0.2, 0.6), (0.3, 0.5), (0.4, 0.4), (0.5, 0.3), (0.6, 0.2), (0.7, 0.1)) 使用A-VI模型模拟数据集。每个参数组合生成 30 个数据集,每个数据集由 30 个假设主题组成,总共产生 1050 (35 x 30) 个数据集。然后,我们将A-VI和A-FI模型的相同模型拟合过程应用于模拟数据集。
正如预期的那样,A-VI模型对所有参数组合的参数都进行了很好的恢复(图3A–3C,增益条件)。相反,当拟合时不考虑受试者之间的初始期望差异(A-FI,Q0= 0.5),正学习率和负学习率都显示出与其真实基础值的系统偏差(图3D和3E,增益条件)。更具体地说,当Q0<0.5,正学习率被高估,负学习率被低估;而当Q0>0.5.造成这种偏差的原因是,当真正的Q0偏离假设的 Q0(0.5),由初始期望的错误指定引起的预测误差只能通过重新调整学习率来吸收。进一步的学习率不对称分析证明了这种模式:学习率不对称(αP?αN) 被高估时的真实初始期望 Q0<0.5 且低估时 Q0>0.5(图3F,增益条件)。在损失条件中也发现了类似的结果(S3图)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 实验1增益条件的仿真和参数恢复。
使用正/负学习率和初始期望的不同组合模拟选择数据。然后通过A-VI(A-C)和A-FI(D-F)模型拟合模拟数据。A-VI模型忠实地检索了基础参数(A-C),而A-FI模型在参数恢复(D-F)方面显示出一致的偏差。在面板 (A-B) 和 (D-F) 中,不同颜色(灰色)线表示不同 Q 的学习率回收率0水平。在面板(C)中,每条灰线代表恢复的Q0通过分组α具有不同水平的学习率 (α)P和αN同级别一起。误差线表示模拟对象之间的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010751.g003
我们还直接检查了估计的学习不对称性与μ的后验分布δ,模拟数据的A-VI和A-FI模型中学习不对称的超参数(图1B)。对于基础参数的每个组合,估计μδ从30个数据集中汇集在一起,形成μ的后验分布δ (图 4,增益条件)。对于A-VI模型,所有Q水平的学习不对称性都得到了正确的恢复。0和学习率对(图4A,增益条件)。然而,对于A-FI模型,学习不对称性仅部分恢复(图4B,增益条件)。与上面提到的学习率估计偏差一致,当Q0<0.5,估计的正学习率趋于大于负学习率(即使真正学习率和负学习率相同,或者真正学习率小于负学习率)(图4B红色阴影区域)。同样,如果 Q0>0.5,估计的负学习率往往大于正学习率(图4B红色阴影区域)。在损失条件下获得了类似模式的结果(S4图)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 实验 1 增益条件的学习不对称的后验分布。
μ的后部分布δ,A-VI 模型 (A) 和 A-FI 模型 (B) 的负学习不对称的超均值。每个分布中的浅绿色表示正确识别学习不对称,而红色表示两种模型(A-VI 和 A-FI)的分类错误。
https://doi.org/10.1371/journal.pcbi.1010751.g004
初始期望效应对不稳定学习环境的推广
为了测试初始期望对选择行为的顽固效应,我们进一步收集了参与者在非稳定学习环境中的选择(实验2),其中选项强化(奖励或惩罚)概率在试验中逐渐演变(有边界的随机游走,见方法),学习序列比稳定环境长(图5A和5B).在这个实验中,我们还包括了混合价选项的另一个条件,其中选项的结果是正(+10分)或负(-10分)。30名受试者参加了这项实验。采用类似的模型拟合程序,模型对比分析发现,A-VI模型的性能优于其他99种备选模型,其保护超越概率大于9.5%(图5C)。同样,A-FI和A-VI模型产生了不同的学习率不对称性(图5D和0E)。虽然 A-FI 模型估计仅显示损失和混合条件下正学习率和负学习率之间存在显着的学习不对称(p 值< 001.0,配对 t 检验),但在增益条件下则没有(p = 161.5;图0D),A-VI模型在所有三种条件下均表现出一致的偏置学习模式,负学习率显著大于正学习率(所有p值s <001.5;图 5E)。这两个模型的估计学习率在所有三个条件下也显着相关(图5F-<>H;增益αP: r = 0.816, p < 0.001;增益αN: r = 0.916, p < 0.001;损失αP: r = 0.849, p < 0.001;损失αN: r = 0.828, p < 0.001;混合αP: r = 0.900, p < 0.001;混合αN: r = 0.919, p < 0.001)。有趣的是,与我们在实验 1 中发现的类似,初始值 (Q0),由A-VI模型估计的也聚集在Q值范围的下限附近(平均值±s.d.:增益为0.009±0.002,损失为-0.712±0.282,混合条件为-0.912±0.064)。同样,我们还在实验 2(图 6 和 7)中运行了模型模拟和参数恢复分析,结果证实,未指定初始期望会导致对正学习率和负学习率的偏差估计:αP被高估和低估时Q0分别小于或大于0.5(图6D)。αN然而,当Q0<0.5 并高估时 Q0>0.5(图6E)。α的区别P和αN主要是在Q0<0.5 且低估时 Q0>0.5(图6F)。最后,μ的后验分布δ在实验2中证实,在不同的Q0Q 时的水平0被视为单个参数(图7A),而学习不对称的错误规范将作为忽略初始期望的异质性的副产品而发生(图7B)。同样,在损失和混合条件(S5-S8图)中发现了类似的模拟结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 实验2的实验设计和建模结果。
(A)实验2的样本试验。参与者被要求在两台老虎机之间进行选择,以最大限度地提高他们的收益。(B)两台老虎机(紫色和橙色)的示例收益概率序列在试验中缓慢演变。(C)模型比较结果表明,A-VI模型优于其他候选模型。(D-E)在A-VI模型下,增益、损失和混合条件(E)观察到一致的学习不对称模式,但A-FI(D)模型则没有。(F-H)增益 (F)、损失 (G) 和混合条件 (H) 的 A-FI 和 A-VI 模型之间的学习率均呈正相关。星号 (***) 表示 p < 0.001(配对 t 检验),n.s. 表示无统计学意义 (p > 0.05)。
https://doi.org/10.1371/journal.pcbi.1010751.g005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 实验2增益条件的仿真和参数恢复。
使用正/负学习率和初始期望的不同组合模拟选择数据。然后将模拟数据与A-VI(A-C)和A-FI(D-F)模型拟合。A-VI模型忠实地检索了基础参数(A-C),而A-FI模型在参数恢复(D-F)方面显示出一致的偏差。在面板 (A-B) 和 (D-F) 中,不同颜色(灰色)线表示不同 Q 的学习率回收率0水平。在面板(C)中,每条灰线代表恢复的Q0通过分组α具有不同水平的学习率 (α)P和αN同级别一起。误差线表示模拟对象之间的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010751.g006
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图7. 实验 2 增益条件的学习不对称的后验分布。
μ的后部分布δ,A-VI 模型 (A) 和 A-FI 模型 (B) 的负学习不对称的超均值。每个分布中的浅绿色表示正确识别学习不对称,而红色表示两种模型(A-VI 和 A-FI)的分类错误。
https://doi.org/10.1371/journal.pcbi.1010751.g007
讨论
在这两个实验中,我们测试并验证了初始期望对参与者的选择行为有深远影响的假设,而不是一般假设,即通过足够的学习试验,初始期望的影响将被“冲淡”。有趣的是,因此,我们还发现,学习不对称(正学习率和负学习率)估计可能会一直有偏差,具体取决于假设的初始期望和真实的潜在初始期望之间的距离。我们在稳定(实验1)和缓慢进化的随机游走(实验2)概率RL环境中系统地测试了这些结果。对于这两个实验,具有不对称学习率和初始期望参数(A-VI)的模型最适合受试者的行为,这表明初始期望参数可以捕获受试者行为的额外方差,超出不对称学习可以解释的范围。同样,通过采用相同的建模方法,对先前研究数据的重新分析[4,28,30]也揭示了我们的模型的优越性能(A-VI,S9图),这表明这种学习不对称性可能会推广到其他学习环境。
以前的文献将状态或行动价值与心理机制联系起来,例如激励显著性,它将“喜欢”的对象或行为映射到“想要的”对象或行为[32]。这一系列研究强调了多巴胺在为状态或行动分配激励显著性方面所起的关键作用[38,39]。其他研究表明,这种价值期望也会影响自由操作行为中反应的强度或活力[31],可能随着强直多巴胺的进化。行动价值的动机特征表明,它不仅对产生PE至关重要,而且对于影响通过选择获得PE的方式也至关重要。例如,当受试者被赋予低期望开始增益任务并获得奖励时,相当大的正PE将推高所选选项的行动价值。因此,受试者更有可能坚持该选项,而错过了探索其他选项的机会。这确实是我们在实验1(图2E-2H)的等概率条件下观察到的:当受试者的初始期望(Q0) 与真实动作值基本偏差,Q 之间负相关0并观察到首选响应率(图2F和2G);然而,当单个Q0与真实动作值更一致(图2E和2H)。
值得指出的是,估计的初始动作值(Q0) 都低于两个实验的所有条件(收益、损失和混合)中任务选项的预期回报。这样的结果可能提示反应活力减弱或悲观判断偏差,这两者都与急性应激、焦虑和抑郁症状有关[40,41]。事实上,增强的Q值函数可以将响应活力(v)考虑在内,并将平均奖励率()视为机会成本。因此,新的Q值是根据平均速率和响应活力()的比值定义的,当响应活力较低时,Q值可能很小[31]。虽然这超出了目前研究的范围,但未来的研究需要测试活力、急性压力、焦虑和抑郁水平如何与不同成分相关(Q0和学习率)的RL[42,43]。
有趣的是,在消除最初期望的阴影效应后,两个实验的结果都揭示了学习中一致的消极偏见:人们从消极的PE中学习的速度比从积极的PE中学习得更快。该结果适用于价(增益、损失和混合)和期权强化概率结构(稳定和随机游走)。尽管最近对学习信念、价值观和群体印象更新的不对称感兴趣[4,5,16,24,44],但关于不对称的方向和程度仍然存在疑问。尽管开始出现支持阳性偏倚的证据(αP>αN从高级信念更新到更基本形式的更新,如RL [4,5,24],其他研究似乎支持消极偏倚(αP<αN)在学习中[6,7,22,45-47]。调和这种差异的一种可能性是考虑参与者对环境因果结构的信念。例如,研究表明,如果参与者推断经历的好(或坏)结果是由于隐藏的原因,而不是结果分布的先天不确定性,他们从这些结果中学到的东西会相对较少,从而产生推定的消极性(或积极性)偏见[16]。在这里,我们提出了另一种可能性:学习不对称估计可能会被参与者的初始期望所掩盖。事实上,计算建模分析可能会产生不同方向的学习不对称,这取决于默认Q的规范。0,即使学习实际上是对称的(图 3F 和 6F)。
还应该指出的是,在考虑初始期望之前和之后,各科目的学习率(正或负)的相对排名得到了很好的保留。事实上,两者的相关性分析αP和αN来自A-FI和A-VI模型的结果表明,在两个实验中,它们在不同条件下呈正相关(图2C,2D和5F-5H)。但是,当要对学习不对称性进行推论时,即比较αP和αN,最初期望的效果开始显现。先前的文献表明,响应自相关等其他因素也可能影响是否可以识别学习不对称性,并提出无模型方法来减轻估计偏差[48,49]。我们目前的研究通过证明包括初始期望的必要性来增加这一研究方向,以更好地表征受试者在不同学习环境(稳定和缓慢发展的强化概率)、不同结果效价(增益、损失或混合条件)和不同长度的学习序列(短或长)中的学习行为。
总之,在这里,我们证明了初始期望在各种学习环境中识别学习不对称性方面发挥着重要作用,并得到了计算建模、模型模拟和参数恢复分析的支持。我们的研究结果有助于为未来关于学习不对称性的研究铺平道路,这种不对称性与健康人群[15,50-52]以及精神和神经系统疾病患者的一系列学习和决策偏差有关[53,54]。
Methods
Ethics statement
The experiments had been approved by the Institutional Review Board of School of Psychological and Cognitive Sciences at Peking University. Formal informed verbal consent was obtained from all the subjects prior to the experiments.
Subjects
The study consisted of two experiments. 28 subjects participated in Experiment 1 (14 female; mean age 22.3 ± 3.2), of which one participant (male) was excluded from the analysis due to technical problems. 30 subjects participated in Experiment 2 (16 female; mean age 22.1 ± 2.4) and one participant (male) was excluded due to the exclusive selection of the same-side option on the computer screen during the experiment (97%).
Behavioral tasks
在每个实验中,受试者执行概率工具学习任务,他们在不同的视觉线索对之间进行选择,以获得金钱奖励或避免金钱损失。在实验1中,来自Agathodaemon字母表的字符被用作选项线索,并且它们的关联结果概率是平稳的。结果效价在两个条件下纵:在增益条件下,每个线索的可能结果要么增加 10 分,要么为零,而在损失条件下,结果要么损失 10 分,要么为零。在每个条件下,分别有四个概率对,分别为40/60%,25/75%,25/25%和75/75%。概率对被分组到迷你块中,每个迷你块有32个试验。迷你块之间至少有 5 秒的休息时间,条件之间至少有 20 秒的休息时间。每个小块的视觉线索和概率对序列在受试者之间随机分配。参与者在实验前使用不同的视觉线索和结果概率从两个练习小块(每个5个试验)开始。在实验结束时,参与者获得的积分使用固定比率转换为货币收益,参与者平均获得45日元。
在每个迷你块中,试验从计算机屏幕中央的注视十字架开始(1秒),然后呈现选项的视觉提示(最多3秒),在此期间,受试者需要通过按下键盘上的相应按钮来选择左侧或右侧选项。选项下方出现一个箭头,表示0.5秒(图1A),指示受试者做出选择后立即选择的选项,然后显示该试验的所选选项结果。如果受试者的反应快于3秒的时间限制,则剩余时间被添加到下一次试验的注视呈现持续时间中。如果在 3 秒响应时间窗口内没有做出选择,则会显示一条短信“请尽快回复”,持续 1.5 秒,受试者需要再次完成试验。
实验2的任务设计与实验1相似,要求受试者在两台老虎机之间进行选择。实验2(与实验1)的主要区别在于,选择结局概率遵循随机游走方案,而不是保持稳定[29,55]。在任务开始时,选项结果概率独立于边界为 [0.25, 0.75] 的均匀分布。每次试验后,通过增加或减去0.05,概率向上或向下,等似和独立地扩散。然后将更新的概率反射到边界[0.25,0.75]之外,以将其保持在范围内。我们测试了增益(+10分或0)、损失(-10分或0)和混合条件(+10或-10分)中的三种类型的结果价。每个条件包括从一对老虎机中进行选择以进行 100 次试验。随机选择老虎机的颜色,三个条件的顺序在受试者之间是平衡的。
计算模型
Q-learning算法已被广泛用于模拟受试者在学习过程中的逐次试验行为[1,56-58]。它假设受试者通过根据预测误差(δ)更新每个动作的期望值(Q值)来学习。在我们的研究中,我们允许正预测误差和负预测误差的学习率不同。每次试用 t 后,所选选项的值更新如下:
(1)
术语 rt?问t是预测误差 (δt) 在试验 t 中,我们设置奖励 rt= -1、0 和 1 分别表示 +10 分、0 和 -10 分。αP和αN是正学习率和负学习率,并限制在 [0, 1] 范围内。每个选项的初始期望,Q0,设置为自由参数,限制在该选项的最差和最佳结果之间的范围内。我们假设每个迷你区块中对这两个选项的初始期望对于每个人来说都是相同的。我们将该模型称为具有可变初始期望(A-VI)的非对称RL模型。
选择一个选项而不是另一个选项的概率由softmax函数描述,逆温度β限制在[0,20]内:
(2)
在这里,Qt(L)和 Qt(R)是试验 t 中左右选项的 Q 值。我们还考虑了RL的其他变体模型。第一个是A-FI,其中最初的预期Q0分别设置为增益、损失和混合条件(0.5、-0.5 和 0)中的平均结果,对应于获得任一结果的 50% 机会的初始预期(具有 Q 的 A-FI 模型0= 0 对于所有条件也进行了测试,请参阅 S1 和 S2 表)。第二个是S-VI,其中正预测误差和负预测误差的学习率相同(αP = αN).最后一个是 S-FI,正负预测误差和 Q 的学习率相同0设置为每个条件的平均结果(具有 Q 的 S-FI 模型0= 0 对于所有条件也进行了测试,请参阅 S1 和 S2 表)。
贝叶斯分层建模过程及模型比较
我们应用了贝叶斯分层建模程序来拟合模型。与传统的点估计方法(如最大似然法)相比,贝叶斯分层方法以相互约束的方式生成个体和群体水平参数的后验分布,以提供更稳定可靠的参数估计[59-61]。以A-VI模型为例(图1B),ri,t?1指受试者I在试验T?1和C中获得的结果i,t是审判T中受试者I的选择。使用Φ变换(标准正态分布的累积密度函数)对个体水平参数进行变换,以将参数值约束在其相应的边界内。为了直接捕捉学习率差异的影响[61,62],我们将负学习率建模为正学习率与负学习率和正学习率之差之和。具体来说,对于每个参数 θ (θ∈{Q0、αP, β}) 与 [θ最小, θ.max] 作为其边界,.参数 θ′ 取自具有平均μ的超正态分布θ′和标准差σθ′.一个正常的先验被分配给超均值μθ′~超标准差之前的 N(0, 2) 和半柯西σθ′~C(0, 5).负学习率被指定为 ,其中δ设置为与 θ′ 相同。三种备选模式以类似的方式作了具体规定。分别对来自不同结果价条件的数据进行建模。
模型拟合是使用 R (v4.2.2) 和 RStan (v2.21.2) 执行的。对于每个模型,在四个链中的每一个上烧入 6000 个样本后收集 4000 个样本,导致每个参数总共收集 24,000 个样本(代表相应参数的后验分布)。对于每个参数,我们通过丢弃每侧10%的样本来计算修整均值,以获得相应参数的鲁棒估计[63]。
给定参数样本,我们计算了每个模型的偏差信息准则(DIC),并使用它来比较候选模型的性能[13]。我们进一步计算了受保护的超越概率(PXP),根据组级贝叶斯模型选择方法,索引特定模型在候选模型中最好的概率,以确定最佳模型[36,37]。
模型仿真和参数恢复
为了测试结果的稳健性,我们进行了全面的参数恢复分析。对于每个任务(稳定或随机游走概率方案),我们使用具有不同初始期望水平和不同学习率水平的最佳表现模型(A-VI 模型)生成假设选择。我们分别测试了实验3的增益(图4和图3)和损失(S4和S1)条件的参数恢复,以及实验6的增益(图7和5)、损失(S6和S7图)和混合(S8和S2图)条件的参数恢复。例如,我们考虑了初始期望(Q0)和七对[(0.1,0.7),(0.2,0.6),(0.3,0.5),(0.4,0.4),(0.5,0.3),(0.6,0.2)和(0.7,0.1)]的正和负学习率(αP、αN),以大致匹配我们在两个实验中观察到的增益条件的学习率范围(图 2A、2B、5D 和 5E)。对于初始期望和学习率的每个组合,我们模拟了 30 个数据集,总共 1050 (35 x 30 Q0和学习率组合)每个任务的数据集。每个数据集由 30 个假设主题组成。根据我们的模型拟合结果,我们将所有数据集的反温度参数β设置为 10(图 3、4、6 和 7),我们发现将β设置为较低的值 5 会产生类似的结果。对于每个数据集,我们在参数化和不参数化初始期望的情况下拟合模型(Q0对于增益、损失和混合条件,分别固定为 0.5、-0.5 和 0),使用上述相同的贝叶斯模型拟合方法。
支持信息
S1 表。 模型偏差信息准则 (DIC)。
模型拟合结果。模型1,3,4和6在主要结果中报告。我们还考虑了固定 Q0型号(S-FI 和 A-FI),其中 Q0在增益、损失和混合条件下固定为 0,而不是每个条件的预期结果值(模型 S-FI' 和 A-FI')。在两个实验中,A-VI模型(M6)的表现始终优于所有其他候选模型,两个实验的PXP>为0.99。
https://doi.org/10.1371/journal.pcbi.1010751.s001
(提夫)
S2 表。 模型估计参数(平均值±标准差)。
https://doi.org/10.1371/journal.pcbi.1010751.s002
(提夫)
S1 图 参与者在实验1中的表现。
受试者在增益(A)和损失(B)条件下在试验中的正确选择率。在两种条件下,随着学习的进行,参与者获得了更高的纠正率,他们在25-75%的区块中的表现比在40-60%的区块中更好。
https://doi.org/10.1371/journal.pcbi.1010751.s003
(提夫)
S2 图 学习率与 Q 之间的关联0在实验 1 中。
在增益和损失条件下,学习率和Q之间没有观察到显着的相关性0,表示学习率和Q0可能对参与者之间学习的个体差异有独立贡献。
https://doi.org/10.1371/journal.pcbi.1010751.s004
(提夫)
S3 图 实验 1 中损失条件的仿真和参数恢复。
使用正/负学习率和初始期望的不同组合模拟选择数据。然后通过A-VI(A-C)和A-FI(D-F)模型拟合模拟数据。A-VI模型忠实地检索了基础参数(A-C),而A-FI模型在参数恢复(D-F)方面显示出一致的偏差。在面板 (A-B) 和 (D-F) 中,不同颜色(灰色)线表示不同 Q 的学习率回收率0水平。在面板(C)中,每条灰线代表恢复的Q0通过分组α具有不同水平的学习率 (α)P和αN同级别一起。误差线表示模拟对象之间的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010751.s005
(提夫)
S4 图 实验 1 中损失条件的学习不对称的后验分布。
μ的后部分布δ,A-VI 模型 (A) 和 A-FI 模型 (B) 的负学习不对称的超均值。每个分布中的浅绿色表示正确识别学习不对称,而红色表示两种模型(A-VI 和 A-FI)的分类错误。
https://doi.org/10.1371/journal.pcbi.1010751.s006
(提夫)
S5 图 实验 2 中损失条件的仿真和参数恢复。
使用正/负学习率和初始期望的不同组合模拟选择数据。然后通过A-VI(A-C)和A-FI(D-F)模型拟合模拟数据。A-VI模型忠实地检索了基础参数(A-C),而A-FI模型在参数恢复(D-F)方面显示出一致的偏差。在面板 (A-B) 和 (D-F) 中,不同颜色(灰色)线表示不同 Q 的学习率回收率0水平。在面板(C)中,每条灰线代表恢复的Q0通过分组α具有不同水平的学习率 (α)P和αN同级别一起。误差线表示模拟对象之间的标准偏差。
https://doi.org/10.1371/journal.pcbi.1010751.s007
(提夫)
S6 图 实验2损失条件的学习不对称的后验分布。
μ的后部分布δ,A-VI 模型 (A) 和 A-FI 模型 (B) 的负学习不对称的超均值。每个分布中的浅绿色表示正确识别学习不对称,而红色表示两种模型(A-VI 和 A-FI)的分类错误。
https://doi.org/10.1371/journal.pcbi.1010751.s008
(提夫)
S7 图 实验 2 中混合条件的仿真和参数恢复。
使用正/负学习率和初始期望的不同组合模拟选择数据。然后通过A-VI(A-C)和A-FI(D-F)模型拟合模拟数据。A-VI模型忠实地检索了基础参数(A-C),而A-FI模型在参数恢复(D-F)方面显示出一致的偏差。误差线表示模拟对象之间的标准偏差。在面板 (A-B) 和 (D-F) 中,不同颜色(灰色)线表示不同 Q 的学习率回收率0水平。在面板(C)中,每条灰线代表恢复的Q0通过分组α具有不同水平的学习率 (α)P和αN同级别一起。
https://doi.org/10.1371/journal.pcbi.1010751.s009
(提夫)
S8 图 实验2混合条件学习不对称的后验分布。
μ的后部分布δ,A-VI 模型 (A) 和 A-FI 模型 (B) 的负学习不对称的超均值。每个分布中的浅绿色表示正确识别学习不对称,而红色表示两种模型(A-VI 和 A-FI)的分类错误。
https://doi.org/10.1371/journal.pcbi.1010751.s010
(提夫)
S9 图 来自先前数据集的 A-VI 和 A-FI 建模结果。
我们选择了行为数据公开且实验设计与我们的相似性的出版物,并测试了模型性能的一致性[4,26]。第一个数据集(N = 20)来自Palminteri等人,2017年[26],其中分配了四对视觉刺激(每对24个试验),奖励概率为0.5/0.5、0.75/0.25、0.25/0.75和0.83/0.17)。第二个数据集(N = 50)来自Lefebvre等人,2017年[4],其中使用了类似的实验范式,只是视觉刺激的奖励概率略有不同(0.25/0.25、0.75/0.75、0.25/0.75和0.75/0.25,仅增益试验)。我们将两个数据集的行为数据与两个不对称学习率模型(A-VI和A-FI)拟合。模型拟合和对比结果表明,A-VI模型的性能优于A-FI模型(A和C)。在没有初始值项的情况下,我们发现与之前报道的类似的正不对称偏差(图B和D)。然而,当初始值项包含在A-VI模型中时,这种模式发生了逆转(面板B和D的交互作用p值<0.001)。
https://doi.org/10.1371/journal.pcbi.1010751.s011
(提夫)
引用
1.萨顿RS,巴托股份公司。强化学习:简介:麻省理工学院出版社;1998.
2.佩西廖内 M, 西摩 B, 弗兰丁 G, 多兰 RJ, 弗里斯 CD.多巴胺依赖性预测错误是人类寻求奖励行为的基础。自然界。2006;442(7106):1042.
查看文章谷歌学术搜索
3.O'Doherty JP,Hampton A,Kim H.基于模型的fMRI及其在奖励学习和决策中的应用。Ann N Y Acad Sci. 2007;1104:35–53.密码:17416921
查看文章PubMed/NCBI谷歌学术搜索
4.Lefebvre G, Lebreton M, Meyniel F, Bourgeois-Gironde S, Palminteri S. 乐观强化学习的行为和神经特征。纳特哼哼行为。2017;1(4):0067.
查看文章谷歌学术搜索
5.沙罗特 T, 科恩 CW, 多兰 RJ.面对现实,如何保持不切实际的乐观。纳特神经科学。2011;14(11):1475–9.密码:21983684
查看文章PubMed/NCBI谷歌学术搜索
6.尼夫 Y, 埃德伦德 JA, 达扬 P, 奥多尔蒂 JP.神经预测错误揭示了人脑中对风险敏感的强化学习过程。J 神经科学。2012;32(2):551–62.密码:22238090
查看文章PubMed/NCBI谷歌学术搜索
7.格什曼 SJ.学习率是否适应奖励的分配?心理公牛修订版 2015;22(5):1320–7.密码:25582684
查看文章PubMed/NCBI谷歌学术搜索
8.Frank MJ,Doll BB,Oas-Terpstra J,Moreno F.前额叶和纹状体多巴胺能基因预测探索和开发的个体差异。纳特神经科学。2009;12(8):1062–8.密码:19620978
查看文章PubMed/NCBI谷歌学术搜索
9.弗兰克 MJ, 穆斯塔法 AA, 豪伊 HM, 柯伦 T, 哈奇森 KE.遗传三重解离揭示了多巴胺在强化学习中的多种作用。美国国家科学院院刊, 2007;104(41):16311–6.pmid:17913879
查看文章PubMed/NCBI谷歌学术搜索
10.弗兰克MJ,西伯格LC,奥赖利RC。胡萝卜或大棒:帕金森综合征的认知强化学习。科学。2004;306(5703):1940–3.密码:15528409
查看文章PubMed/NCBI谷歌学术搜索
11.Kravitz AV,Tye LD,Kreitzer AC.直接和间接途径纹状体神经元在强化中的不同作用。纳特神经科学。2012;15(6):816.密码:22544310
查看文章PubMed/NCBI谷歌学术搜索
12.韦恩斯坦 ND.对未来生活事件的不切实际的乐观。心理学杂志. 1980;39(5):806–20.
查看文章谷歌学术搜索
13.Spiegelhalter DJ, Best NG, Carlin BP, Van Der Linde A. 贝叶斯模型复杂性和拟合度量。J R Stat Soc Series B Stat Methodol.2002;64(4):583–639.
查看文章谷歌学术搜索
14.艾尔·好消息-坏消息效应:对关于自己的客观信息的不对称处理。Am Econ J Microecon.2011;3(2):114–38.
查看文章谷歌学术搜索
15.Sharot T, Garrett N. Forming Beliefs: Why Valence Matters.趋势科学 2016;20(1):25–33.pmid:26704856
查看文章PubMed/NCBI谷歌学术搜索
16.多尔夫曼 HM, 布伊 R, 休斯 BL, 格什曼 SJ.关于好结果和坏结果的因果推断。心理科学 2019;30(4):516–25.密码:30759048
查看文章PubMed/NCBI谷歌学术搜索
17.沙罗特 T, 吉他-马西普 M, 科恩 CW, 乔杜里 R, 多兰 RJ.多巴胺如何增强人类的乐观偏见。当代生物学杂志, 2012;22(16):1477–81.密码:22795698
查看文章PubMed/NCBI谷歌学术搜索
18.布隆伯格-马丁、沙罗特·信念的价值。神经元。2020;106(4):561–5.pmid:32437655
查看文章PubMed/NCBI谷歌学术搜索
19.沙阿 P, 哈里斯 AJ, 伯德 G, 卡特穆尔 C, 哈恩 U.乐观信念更新的悲观观点。Cogn Psychol. 2016;90:71–127.密码:27542765
查看文章PubMed/NCBI谷歌学术搜索
20.Garrett N,Sharot T.乐观更新偏差坚定不移:Shah等人之后的三个稳健性测试。 Conscious Cogn. 2017;50:12–22。pmid:27836628
查看文章PubMed/NCBI谷歌学术搜索
21.丁C-C,帕尔明特里S,勒布雷顿M,恩格尔曼JB。偶然焦虑对强化学习的难以捉摸的影响.实验心理学学习记忆学杂志 2021;48(5):619–42.
查看文章谷歌学术搜索
22.Christakou A,Gershman SJ,Niv Y,Simmons A,Brammer M,Rubia K.青春期和青年时期决策的神经和心理成熟。J Cogn 神经科学。2013;25(11):1807–23.pmid:23859647
查看文章PubMed/NCBI谷歌学术搜索
23.鲍迈斯特RF,布拉茨拉夫斯基E,芬克瑙尔C,沃斯KD。坏比好强。当代心理学导读, 2001;5(4):323–70.
查看文章谷歌学术搜索
24.帕尔明特里 S, 勒布雷顿 M.强化学习中积极性和确认偏差的计算根源。趋势 Cogn 科学 2022;26(7):607–21.密码:35662490
查看文章PubMed/NCBI谷歌学术搜索
25.Palminteri S, Justo D, Jauffret C, Pavlicek B, Dauta A, Delmaire C, et al. 基于惩罚的回避学习中前岛叶和背纹状体的关键作用。神经元。2012;76(5):998–1009.密码:23217747
查看文章PubMed/NCBI谷歌学术搜索
26.伯恩斯坦AM,考MW,绍哈米D,道ND。对过去选择的提醒使人类的奖励决定偏向于决策。纳特公社。2017;8:15958.密码:28653668
查看文章PubMed/NCBI谷歌学术搜索
27.范斯洛滕 JC, 贾法里 S, 克纳彭 T, 瑟维斯 J.学生的反应如何在强化学习期间和之后跟踪基于价值的决策。计算机生物学报. 2018;14(11):e1006632.密码:30500813
查看文章PubMed/NCBI谷歌学术搜索
28.帕尔明特里 S, 列斐伏尔 G, 基尔福德 EJ, 布莱克莫尔 SJ.人类强化学习中的确认偏差:来自反事实反馈处理的证据。公共科学图书馆计算生物学. 2017;13(8):e1005684.密码:28800597
查看文章PubMed/NCBI谷歌学术搜索
29.李杰, 道恩.人类纹状体中的信号适用于政策更新而不是价值预测。J 神经科学。2011;31(14):5504–11.密码:21471387
查看文章PubMed/NCBI谷歌学术搜索
30.施泰因加特 H, 内曼 T, 洛文斯坦 Y.第一印象在操作性学习中的作用。实验心理学杂志 2013;142(2):476–88.密码:22924882
查看文章PubMed/NCBI谷歌学术搜索
31.Niv Y, Daw ND, Joel D, Dayan P. Tonic Dopamine: 机会成本和反应活力的控制.精神药理学。2007;191(3):507–20.密码:17031711
查看文章PubMed/NCBI谷歌学术搜索
32.麦克卢尔SM,Daw ND,Montague PR。激励显著性的计算基质。趋势神经科学。2003;26(8):423–8.密码:12900173
查看文章PubMed/NCBI谷歌学术搜索
33.娃娃BB,雅各布斯WJ,桑菲AG,弗兰克MJ。强化学习的教学控制:行为和神经计算研究。脑研究 2009;1299:74–94.密码:19595993
查看文章PubMed/NCBI谷歌学术搜索
34.Palminteri S, Khamassi M, Joffily M, Coricelli G. 奖励和惩罚学习中价值信号的上下文调制。纳特公社。2015;6:8096.pmid:26302782
查看文章PubMed/NCBI谷歌学术搜索
35.Bates D, Machler M, Bolker BM, Walker SC. 使用 lme4 拟合线性混合效应模型。J 统计软件。2015;67(1):1–48.
查看文章谷歌学术搜索
36.斯蒂芬·柯,佩妮·WD,道尼佐·J,莫兰·RJ,弗里斯顿·用于组研究的贝叶斯模型选择。神经影像。2009;46(4):1004–17.密码:19306932
查看文章PubMed/NCBI谷歌学术搜索
37.Rigoux L,Stephan KE,Friston KJ,Daunizeau J.小组研究的贝叶斯模型选择-重新审视。神经影像。2014;84:971–85.密码:24018303
查看文章PubMed/NCBI谷歌学术搜索
38.贝里奇KC,罗宾逊TE。多巴胺在奖励中的作用是什么:享乐影响、奖励学习或激励显著性?脑研究 脑研究修订版 1998;28(3):309–69.密码:9858756
查看文章PubMed/NCBI谷歌学术搜索
39.池本 S, 潘克塞普 J.伏隔核多巴胺在动机行为中的作用:统一解释,特别参考寻求奖励。脑研究 脑研究修订版 1999;31(1):6–41.密码:10611493
查看文章PubMed/NCBI谷歌学术搜索
40.由急性压力和促肾上腺皮质激素释放因子驱动的努力相关决策中的扰动。神经精神药理学。2016;41(8):2147–59.密码:26830960
查看文章PubMed/NCBI谷歌学术搜索
41.特雷德韦山,萨拉蒙·活力,与努力相关的动机和快感缺乏方面。Curr Top Behav Neurosci.2022;58:325–53.密码:35505057
查看文章PubMed/NCBI谷歌学术搜索
42.Brown VM, Zhu L, Solway A, Wang JM, McCurry KL, King-Casas B, et al. 认知行为疗法后抑郁症和对症状变化敏感的个体的强化学习中断。美国医学会精神病学。2021;78(10):1113–22.pmid:34319349
查看文章PubMed/NCBI谷歌学术搜索
43.派克AC,罗宾逊OJ。情绪和焦虑障碍患者与对照个体的强化学习:系统评价和荟萃分析。美国医学会精神病学。2022;79(4):313–22.pmid:35234834
查看文章PubMed/NCBI谷歌学术搜索
44.Burke CJ, Tobler PN, Baddeley M, Schultz W. 观察学习的神经机制。美国国家科学院院刊, 2010;107(32):14431–6.pmid:20660717
查看文章PubMed/NCBI谷歌学术搜索
45.Pulcu E,Browning M.情感偏见作为对奖励和惩罚统计的理性反应。电子生活。2017;6:e27879.密码:28976304
查看文章PubMed/NCBI谷歌学术搜索
46.怀斯T,多兰RJ。一般人群样本中厌恶学习过程与跨诊断精神症状之间的关联。纳特公社。2020;11(1):4179.密码:32826918
查看文章PubMed/NCBI谷歌学术搜索
47.怀斯 T, 米歇利 J, 达扬 P, 多兰 RJ.与威胁相关的注意偏差的计算说明。公共科学图书馆计算机生物学. 2019;15(10):e1007341.密码:31600187
查看文章PubMed/NCBI谷歌学术搜索
48.Seymour B, Daw ND, Roiser JP, Dayan P, Dolan R. 血清素选择性地调节人类决策中的奖励价值。J 神经科学。2012;32(17):5833–42.密码:22539845
查看文章PubMed/NCBI谷歌学术搜索
49.片平·具有非对称值更新的强化学习的统计结构。数学心理学杂志. 2018;87:31–45.
查看文章谷歌学术搜索
50.Bénabou R,Tirole J. Mindful Economics: The Production, Consumption, and Value of Faith.J 经济透视。2016;30(3):141–64.
查看文章谷歌学术搜索
51.贝纳布R,蒂罗尔J.自信和个人动机。经济杂志 2002;117(3):871–915.
查看文章谷歌学术搜索
52.沙罗特 T, 罗尔瓦克 M, 桑斯坦 CR, 弗莱明 SM.为什么以及何时信仰会改变。透视心理科学 2023;18(1):142–51.密码:35939828
查看文章PubMed/NCBI谷歌学术搜索
53.玛雅电视台,弗兰克·从强化学习模型到精神和神经系统疾病。纳特神经科学。2011;14(2):154–62.pmid:21270784
查看文章PubMed/NCBI谷歌学术搜索
54.玛雅电视台,康塞考弗吉尼亚州。相和强直多巴胺在抽动学习和表达中的作用。生物精神病学。2017;82(6):401–12.
查看文章谷歌学术搜索
55.道ND,格什曼SJ,西摩B,达扬P,多兰RJ。基于模型对人类选择和纹状体预测误差的影响。神经元。2011;69(6):1204–15.邮编:21435563
查看文章PubMed/NCBI谷歌学术搜索
56.Dayan P,Abbott L.理论神经科学:神经系统的计算和数学建模。J Cogn 神经科学。2003;15(1):154–5.
查看文章谷歌学术搜索
57.贾法里 S, 里德林霍夫 KR, 柯林斯股份公司, 克纳彭 T, 沃尔多普 LJ, 弗兰克 MJ.额叶腘节回路在反应抑制和冲突诱导的减慢中的跨任务贡献。大脑皮层。2018;29(5):1969–83.
查看文章谷歌学术搜索
58.道ND,奥多尔蒂JP,达扬P,西摩B,多兰RJ。用于人类探索性决策的皮质基质。自然界。2006;441(7095):876–9.密码:16778890
查看文章PubMed/NCBI谷歌学术搜索
59.Ahn W-Y, Haines N, Zhang L. 揭示了hBayesDM包的强化学习和决策的神经计算机制。计算机精神病学家。2017;1:24–57.pmid:29601060
查看文章PubMed/NCBI谷歌学术搜索
60.安 W-Y, 克拉维茨 A, 金 W, 布塞迈耶 JR, 布朗 JW.基于模型的功能磁共振成像分析,具有分层贝叶斯参数估计。神经科学心理经济杂志, 2011;4(2):95–110.密码:23795233
查看文章PubMed/NCBI谷歌学术搜索
61.索科尔-赫斯纳 P, 拉约CM, 戈特斯曼 SP, 拉科维奇 SF, 菲尔普斯 EA. 急性压力不会影响风险货币决策。压力的神经生物学。2016;5:19–25.
查看文章谷歌学术搜索
62.McCoy B, Jahfari S, Engels G, Knapen T, Theeuwes J. 多巴胺能药物可降低纹状体对帕金森病阴性结果的敏感性。脑。2019;142(11):3605–20.密码:31603493
查看文章PubMed/NCBI谷歌学术搜索
63.阿塞尔比 L, 维贾亚库玛 S, 沃尔珀特 DM.关于人类概率推理中次优性的起源。公共科学图书馆计算生物学. 2014;10(6):e1003661.密码:24945142
查看文章PubMed/NCBI谷歌学术搜索