环境不确定性和冲动选择策略的优势
戴安娜·伯克,布鲁诺·阿韦贝克
发布时间:30 年 2023 月
抽象
选择冲动的特征是选择即时的、较小的奖励选项而不是未来的、较大的奖励选项,并且通常被认为与负面的生活结果有关。然而,一些环境使未来的奖励更加不确定,在这些环境中,冲动的选择可能是有益的。在这里,我们研究了冲动与非冲动决策策略有利的条件。我们使用马尔可夫决策过程(MDP)对三个常见的决策任务进行建模:时间折扣、信息抽样和探索-利用任务。我们操纵环境变量来创造未来结果相对不确定的环境。然后,我们操纵MDP代理的折扣因子,该因子会影响当前奖励与未来奖励的价值,以模拟冲动和非冲动行为。这使我们能够在或多或少可预测的环境中检查脉冲和非脉冲代理的性能。在时间贴现中,我们操纵了向延迟奖励的过渡概率,发现当获得未来奖励的概率较低时,通过选择即时奖励选项,具有较低折扣因子的代理(即冲动代理)比具有较高折扣因子的代理(非冲动代理)收集更多的平均奖励。在信息抽样任务中,我们操纵了每个样本获得的信息量。当抽样导致小的信息增益时,冲动MDP代理比非冲动代理收集更多的平均奖励。第三,在探索-利用任务中,我们操纵了新选项的替代率。当替代率高时,脉冲代理再次比非脉冲代理表现更好,因为它较少探索新选项,而是利用具有已知奖励值的选项。这些分析的结果表明,在意外不确定的环境中,冲动可能是有利的。
作者摘要
冲动的选择行为,或将即时较小的奖励置于较大的延迟奖励之上,通常被认为对决策是有害的。在这项研究中,我们使用马尔可夫决策过程(MDP)来证明冲动选择在三个常见的决策任务中是有益的:时间折扣,信息抽样和探索-利用任务。具体来说,我们发现,当任务环境比预期的更不确定时,冲动代理可以比非冲动代理获得更多的平均奖励。我们的研究表明,冲动本质上并不是消极的。在面对不确定性时,重视即时奖励而不是延迟奖励可能是一种适应性策略。
引文: 伯克DC,阿韦贝克 BB (2023) 环境不确定性和冲动选择策略的优势。公共科学图书馆计算生物学19(1): e1010873. https://doi.org/10.1371/journal.pcbi.1010873
编辑 器: Alireza Soltani,达特茅斯学院,美国
收到: 15月 2022, 15;接受: 2023月 30, 2023;发表: <>月 <>, <>
这是一篇开放获取的文章,没有任何版权,任何人都可以出于任何合法目的自由复制、分发、传输、修改、建立或以其他方式使用。该作品在知识共享CC0公有领域奉献下提供。
数据可用性: 用于生成本手稿中结果的所有代码都可以在 GitHub 上访问:https://github.com/dcb4p/impulsive_choice_code。
资金: 这项工作得到了国家心理健康研究所校内研究计划(ZIA MH002928(BA))的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 作者没有竞争利益。
介绍
冲动决策通常被定义为不利的。它有许多描述性定义,包括“当一个较大的较晚的选项产生更好的结果时,选择较小的较早的选项,”[1]“在没有深思熟虑或有意识判断的情况下迅速采取行动”[2]和“构思不当,过早表达,过度冒险或不适合情况并经常导致不良结果的行动”[3].冲动也被认为是许多临床疾病的组成部分,包括赌博障碍和其他行为成瘾[4-6]、物质滥用[7-9]、注意力缺陷/多动障碍[10,11]和其他精神疾病[2,12-14]。].综上所述,这些定义和临床表现表明,倾向于即时奖励而不是延迟奖励会导致次优结局[2,3,15-17]。由于冲动带有这种负面特征,许多研究将冲动视为适应不良。然而,一些研究表明,冲动选择行为可能是由于适应了某些环境的统计数据[18-22]。
冲动是通过人类和动物受试者的各种自我报告问卷和实验室任务来测量的(有关综述,请参阅[23])。大约有25种常用的自我报告问卷来测量冲动[15,24-27]。实验室任务也可用于评估冲动的几个维度,包括运动冲动(参见[28])、注意冲动[29-31]、风险偏好[32-35]和冲动选择行为[36]。我们在本文中考虑的选择冲动任务是为了评估当前奖励与未来奖励的权重而开发的。一个常用的选择任务是时间折扣 [37-39],它衡量对较小的即时奖励或较大的未来奖励的偏好。根据定义,冲动的参与者更喜欢较小的、即时的奖励,而不是延迟的、较大的奖励。信息抽样任务,如珠子任务,也用于衡量收集更多信息或承诺选择之间的权衡[40-45]。定期引入新选项的N武装老虎机任务已被用于评估受试者探索新选项与利用已知选项的趋势[21,46-50]。
在本文中,我们使用马尔可夫决策过程(MDP)框架来比较冲动和非冲动代理在三个常见决策任务中的行为,其中当前选择影响未来的奖励。MDP框架模拟了当前状态影响智能体可以获得的即时奖励以及过渡到未来状态的概率的环境中代理的决策[51,52](图1)。如果假设代理正在最大化预期奖励,则 MDP 会在决策任务中提供对最佳策略(即最大化状态操作值)的见解。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 强化学习(RL)中的代理和环境交互,马尔可夫决策过程(MDP)框架。
代理如何与环境交互并学习在 MDP 框架中最大化奖励的示意图。代理选择操作,At,这导致状态发生变化,St和奖励,Rt,其中 t 表示试用或时间点。代理的内部环境模型和未来奖励的权重或折扣因子γ会影响所采取的行动。环境的稳定性由到未来状态的转移概率p(ST+1|St一个t) 以及获得奖励的概率 p (Rt);这些也会影响奖励结果。选择任务中二项式强盗选项的二项式强盗的示例奖励分配树显示在左侧。当代理选择提供概率奖励的选项时,它会根据结果遍历树。树中的每个节点表示选择该选项的选择点。节点形状和底纹指示节点是否表示唯一状态。圆节点是唯一的。节点的其他形状或阴影表示具有多个选择路径的重复状态。虽然MDP与时间和历史无关,但这些因素通常会影响决策行为。状态空间树中的每个上分支表示一个激励选择,每个下分支表示一个无奖励选择。因此,每个节点上的数字表示奖励数量的后验和选择选项的次数。遍历这棵树会导致证据的积累,证明一个选项是高回报还是没有回报,这反过来又会影响代理未来的行动。图片来源:维基共享资源(半身像);Openclipart.org(地图图像)。
https://doi.org/10.1371/journal.pcbi.1010873.g001
在 MDP 框架内,操作值,Q(st, a),是即时和贴现的未来预期奖励的总和:其中第一项 r(s
t,a) 是时间 T 状态中如果采取行动 A 的即时期望奖励,第二项 ,估计奖励的贴现未来期望值 (FEV)。因此,第二项量化了当前所采取行动的未来价值,即延迟奖励。第二个术语是贴现系数、γ和对未来公用事业的预期 u 的乘积。T+1(j),期望接管转移函数,即期货状态的条件分布,p(j|st,a)。因此,该等式也可以框定为:其中IEV是即时期望值,FEV是未来期望值。对于我们将考虑的(大部分)情节任务,每集的最大平均奖励将由折扣因子 γ 为 1.0 且环境或任务给出的过渡函数的代理获得。从算法上讲,折扣因子对于拟合无限视界模型很重要[53],但在拟合有限视界、情节模型中的作用较小,除非剧集很长。折扣因素是人工或生物代理的特征,不是环境的一部分。当然,如果折扣系数γ较低,则FEV对操作值的影响较小。
在这里,我们展示了脉冲代理比非脉冲代理表现更好的参数机制;当代理的期望与环境不匹配时,这种效果最强。在实验室实验中,问题变成了加权FEV的降低是由于贴现因子(γ)的变化还是由于转移函数的变化()。转移函数并不总是给出(例如在时间贴现任务中),或者,当它给出时,受试者可能无法准确近似[54],并且这种错误估计在数学上可能与折扣因子的变化无法区分。例如,参与者可以假设环境比实验者建议的更难预测(即p(j|的熵st,a)高于所述),因为参与者已经适应了实验室外的不稳定环境。这可能导致通过贴现因子对贴现进行整体调整,或者影响向未来状态过渡的概率分布趋于平缓。无论哪种情况,FEV都会降低,参与者更有可能选择即时奖励。更正式地说,在不可预测的环境中,条件分布p(j|st,a),具有更高的熵,这意味着一个人不能做出导致期望的未来状态的选择,j。如果有些未来状态是有益的,而有些则没有,那么不可预测性意味着对未来公用事业的期望会更小,甚至是负面的。由于延迟奖励的价值是贴现因子和对未来效用的期望的乘积,因此不重视延迟奖励的主体这样做可能是因为它们具有较低的折扣因子,或者因为它们假设环境具有不可预测的过渡函数。在实验室实验中,通常假设这在贴现因子上加载,但这些效应也可以通过增加转移函数的不确定性来捕获[43]。在本手稿中,我们证明了当贴现系数较低时,这减少了FEV的影响以及由p(j|变化引起的任何相关不确定性。st,a)。在 p(j|st,a)低于预期,并且未来的奖励可能性较小,脉冲代理可能比非脉冲代理更好。
在本研究中,我们研究了三个决策任务中贴现因子和不确定性之间的权衡,这些决策任务可以通过贴现因子和MDP框架相互关联。我们表明,当任务环境比 MDP 模型预期的更不确定时,在折扣因子为 1 的任务中,如果代理准确近似转移函数,则折扣因子为 <> 的代理优于具有较高折扣因子的代理。这相应地意味着,适应相对不确定环境的主体,可能还有人类受试者,可以胜过不适应不确定性的智能体。虽然第二点直接来自模型,但它导致冲动选择策略的解释是对具有重大不确定性的环境的最佳适应,而不是决策中的病理缺陷。
结果
本研究的目的是检验这样的假设,即当环境比预期更不确定时,冲动选择策略(定义为通过折扣因子对即时奖励而不是未来奖励的相对偏好)比非冲动选择策略表现得更好。更具体地说,当智能体由于环境变化而无法做出导致首选未来状态的选择时,有利于即时奖励的选择策略可能更胜一筹。我们将三个决策任务的模型:时间折扣、磁珠和探索-利用组合到一个MDP框架中,并通过贴现因子将这些任务相互关联,贴现因子以前已用于操作冲动选择行为[55,56]。在所有三项任务中,我们将智能体的期望与环境中的真正不确定性分开,以建立冲动选择策略有益的条件。对于每项任务,我们改变了参数以模拟不确定和某些环境,以测试冲动和非冲动代理是否会更好。在某些环境中,未来的回报比座席的预期更有可能,而在不确定的环境中,可能性较小。为了对冲动和非冲动代理进行建模,我们改变了折扣因子,该因子捕获了未来奖励的价值,并计算了模型中的行动值。因此,冲动代理具有较低的折扣系数(γ脉冲)和加权即时奖励更多,非冲动代理具有更高的折扣系数(γ非冲动)和权重未来奖励相对大于即时奖励。尽管可以分离代理假定的统计信息与表征环境的统计信息,但只有代理具有折扣因子。
在时间折扣任务中,代理被赋予了具有不同奖励幅度和延迟的选项对。在不操纵未来奖励概率的情况下,具有较高折扣因子(即较少折扣)的代理将因选择较大的延迟奖励而获得更多奖励。然而,我们证明了当未来的奖励比预期的更不确定时,冲动代理会收集更多的平均奖励。在信息采样任务中,为脉冲和非脉冲代理提供珠子绘制序列,这些序列或多或少地提供了比预期更多的多数颜色信息。我们证明,当珠子信息的信息量低于预期时,冲动代理通过避免低价值信息的过度绘制成本来收集更多的平均奖励。在探索-利用任务中,冲动和非冲动的代理在三个强盗之间进行选择,以了解哪个是最有价值的选项。定期,其中一个土匪被一个新的土匪取代。我们证明,当替代率很高时,冲动代理通过不探索新的选项来收集更多的平均奖励。因此,在三个决策任务中,我们发现,当未来的奖励比预期的更不确定时,冲动的选择可以带来更多的奖励。
冲动代理受益于在时间折扣任务中选择即时奖励
时间折扣任务基于柯比延迟折扣问卷,该问卷通常用于评估人类参与者如何评估即时和延迟奖励[38,43,57,58]。在这个任务和类似的时间贴现任务中,参与者在较小的即时货币奖励和较大的延迟货币奖励之间做出一系列选择(图2A)。以前的研究表明,延迟奖励的价值通常低于相同规模的即时奖励。然而,目前尚不清楚为什么未来的奖励会打折,并且存在多种可能的机制[59]。在这里,我们研究了冲动(低折扣因子,γ = 0.6)和非冲动(高折扣因子,γ = 0.99)代理的表现,这些代理也假设了对未来奖励的不同状态转换概率。我们检查了这些代理在实际过渡到未来奖励的环境中的表现,这些环境是随机的,因此并不总是收集未来的奖励。在这项任务中,不确定性与冲动和非冲动代理的性能之间的联系是直截了当的。但是,它说明了我们在后续任务中概括的观点。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 时间折扣任务以及脉冲和非脉冲代理在不同任务环境中的表现。
A) 时态折扣任务的任务示意图。参与者或代理会收到一系列问题,其中包含两个优惠,一个是小额即时奖励,另一个是更大的延迟奖励。B) 任务中一对选项的状态空间树。代理从最左边开始,在即时奖励或延迟奖励之间进行选择。如果选择了即时奖励,则代理将在上分支上进入即时奖励状态 (s红外),并始终收集即时奖励。如果代理选择延迟奖励,则代理将继续通过较低的分支进入延迟奖励状态 (s博士).沿着这个分支是一系列中间过渡态(sb),代理以概率δ通过。在每个转换状态,代理可能会进入终端、非奖励状态 (s一个),概率为 1-δ。转换状态的数量由延迟到较大奖励定义。C)在某些不确定的任务环境中,在时间折扣任务中冲动和非冲动代理的模拟试验中收集的平均奖励和选择行为。“高确定性”是指δ环境>δ代理而“低质量”是指δ代理<δ环境.非冲动代理(黑色)的折扣因子为 γ = 0.99,脉冲代理(红色)的折扣因子为 γ = 0.6。左:为两个代理收集的平均奖励。右图:受试者选择较大、延迟选项的平均比例。误差线是使用可变奖励大小和延迟的 10 次试验的 100 次迭代的 s.e.m.指示 p<0.0001 配对 t 检验。D) 一系列δ的平均奖励差异环境和δ代理值。热图显示了非脉冲代理表现更好的域(更蓝),脉冲代理表现更好(更红)或两个代理之间存在微小差异(红色)。热图上每个框中显示的值是两个代理的平均奖励差异。白框表示图2C所示的任务制度。有关其他折扣因素,请参见S1图。图片来源:Openclipart.org(硬币图像,金钱图像)。
https://doi.org/10.1371/journal.pcbi.1010873.g002
此任务的状态空间由两个分支组成,一个表示较小的即时奖励,另一个表示较大的延迟奖励(图 2B)。如果选择了即时奖励,则进展到终端,奖励状态,s红外得到保证并收取奖励。如果选择了延迟奖励,则代理将继续通过代表时间流逝的状态序列。代理通过转换状态 (sb) 朝向最终延迟奖励状态 (s博士) 的概率δ或终止于中间、非奖励状态 (s一个),在每个中间时间步的概率为 1?δ。过渡状态代表时间的流逝和延迟奖励的不确定性。唯一的决定是,是拿眼前的奖励,还是追求未来更大的回报。
在该模型中,延迟选项的未来期望值 (FEV) 从初始选择状态计算,方法是将延迟到较大奖励离散化为具有δ环境.当转换概率,δ环境,对延迟奖励较高,延迟期权的FEV高于即时奖励。相反,当转换概率较低时,延迟选项的FEV较小。
扩展了在某些情况下,即时期权的价值可能大于延迟期权的FEV的观点,我们研究了当环境中延迟奖励的确定性比预期差时,对未来奖励(即冲动)打折的代理是否平均表现更好。在这种情况下,代理期望的转移概率高于环境中的实际转移概率。我们在两种不同的环境中测试了具有两种不同折扣因子(冲动和非冲动)和两种不同转移概率假设的代理。具体来说,我们在环境中过渡到延迟奖励的概率高于智能体预期的条件下测试了冲动和非冲动代理(δ环境= 0.99, δ代理= 0.55),并且在环境中过渡到延迟奖励的概率低于代理预期的条件下(δ环境= 0.55, δ代理= 0.99)。我们模拟了具有不同大小奖励和延迟的批次试验。然后,我们使用折扣因子γ对可变水平的折扣进行建模,以反映冲动或非冲动行为(γ我和γ镍分别)。
在高确定性和低确定性环境中测试这两种代理的结果表明,在高确定性环境中,脉冲代理收集的平均奖励少于非脉冲代理(图2C左;配对样本t检验,t(9)= -20.92,p<0.001,d = -3.66,功效>0.99)。在低确定性环境中,通过收集更多的平均奖励,冲动因素比非脉冲代理表现更好(配对样本t检验,t(9)= 12.84,p<0.001,d = 6.06,功效>0.99)。此结果由每个代理在每个环境中选择较大、延迟选项的频率决定。在这两种环境中,非脉冲代理更频繁地选择较大的延迟选项(图2C,右)。在高确定性环境中,当转移概率高于预期时(δ代理= 0.55, δ环境= 0.99),由于代理的折扣因子较高,非冲动代理比脉冲代理更多地选择延迟选项(配对样本 t 检验,t(9) = -21.10,p<0.001,d = -5.76,幂> 0.99)。然而,非冲动代理只选择较大的延迟奖励,大约 30% 的时间,因为预期向被剥夺奖励的过渡概率较低,如δ代理= 0.55。在低确定性环境中(δ代理= 0.99, δ环境= 0.55),非冲动代理每次都选择延迟选项,并且明显大于脉冲代理(配对样本t检验,t(9)= -52.25,p<0.001,d = -27.91,功效>0.99),因为预期延迟奖励的过渡概率很高。在这两种环境中,脉冲代理选择延迟选项的频率较低。存在跃迁概率的组合,其中冲动代理收集更多的奖励,更少的奖励,或者与非冲动代理大致相等的奖励(图2D)。一般来说,当δ代理<δ环境,非冲动代理收集更多的平均奖励,当δ代理>δ环境,冲动代理收集更多的平均奖励。当δ代理和δ环境两者都很高(大约>0.8),非冲动代理收集更多的平均奖励。请注意,当两者都δ代理和δ环境非常低(即0.55和0.5),脉冲代理可以收集至少与非脉冲代理一样多或略多的奖励,这表明主要效应是由预期转移概率和实际转移概率之间的不匹配驱动的。此外,代理对之间的效应大小随着γ而减小我离γ更近了镍,正如预期的那样,但这些关系δ代理, δ环境,奖励保持不变(S1 图)。进行了功效分析,为人类受试者的实验提出建议。假设分配比率为1.0(即每组受试者人数相等),最小功效为0.8,alpha为0.05,则实验者只需要3名参与者完成100项试验,每组即可发现平均奖励的显着差异。然而,鉴于人类参与者的变异性将高于我们用单个折扣因子得出的模拟代理行为的变异性,这是对运行实验和观察效果所需的受试者数量的低估计。对于平均奖励的较小效应(例如在δ领域代理<0.75 & δ环境= 0.65),功效分析表明,平均需要 200 名参与者来检测平均奖励的统计差异。
总之,当较大、延迟的奖励比预期更不确定时,在时态折扣任务中选择即时选项是有利的。这表明,在更复杂的任务中,有可能找到一种选择即时奖励也是有益的制度。我们将在以下两节中讨论此类任务的示例。
冲动代理受益于在信息抽样(磁珠)任务中更快地猜测
在信息抽样任务中,目标是收集信息并根据积累的证据做出明智的决定。我们使用之前开发的珠子任务[41,44,45,60]来检查信息采样行为。在珠子任务中,目标是正确猜测具有两种颜色珠子的骨灰盒中大多数珠子的颜色(图3A)。为了收集有关颜色比例的信息,参与者必须一次绘制一颗珠子,并且每次抽奖都会产生费用。因此,在任务的每一步,参与者要么选择画一个珠子,要么猜测骨灰盒中大多数珠子的颜色。如果他们猜对了,他们将获得奖励(+10),如果他们猜错了,他们将获得惩罚(-12)。这个决策序列可以用状态空间树来表示(图3B)。在此图中,每个节点代表一个决策点,用于绘制珠子或猜测骨灰盒的颜色。状态由蓝色珠子的数量和已绘制的橙色珠子的数量给出。在树的开头,(0,0),没有两种颜色的珠子。随着我们深入树,随着我们通过抽珠积累信息,每种颜色的珠子比例的二项分布方差会变小,并且对每种颜色的珠子比例的估计值更加准确。如果骨灰盒分数较低,例如 60%/40%,则围绕正确猜测的不确定性会缓慢降低。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 信息抽样(磁珠)任务和代理在高确定性和低确定性环境中的性能示例。
A) 珠子任务的任务示意图。在这个任务中,目标是正确猜测骨灰盒中珠子的主要颜色(例如橙色或蓝色)。参与者或代理人可以选择一次抽一个珠子(费用,例如 0.10 美元)以积累证据。代理的目标是积累足够的证据,以便在不产生最大抽奖成本的情况下做出可靠的猜测。一旦达到最大抽奖次数,代理将被迫猜测颜色。代理因猜对而获得奖励(例如 10 美元)或因猜错而获得费用(例如 -12 美元)。B) 珠子任务的状态空间树,最多抽取 3 次。每个节点代表到目前为止已绘制的橙色和蓝色珠子的数量以及一个决策点,代理可以在其中再次绘制、猜测橙色或猜测蓝色。如果代理绘制另一个珠子,它们会根据二项式概率随机过渡到下一个状态。在树的开头,多数概率概率分布的方差最高,并随着抽奖次数的增加而减小。请注意,3 次抽取后橙色和蓝色珠子数量相同的状态是相同的状态。为了清楚起见,我们将重复的状态分开绘制。重复状态由节点的形状说明。圆形节点是唯一的,其他形状的节点表示重复状态。C)在某些不确定的任务环境中的两个示例珠子绘制序列以及脉冲和非脉冲代理的行为。在左侧,从一组任务参数中显示了 20 个绘制序列,该参数创建了一个环境,其中确定大多数颜色为橙色 (q代理= 0.55, q环境= 0.7, C画= 0.10, R正确= 10, R不對= -12)。该图显示了猜测橙色和猜测蓝色的操作值,这两个代理的操作值相同。该图还显示了为非脉冲代理(黑色)和脉冲代理(红色)绘制珠子的相应动作值。由于代理始终在每个时间步长上选择最大的操作值,因此仅当猜测蓝色或橙色的操作值超过绘制另一个珠子的操作值时,代理才会猜测一种颜色。在左边的案例中,非冲动代理在 11 次抽奖后正确猜出橙色(黑色箭头),而脉冲代理在第一次抽奖后猜错了蓝色(绿色箭头)。在不确定的情况下(右),任务参数创建一个环境,其中多数颜色的确定性较低(q代理= 0.55, q环境= 0.54, C画= 0.10, R正确= 10, R不對= -12)。将显示操作值的相同跟踪。非脉冲代理绘制,直到它被迫猜测并产生最大绘制成本(黑色箭头)。脉冲代理在抽奖 5 次后猜对(绿色箭头)。每个操作值图下面是相应的截断状态空间树,显示了示例磁珠序列的状态空间遍历。只有状态空间树的上半部分通过前 10 个珠子抽取进行扩展。
https://doi.org/10.1371/journal.pcbi.1010873.g003
我们假设,当骨灰盒中大部分珠子低于受试者的预期时,冲动代理可能比非脉冲代理表现更好,因此磁珠抽取的信息量低于预期。为了测试这一点,我们检查了一个条件,其中代理人认为骨灰盒中的大多数颜色(q代理)不远高于偶然性(例如 q代理= 0.55)。然后,我们比较了冲动(γ的表现我= 0.55)和非冲动(γ镍= 0.99)在环境比预期更确定或更不确定的情况下(图3C)。此任务的代理在每个步骤中都有三个可用操作:绘制、猜测蓝色和猜测橙色,并且在每个步骤中,代理选择具有最高值的操作。在更确定的环境中,真正的底层珠子多数(q环境)为70%橙色,随着抽奖和橙色是多数颜色的证据积累,猜测橙色的操作值继续增加(图3C,左)。当猜测两种颜色之一的操作值超过绘制珠子的操作值时,代理将停止并猜测该颜色。对于特定环境中的脉冲代理,代理在第一次抽奖后猜测一种颜色,这导致蓝色选择错误。相反,为非脉冲代理绘制珠子的动作值开始时很高,猜测橙色的动作值仅在抽取 11 次后才超过绘制的动作值。代理已经积累了证据,证明大多数人可能是橙色的,并且正确选择了橙色。具有较高折扣因子的非冲动代理重视未来的奖励,并被驱使进一步进入状态空间以减少多数颜色的不确定性。猜测颜色的选择将终止序列,因此不依赖于折扣因子,因为在猜测后无法达到未来可能的状态,并且折扣因子仅影响未来的状态值。
另一方面,在不确定的环境中,猜测每种颜色的操作值不会明显地发散,因为随后的绘制不一致(图 3C,右)。在此示例中,珠子是从含有 54% 橙色珠子的骨灰盒中采样的。这种低多数驱动非冲动代理绘制珠子的操作值保持高于猜测两种颜色的操作值,直到允许的最大抽取次数,此时代理被迫猜测颜色。相比之下,脉冲代理进行多次抽奖,但比非脉冲代理少,并且正确猜测橙色。冲动代理能够猜测,而不会从额外抽珠的费用中产生那么多的成本。这些示例的部分状态空间表明,每个磁珠序列的前两次绘制开始时相同,但随后特定环境中的绘制(左)迅速向子树的下边缘倾斜,反映了多数颜色的可能性增加(图 3C,底部)。在不确定的环境中穿过状态空间的路径蜿蜒向状态空间树的中间分支。平均而言,多数颜色分数越接近机会,通过状态空间的路径在珠序列试验中的一致性就越差。
为了比较两种代理在这些环境中的平均性能和选择行为,我们使用具有两个折扣因子的代理模拟了批次的磁珠序列和选择。在珠子大部分比例较高的特定环境中,具有较高折扣因子的非冲动剂(γ镍= 0.99,黑色)收集更多的平均奖励(配对样本t检验,t(99)= -20.70,p<0.001,d = -2.93,功效>0.99)(图4A)。在不确定的环境中,脉冲代理(γ我= 0.55,红色)收集更多的奖励,尽管两个代理收集的奖励都比在特定环境中少(配对样本t检验,t(99)= 4.16,p<0.005,d = 0.59,功效>0.99)。其原因可以通过每个代理在猜测多数颜色之前进行的平均抽奖次数来说明(图 4A,右图)。在这两种任务环境中,非脉冲代理在做出选择之前都会进行更多的平均绘制(配对样本 t 检验,t(99) = -104.76,p<0.001,d = -14.82,特定环境的功率> 0.99,t(99) = -139.74,p<0.001,d = -19.76,不确定环境的幂> 0.99)。这会导致在特定环境中做出更明智的选择,但在不确定的环境中,这只会导致猜测准确性的微小提高,并且平均会产生更多的成本。另一方面,脉冲代理在猜测多数颜色之前不会进行那么多的绘制,从而避免了不会提高猜测准确性的绘制产生额外的绘制成本。不确定环境中的磁珠信息不仅不如预期可靠,因为一种颜色的珠子的实际比例(q环境) 低于代理的预期值 (q代理),但信息量也较少,因为环境多数部分(q环境) 接近 0.5。特定环境中的磁珠信息也不可靠,因为它不能反映预期的多数分数(q代理),但信息量更大,因为它提供了对实际多数颜色的更好估计。
功效分析表明,要在人类受试者的实验中观察这些效应(假设最小功效为0.8,alpha 0.05),至少需要两名受试者来观察选择行为的差异。然而,每组中大约20名参与者,冲动和非冲动,将是观察在不确定环境中收集的平均奖励差异的最小受试者数量,如图4A所示。这个数字是一个低估计,因为实验必须考虑参与者池中不同受试者折扣的可变性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 信息采样(磁珠)任务中脉冲与非脉冲代理的性能和选择行为。
A) 左:在某些不确定的任务环境中,在模拟试验中为珠子任务中的冲动和非冲动代理收集的平均奖励。非冲动代理(黑色)的折扣因子为 γ = 0.99,脉冲代理(红色)的折扣因子为 γ = 0.55。误差线是使用来自两个不同任务参数的磁珠序列(q环境= 0.75 特定环境,q环境= 0.54 不确定环境,q代理= 0.55。C画= 0.1)。右:在每个任务环境中为每个模型猜测颜色之前绘制珠子的平均次数。在这两种任务环境中,脉冲代理(红色)的绘制频率相似,但明显低于非脉冲代理(黑色)。表示 p<0.0001 ** 表示 p<0.001。B) 跨一系列参数值对性能进行建模。每个面板都是一个热图,显示了一对非冲动和冲动代理的平均奖励差异,由最左边的折扣因素表示。每列都有一组热图,用于预期珠子的多数部分,q代理.每行都有一组热图,用于一对折扣因子(冲动和非冲动)。每个热图的 x 轴是绘制成本,y 轴是模型输入 q 之间的差值代理和用于生成磁珠抽取的多数部分,q环境.热图的颜色指示脉冲代理(红色)还是非脉冲代理(黑色)收集了更多奖励。更多的蓝色值表示非冲动代理收集了更多的平均奖励,更多的红色值表示脉冲代理收集了更多的奖励。如 q代理增加(从左到右),非冲动代理表现更好的领域扩展。左上面板热图中的白框突出显示了用于创建图4A(左)条形图的数据。所有热图均使用 R 生成正确= 10, R不對= -12。参见 S1 图 (B) 和 R正确= 10, R不對= -10。
https://doi.org/10.1371/journal.pcbi.1010873.g004
我们还检查了更广泛参数空间的相对性能,包括用于生成磁珠绘制序列的骨灰盒中大部分珠子(q环境),代理对珠子大部分部分的信念(q代理)、抽奖成本(C画),以及模型折扣系数 (γ)。我们改变了多个脉冲代理(γ = 0.55, 0.6, 065)的这些参数,并比较了脉冲代理和非脉冲代理在这些任务条件下收集的平均奖励(γ = 0.99)(图4B)。如 q代理增加,非脉冲代理表现更好的参数域区域扩大。存在一系列任务参数,其中脉冲代理可以比非脉冲代理获得更多的奖励。对于所有任务条件,R正确为 +10 且 R错误为 -12,以鼓励冲动代理多次抽取。然而,也存在一些参数域,其中脉冲代理在R正确= |R错误|(见S2图)。因此,在信息抽样任务中,当积累的信息量低于预期并且与成本增长相关时,冲动行为可能是有益的。
冲动代理通过在探索-利用任务中较少探索新选项而受益
在探索-利用任务中,有三个选项以相等的固定奖励获得回报,但奖励概率可变。代理必须通过选择选项并体验奖励来了解哪个选项最有价值。强盗是静止的,因为每个选项的奖励率是固定的。然而,新的选择选项在随机区间取代了熟悉的选项。当这种情况发生时,代理必须在探索新选项(在采样之前的期望值为 0.5)和利用熟悉的选项(代理具有估计的奖励概率)之间进行选择(图 5A)。在本示例系列试验中,显示了三个选项(A、B 和 C)。通过对这些选项的探索,代理了解每个选项的近似奖励率,并且应该学会更频繁地选择A,因为它是最有价值的。在本系列的最后一个面板中,引入了一个新选项来替换选项 A。新选项在第一次试验中的价值尚不清楚。用新选项替换选项的速率与环境的替代率参数化(p环境).替代率越高,环境越不稳定。使用新选项进行替换会影响代理在状态空间中的位置。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 探索 - 利用新奇的强盗任务。
A) 探索-利用任务中的试验序列示例。在此示例中,每个选项(A、B、C)都是具有基础奖励率的图片。代理或参与者必须通过选择选项以及在每次试验中获得或未获得奖励的经验来了解三个选项的价值。在此示例中,代理在多次试验过程中了解了选项的近似值(并非所有选项都显示),然后用新选项替换其中一个选项(选项 A)。新型选项替代率(p环境) 会影响代理必须了解选项的试验次数。当p环境如果很高,代理就更难了解期权的潜在值。B) 探索-利用任务的状态空间表示形式。每个选项都可以用单独的子树表示。因此,对于 C、A、B、A、A、B 等选择序列的示例序列,代理将完成 C 树的 1 个步骤、A 的 0 个步骤和 B 的两个步骤。代理会根据选择是否获得奖励而进入上分支或下分支。此示例序列的奖励显示为 1 或 <>。因此,代理通过选项 A 的子树的最上层分支前进,因为它被选中了三次。引入新选项会导致该选项在子树中的位置重置。当新选项在此序列的末尾显示并替换选项 A 时,代理会跳回到该选项的开头,因为奖励历史记录不再代表新选项的潜在价值。C)在低和高确定性环境中首次出现时平均原始奖励(左)和新选项的平均选择(右)的条形图。在左边,非冲动(黑色)和冲动(红色)代理的平均奖励为p环境显示值 0.04 和 0.20。在右侧,显示了首次出现时新选项的平均选择,对于相同的p值环境.表示 p<0.0001。跨迭代的绘图上的误差线。图上方的误差线表示非脉冲和脉冲代理的平均值之差的标准偏差。D)在一系列新选项替代率中,非冲动(黑色)和脉冲代理(红色)的最大可能奖励和平均新选项选择行为的平均百分比。在左边,平均奖励图显示,当新选项替代率(p环境)低,非冲动代理比脉冲代理收集更多的奖励,但当p环境高(大于 0.1),脉冲代理比非脉冲代理收集更多的奖励。新选择行为图显示,对于测试的所有新选项替代率,非冲动代理选择新选项的频率明显高于第一次试验出现的脉冲代理。图表上方的误差条表示非脉冲和脉冲代理的平均值之间差值的标准偏差。E) 一系列折扣因子的最大奖励和选择行为的平均百分比和 p代理= 0.08。F) (C) 和 (D) 所示折扣因子的最大奖励和选择行为的平均百分比,p代理= 0.04, 0.08, 0.16.图片来源:维基共享资源(场景图片)。
https://doi.org/10.1371/journal.pcbi.1010873.g005
此任务的状态空间可以用每个选项的一个二项式树表示。选择选项时,如果选项有奖励,代理会遍历该特定树的上半部分,如果选项没有奖励,则下半部分。引入新选项会重置已替换到根节点的选项的树。例如,假设一个代理在三个选项(A、B 和 C)中进行选择,并做出三个选择的序列:C、A、B、A、A、B。在这些选择之后,引入了一个新的选项来取代选项A(图5B)。在此示例中,假设选择 A 3 次并奖励 3 次,则树中的位置将沿着选项 A 的状态空间树的最上分支。如果选择 B 两次,然后得到奖励,然后没有奖励,则选项 B 的树将显示,如下所示。C被选中一次,没有奖励,状态空间中的位置将沿着最下面的分支迈出一步。当引入一个新选项时,如本例所示,在选项 A 的三个选择之后 (N一个),代理在选项 A 的树中的位置将跳回到开头,因为现在对新选项一无所知。其他选择树(B 和 C)中的位置保持不变。随着替换率越来越高,代理很少到达树中的深层节点,这反映了任何选项的更准确的奖励概率估计,因为它们在代理可以达到对选项值的准确估计之前被替换。我们假设,在这种情况下,对未来奖励打折的代理可能会通过尽可能长时间地利用已知选项而不是探索新选项来表现得更好。探索新的选择是一种时间投资,平均而言,只会在未来获得回报,因此在这种情况下,探索在更高的时间常数下更有价值,因为探索的相对价值是在未来获得的。
为了检验当新的替代率很高时,冲动策略会比非冲动策略表现更好的假设,我们改变了折扣因子(γ我= 0.65, γ镍= 0.99)和新型期权替代率(p环境).与磁珠任务类似,我们检查了一种情况,在这种情况下,代理认为每次试验的替代率(即概率)为0.08,实际替代率高于(0.2)或低于(0.02)该值(即p代理= 0.08, p环境= 0.02 或 0.2)。当替代率较高时,环境不确定性更大,因为选项经常被替换,而当替代率较低时,环境的不确定性较小。在环境中的替代率低于代理预期的情况下,非冲动代理收集了更多的平均奖励(图5C,左)(配对样本t检验,t(49)= -13.74,p<0.0001,d = -1.94,功效>0.99)。在环境中的替代率高于代理预期的情况下,脉冲代理收集了更多的平均奖励(图5C,左)(配对样本t检验,t(49)= 47.74,p<0.0001,d = 6.75,功率>0.99)。这对应于新选项的选择行为的差异。在两组任务条件下,脉冲代理选择新选项的频率较低(图5C,右)(配对样本t检验,t(49)= -202.23,p<0.0001,d = -28.60,某些环境的功率>0.99,t(49)= -379.45,p<0.0001,d = -53.66,不确定环境的功率>0.99)。随着替代率的增加,两种药物选择新选项的频率都降低了。
根据新选项替代率,冲动和非冲动代理之间收集的平均奖励和新颖的选择行为不同(图5D)。当新型期权替代率低于0.06时,脉冲代理收集的奖励少于非脉冲代理,当替代率高于0.14时,奖励高于非脉冲代理(图5D,左)。请注意,在 0.02 时,每 2 次试验中只有 100 次是新的选择试验,因此由于与新选择的接触有限,代理的表现相似。平均而言,在所有替代率中,脉冲代理在首次出现时较少选择新选项(图5D,右)。采用双向方差分析折现因子(γ)和新期权替代率的影响(p环境)的平均奖励。随着替代率的增加,平均奖励降低(主效应:替代率,F(9,980) = 2176.12,p<0.001)。在低于0.10的低取代率下,非脉冲剂(γ镍= 0.99)收集的奖励比冲动代理(γ我= 0.65),在大于0.10的高替代率下,这种效应逆转,使得冲动代理比非冲动代理收集更多的平均奖励(主效应:折扣因子F(1,980)= 91.01,p<0.001,交互作用:替代率x折扣因子F(9,980)= 65.16,p<0.001)。同样,采用双向方差分析评估贴现因子和替代率对新选择行为的影响。随着替代率的增加,两种药物首次出现时新选择选项的选择减少(主要效应:替代率,F(9,980)= 2298.43,p<0.0001)。此外,在所有替代率中,非冲动因子选择新选项的频率明显高于脉冲因子(主效应:折扣因子,F(1,980) = 316014.59,p<0.0001)。环境替代率的变化对非冲动剂的新选择行为影响较大,因为非冲动物体对新选择的选择比最低取代率降低了~20%(p环境= 0.02)到最高替代率(p环境= 0.20),非冲动代理在所有替代率(相互作用:替代率 x 折扣因子,F(45,50) = 9.980,p<1170.38)中仅选择了新选项。
我们还检查了一系列代理替代率和折扣因素的相对表现。首先,我们改变了冲动代理折扣系数(γ我) 在保持代理替代率的同时,p代理= 0.08,常数(图5E)。作为脉冲代理的折扣系数(γ我)变得更接近非冲动代理的贴现系数γ镍,代理之间的差异在 p 的范围内环境减少。接下来,我们改变了代理的替代率(p代理),同时保持折扣系数不变(γ我= 0.65, γ镍= 0.99)(图 5F)。改变代理的替代率对冲动代理的平均奖励和新选择行为的影响可以忽略不计,但改变p代理对于非冲动代理,影响收集的平均奖励和新颖的期权选择行为(图5F)。当训练替代率最高时(p代理= 0.16),当p环境大于 0.10。这些结果表明,贴现因子对选择行为的影响大于训练的替代率。在所有情况下,在代理训练的替代率下,冲动和非冲动代理之间的平均奖励没有差异。因此,这是贴现因素的差异和代理商预期替代率之间的不匹配(p代理)和实际替代率(p环境),这是冲动和非冲动行为之间平均奖励和选择行为差异的原因。
功效分析表明,要观察图5C所示的效果,只需7次迭代即可观察到最小的效果。但是,这些迭代中的每一个都包括 250,000 次试验。为了向读者提供关于在使用人类参与者的实验中可能观察到的效应大小的指导,我们使用实验中可能的每次迭代更合理的试验次数进行模拟,同时保持迭代次数 50 次固定。对每次迭代(或理论上的人类参与者)进行 5000 次试验的模拟产生的结果对于某些替代率仍然很重要,但要弱得多,并且不在整个替代率范围内(双向方差分析,主效应:替代率 F(9,980) = 1.11,p = 0.2919,主效应:贴现因子 F(9,980) = 45.46,p <0.0001,交互作用替代率 x 折扣因子 F(9,980) = 2.36, p < 0.05)。特别是,按照图5C中的示例,在p子= 0.04 代理间平均奖励差异无统计学意义(配对样本 t 检验,t(49) = -0.79,p = 0.43,d = -0.11),但差异在 p子= 0.20 仍然显著(配对样本 t 检验,t(49) = 6.58,p<0.0001,d = 0.93)。这是因为总共只有 5,000 次试验,p子= 0.04 仅在 200 次新选项试验中产生结果。因此,如果有人有兴趣对人类受试者进行实验,则可以对每个受试者组中可用参与者的试验数量进行滴定,以观察高替代率下冲动行为的益处。
总之,我们已经表明,在三个常见的决策任务中,非冲动选择策略可能是有益的。特别是,当任务变量创建一个未来奖励不如预期确定的环境时,情况确实如此。
讨论
我们使用马尔可夫决策过程模型来研究环境不确定性与冲动选择策略优势之间的权衡。我们发现,在三项任务中,当环境比预期的更不确定时,具有冲动选择策略的智能体比具有较少冲动选择策略的智能体更有效。在时间折扣中,选择即时、较小、确定选项的代理比选择未来较大、不确定选项的代理获得更多奖励。这一发现延伸到用于测量冲动的其他任务。在信息抽样任务中,当受试者绘制珠子(有代价)以提高他们猜测正确骨灰盒颜色的能力时,当珠子的信息量低于预期时,尽早决定是有利的。当错误的选择导致巨大损失时尤其如此。最后,在定期引入新选项的探索-利用任务中,探索新选项仅在将来可供利用时才有益。因此,当可用选项的周转频率高于预期时,探索的价值就会降低,而选择具有较高即时预期值的选项的冲动策略更具优势。我们的研究结果表明,当环境始终比预期更不确定时,通常被认为是适应不良的冲动选择策略可能是有利的。
未来奖励的价值取决于代理执行一系列选择的能力,这些选择导致提供这些奖励的未来状态。他们还依赖于未来奖励的主观权重。当环境不确定时,行动不一定会导致期望的未来状态。这导致未来期望值(FEV)降低,即时奖励的相对价值增加。如果未来状态的条件分布,p(j|st,a),是宽泛的(即高熵),以动作和状态为条件,代理无法控制其向未来状态的过渡,因为许多状态都可能发生。换句话说,代理人控制未来结果的能力有限。如果只有少数未来状态具有高效用,特别是如果某些未来状态具有负效用,这种缺乏控制将显着降低行动价值方程中未来预期奖励项的值。因此,适应不确定环境的智能体应该学会持续降低未来的预期值。在这里,我们通过在代理对 p(j) 有不同的期望的情况下操纵贴现因子来模拟这种减少|st,a)比任务给出的要好,并表明具有低折扣系数是有益的。
用于测量冲动性的实验室决策任务评估受试者时,假设所有受试者都将承担相同的转移概率,这些概率通常由任务指令给出,或者隐含。然而,如果参与者已经适应了他们所生活环境中不同程度的不确定性,他们可能会在条件状态转换的分布中做出不同隐含不确定性水平的选择。由于这些是由实验假设固定的,因此行为差异将归因于折扣因子的差异。然而,受试者对转移概率的估计也很差,并且将代理的折扣因子与他们给任务带来的状态转移函数的不确定性分开并不简单,两者都会降低未来的期望值。换句话说,当对环境的统计信息进行准确建模时,任务性能始终是最佳的。但是,如果代理的期望与真实环境统计数据不同,就像本研究中的情况一样,那么打折未来的奖励可能有利于任务绩效。我们选择对环境的转移概率比代理预期的更不确定的情况进行建模,因为这导致了较小的折扣因子的优势。然而,我们也可以匹配贴现因子,并表明在不确定的环境中,更好地接近不确定性的代理会比认为环境更确定的代理做得更好。无论是降低折扣系数还是增加对环境不确定性的估计,都会降低未来奖励的价值,因此使即时奖励相对更有价值。
我们研究中的时间折扣任务是在KDD行为评估之后建模的,KDD行为评估是一份问卷,用于评估受试者相对于较大的未来奖励对较小,即时奖励的特定偏好[58]。我们模拟了随机环境,使得未来的奖励并不总是能提供。重要的是,我们将延迟建模为具有转移概率的较大奖励,并使用MDP(一种基于效用的模型)来计算转移概率高于预期(某些环境)和低于预期(不确定环境)时的行动值,这使得TD模拟具有风险的跨期选择。我们发现,当向更大延迟奖励的转换概率高于预期时,冲动代理的表现更差,类似于先前使用概率未来奖励的发现(有关综述,请参阅[61,62])。然而,当环境中延迟奖励的过渡概率低于预期时,折扣因子较低的冲动代理比选择更大的未来未交付奖励的非冲动代理获得更多的平均奖励。冲动代理的成功被对未来奖励的期望与达到该奖励的潜在概率之间的不匹配所放大。如前所述,冲动经常被给予负面解释。相比之下,我们证明,在某些情况下,选择较小的即时奖励可能是有益的,在这种情况下,是冒险的跨期选择。属性比较(即时间与时间和概率与概率)或基于效用的模型是否更适合捕获期间选择行为和神经表征仍然是一个悬而未决的争论,并且有许多种基于属性组合的跨期选择[62]。在这里,我们演示了一个示例,其中脉冲代理比非脉冲代理表现得更好,并且此示例可以通过在一系列属性中使用不匹配的期望来扩展到其他类型的跨期选择。最近用于评估当前和未来奖励权重的相关贴现任务的工作,例如棉花糖任务[63],也表明对即时奖励的偏好可能与实验者的感知可靠性和信任有关,而不是特质冲动,这表明期望的准确性会影响选择行为[64].其他研究表明,棉花糖任务中的直接选择是对时间延迟的理性适应,而不是自我控制的失败[20]。因此,尽管物质使用障碍和某些精神障碍患者在行为任务中可以表现出更高的冲动选择[65],并且这是作为其障碍的可能维度解释,但当任务环境使未来的奖励不太可能低于预期时,有利于即时的、较小的奖励可能是有益的。
信息抽样任务也被用于评估冲动性[5,42,66]。这些任务的变化包括随机点运动感知推理[67],感知运动推理[68]和顺序采样范式[44,66,69-71]。我们在Beads任务中对选择进行了建模,该任务也被用于评估具有采样成本的离散信息采样[41,44,45]。在这个任务中,参与者被要求猜测骨灰盒中珠子的大多数颜色。在每次试验中,他们都可以以很小的成本从骨灰盒中抽出一颗额外的珠子,或者猜测大多数颜色。因此,绘制额外的珠子可以提高准确性,但要付出代价。过去的工作使用了各种模型来捕获感知推理任务中的反应时间和选择行为,包括众所周知的漂移扩散框架[72,73]和变体[67,74],包括完整的POMDP开发[67],类似于我们使用的。漂移扩散框架捕获通过阈值交叉终止信息采样的决策。在这里,我们通过量化继续积累信息(即绘制珠子)与根据先前收集的信息(即猜测颜色)做出选择的行动值,在不需要拟合阈值的情况下对决策进行了建模[41,44]。我们操纵了实际磁珠抽取的概率分布,使其高于或低于代理预期的多数部分。我们还使猜错的成本大于正确猜测的成本,以鼓励从冲动代理中吸取行为。当骨灰盒中大部分珠子低于代理的期望时,冲动代理比非脉冲代理积累更多的奖励,因为非脉冲代理累积的信息量低于预期。
我们表明,在我们操纵成本和不确定性的条件下,冲动代理可以表现得更好,但是当猜错的成本大于猜错的奖励时,这种效果会加强。过去有一些关于珠子任务和不对称奖励结构的工作,但据我们所知,只有小奖励和大奖励,而不是猜测成本[75]。在未来的工作中探索不对称支付会很有趣。根据之前在Beads任务中的信息抽样期间对认知资源的建模,我们预测损失上下文会以反映一般风险偏好的方式抑制人类参与者的猜测,而不是对认知要求很高的精确在线计算[76]。过去的工作还表明,操纵抽样成本会导致抽样变化,因此当抽样成本较低时,参与者可能会被迫过度抽样[68,77]。抽样也会受到坚持不懈行为的影响,而不仅仅是寻求信息,尤其是在冲动的受试者中。在一项研究中,受试者被要求报告他们对珠子任务变体中多数颜色概率的估计,随后的分析表明,以冲动行为为特征的精神分裂症患者具有与临床妄想频率相关的持续绘制。然而,当妄想在分析中得到控制时,与健康个体相比,相同的患者表现出更少的信息寻求,这表明坚持不懈的绘画有时与信息寻求的目标无关[78]。
我们的结果表明,不仅抽样成本,而且抽样信息的预期效用也会影响抽样和整体性能。然而,这里的模拟没有考虑到坚持不懈的行为,这可能是冲动的一个特征,并推动了看似坚持不懈的信息寻求。在我们的模拟中,当从采样中获得的信息较少时,脉冲代理从采样中受益较少。未来涉及冲动人类受试者的实验可以测试这种损失背景的影响,也可以在持久绘画模型中包含一个单独的术语,该术语独立于与信息寻求相关的绘图。
冲动选择也被证明与临床疾病和物质滥用中的寻求新奇性有关[79-83]。然而,这些研究经常使用自我报告问卷来衡量寻求感觉作为寻求新奇行为的指标。我们对新颖性寻求的衡量标准与探索-利用权衡有关,并将学习新选项(即探索)的投资付诸实施,因为投资可能会在未来(开发)得到回报,在一个具有新选项的明确特征的强盗任务中[44,46,84-86]。在探索-利用任务中,我们操纵了新选项的替换率。当替代率高于预期时,冲动代理通过不经常探索新选项平均获得更多奖励。这是有利的,因为新的选择比预期的更频繁地被替换,因此时间跨度短,因此将来无法利用。当环境不稳定或时间跨度很短时,探索不会得到回报,因为未来没有选择,而优先考虑即时回报的冲动策略更有益。直接操纵可用选择的时间范围显示出类似的结果,并表明人类受试者可以在探索-利用任务期间适应选项的时间范围[21]。然而,过去在临床组中调查新颖性寻求的工作显示出不同的结果。在自我报告问卷中冲动性排名较高的临床组已被证明表现出寻求风险和寻求新奇的行为,但并非在所有病例中[87],在一些患者人群中,寻求新奇和冲动在很大程度上是可分离的行为[88,89]。我们在这里模拟的探索-利用任务的过去工作表明,随着该模型中折扣因子的增加,新颖性奖励也会增加[44,85]。这种新颖性奖励可以解释在其他选项中选择新选项的高率[84,85]。虽然这里的结果显示对冲动代理的新颖性寻求较少,但该框架将允许将这两个决策特征分离的实验。例如,我们预测一些标记为冲动的临床组将表现与我们的计算冲动剂相似,并且在高替代率环境中的表现优于健康对照组,而其他人会更频繁地选择新选项,这可能会损害整体表现。通过操纵任务参数,有可能阐明临床人群的冲动与寻求新奇之间的相互作用,我们将其定义为探索奖励率未知的选项。
在提出的所有三个任务中,我们在错误估计任务环境的背景下对冲动选择行为进行了建模,并操纵了加权未来奖励价值的折扣因子。然而,实验室任务中的个体可能会表现出对更小、更确定的选择的偏好,要么是因为它会来得更快(时间偏好),要么是因为它是确定的(风险偏好)。过去的工作表明,在估计贴现因子时,个体对风险的态度可能因时间偏好而起独立作用[90,91]。虽然我们没有在我们的模型中分离这两个因素,但过去的工作已经将对时间和风险的偏好纳入贴现因子项,以改善对人类受试者贴现的估计[92]。
此外,个人对即时奖励的偏好是由于对风险的态度还是由于无法学习向未来奖励的过渡概率,仍然是一个悬而未决的问题。虽然超出了本研究的范围,但值得承认的是,冲动的选择可能源于规划能力差,或者有意识地贬低未来预期值。然而,最近的研究表明,计划或目标追求的缺陷可能与冲动选择行为是分开的,因为被标记为冲动的人类受试者也可能表现出需要广泛计划的目标导向行为[93]。
总之,既往研究表明,临床组的冲动决策是适应不良的[94,95]。相比之下,我们在这三个任务中的结果表明,冲动行为本质上并不是消极的,当环境比预期更不稳定时可能是有益的。因此,冲动选择模式可以是自适应最优的。次优的不是代理,而是代理适应的环境与测试代理的环境之间的匹配。此外,这里的框架预测了通过自我报告或其他方式被标记为冲动的人类受试者如何在各种决策任务中表现得更好。虽然过去的工作表明,延迟和风险不一定是公平的,也不一定是神经水平上的单一结构[37,96],但过去的文献已经通过对未来奖励和贴现因子进行贴现来操作冲动[55,56,97]。通过将这三个任务组合到一个框架中,由折扣因子联合起来,可以为人类参与者验证折扣因子的一致性。我们已经证明了脉冲代理可能比可用于测试人类参与者的非脉冲代理表现更好的参数机制。例如,如果“冲动”的人类参与者在TD和Beads中表现出冲动选择,但在探索-利用任务中选择的新选项远远超过非冲动的代理,这表明应该重新考虑折扣因子,作为在新奇背景下操作冲动选择的一种方式。
越来越多的文献表明,在资源匮乏的环境中的经验和早期生活压力如何导致决策行为的改变,并有利于立即而不是未来的奖励[98-103],这表明冲动选择行为可能是对环境不稳定的适应。此外,对环境可控性的准确评估已被证明会随着发育和年龄的增长而改善,这表明一些冲动选择行为可能由发育过程中的功能障碍引起[104]。虽然冲动通常被认为是一种特质,但它可能是一种状态,也许是缓慢变化的,冲动选择行为可能反映了主体已经适应的环境。未来的工作应该调查患者适应冲动任务环境的灵活性。这里介绍的计算框架开辟了各种可能性,可以将冲动选择行为理解为梯度,而不是二元标签,并更好地理解人类受试者如何在货币贴现、信息抽样和寻求新奇的背景下权衡当前和未来的回报。我们相信这个框架允许以新的眼光量化冲动选择行为,这对临床医生和研究人员研究导致冲动选择的因素很有用。
方法
下面描述的所有模拟和分析都是使用 MATLAB 进行的。
通用算法
我们首先讨论算法中在所有任务中保持一致的方面。在相同的三项任务中,类似的方法被用于分析患者数据[43]。在本手稿中,我们正在进行理论分析,以模拟不同代理的行为偏好。前面描述了其中两个任务(信息采样和3臂老虎机)的模拟[44]。我们首先总结基本框架,在前两项研究中对此进行了更详细的描述。然后,我们描述了每项任务的细节,以及用于实现不同不确定性水平的代理和环境的操作,以回答本研究中提出的问题。
所有任务都涉及在每个步骤中考虑即时奖励和未来奖励,而不考虑先前的步骤。因此,所有任务都可以建模为马尔可夫决策过程(MDP)或部分观察MDP(POMDP)。MDP 框架将状态 s 的效用 u 建模为
(1)
其中,状态 s 在时间 t 时的可用操作集,a 是操作,Q(st,a) 是操作值。操作值是即时奖励、可能成本和折扣预期未来奖励的组合:
(2)
其中 r(st, a) 是当时间 t 在状态 t 中立即收到的奖励,如果采取了行动 A,而 C(st,a) 是采样成本。这些数量构成了即时期望值 (IEV),即在执行操作时将在当前时间步长内收到的奖励(成本)。未来期望值 (FEV) 是给定操作的贴现预期未来奖励。期望在时间 t + 1 接管所有可能的未来状态 S。每个转移概率,p(j|st, a),是如果采取行动 a,从当前状态转换到特定状态 j 的概率。折扣因子 g 定义了未来奖励的折扣,其值介于 0 和 1 之间。因此,效用方程是所有可能的行动的最大化,以找到最有价值的行动。
对于离散状态,具有可处理状态空间的有限视界模型(例如时间折扣和信息抽样),效用估计可以通过反向归纳法计算[44,53,105]。由于这些任务中的选择序列终止并定义了最终奖励(结果),因此我们可以从定义最终状态的实用程序开始。然后,我们可以向后工作以定义先前状态的效用。如果 N 是最终状态:
1. 设置 t = N
(3)
2. 替换 t-1 并计算实用程序:
(4)
然后设置:
(5)
3. 如果 t = 1,则停止,否则返回 2。
该集包含最大化效用的所有操作 a。
探索-利用任务被建模为无限地平线POMDP。使用价值迭代算法拟合效用[44,53]。该算法首先初始化跨状态的实用程序向量,u0,到随机值,然后计算:
(6)
由于任务的状态空间在有用的视野内是难以处理的,我们使用B样条基函数近似[44]来估计效用:
(7)
其中是效用的近似值,b我是基系数,φ我(s) 是基函数。然后,我们计算了一个投影矩阵 H 和近似值:
(8)
近似值插入方程 (6) 的右侧以代替 un(对新值的近似值进行迭代计算,直到收敛:
(9)
操纵不确定性
基于MDP构建的代理在与环境统计数据匹配时优化预期奖励,其中匹配意味着构建代理的概率模型的参数是代理在模拟中采样的环境参数[53]。因此,当非脉冲性 MDP 代理与环境的统计数据不匹配时,该代理的性能将优于非脉冲代理。在这里,我们对当前和未来预期值之间的权衡感兴趣,因为这是通过脉冲的实验测量评估的权衡。相对于FEV,冲动的受试者比IEV超重,因为他们更喜欢即时奖励而不是延迟奖励。因此,我们考虑了FEV中代理和环境之间的不匹配,这是状态转换不确定性的产物,p(j|st,a)和折扣系数,γ。
一种方法是证明当环境中的转移概率更加不确定时,即当p(j|sta)在环境中是高熵,代理假定P(j|st,a)是低熵会比具有适当环境模型的代理做得更差。但是,这不会显示折扣系数的差异,因为匹配的折扣系数也是如此。实验室中使用的冲动行为测量和冲动的描述性定义通常使用折扣因子来表征冲动选择。因此,我们选择了一种方法,该方法可以表明,当环境和代理商的期望不匹配时,具有较短的时间范围(以较小的折扣系数为特征)可能是有益的。具体来说,当环境比预期更不确定时,冲动选择策略可能是有益的。在每个决策任务和模型的描述之后,我们描述了我们如何修改描述代理期望的参数和描述代理做出选择的环境的参数,以实现代理的期望与实际环境之间的不匹配。因此,我们使用假设的不确定性值对MDP代理进行建模,随后使用这些代理在不确定性值不匹配的环境中做出选择。我们使用“agent”的下标作为MDP模型参数,使用“env”的下标(表示环境),以引用用于生成每个试验的实际结果的统计数据。因此,代理与他们的环境不匹配,我们检查了这种不匹配以及不同的折扣因素对收到的奖励数量的影响。
冲动的操纵
在所有任务中,我们使用折扣因子γ来模拟冲动和非冲动的选择策略。冲动剂的特点是折扣系数低γ冲动(I)<0.7.非冲动代理具有很高的折扣系数γ非冲动(NI)= 0.99。
统计分析
为了比较代理对的平均奖励和选择行为,如结果所示,使用配对t检验和配对样本t检验。对于探索-利用任务,使用双向方差分析来确定折扣因子和替代率的主效应以及交互作用效应对平均奖励和选择行为的影响。为了计算效应大小,我们使用了科恩的d。当给予受试者相同的试验时,我们对配对样本x1和x2使用Cohen的d效应大小:
(10)
当药物接受不同的试验时,我们使用
(11)
哪里μ1和μ2是平均值和 s1和 s2是每个代理的奖励或选择行为的样本标准差。为了指导人类参与者使用这些任务,我们计算了在观察到的效应大小下确保比较具有指定功效所需的迭代次数(即样本大小)。我们使用β = 0.80的幂,显著性水平α = 0.05 [106]。
时态折扣任务
在临时折扣任务中,代理可以在较小的即时奖励 (R1)和更大的延迟(可能是概率)奖励(R2).该任务有几种变体。例如,柯比延迟折扣问卷包括这样的问题,“你更喜欢今天54美元,还是55天后117美元?”和“你更喜欢今天55美元还是75天后61美元?”[38]. 在决策模型中使用这些问题的答案来估计折扣系数。大量研究表明,奖励价值会随着奖励的延迟而降低[38,107-109]。此外,即使实验表明延迟奖励是确定的,当结果是即时而不是延迟时,人类参与者更频繁地选择期望值较低的选项。当两个选项都有延迟时,参与者选择具有较大预期值的选项,即使延迟更大。结合不确定性操纵(通过概率奖励提供)和时间延迟的实验表明,直接操纵不确定性对延迟奖励的偏好几乎没有影响。这些实验表明,人类参与者将不确定性归因于延迟奖励[37]。
为了对这项任务进行建模,我们使用了之前发表的准双曲贴现模型[43,44,109]。我们假设一个状态空间,其中操作 a(选择即时奖励或选择延迟奖励)导致即时奖励状态 (s红外) 或一系列过渡态 (sb).每个过渡状态都会导致随后的过渡状态,即中间终端状态(s一个) 终止剧集并且不产生任何奖励,或者如果是最终过渡状态,则为最终奖励状态 (s博士) 其中 R2收到。无奖励状态序列将时间延迟建模为第二个选项,以及一个人达到最终延迟奖励状态的能力的不确定性(s博士).转移概率由两个参数定义:β,参数化第一步在 t = 0 时的转移概率,δ,即顺序 s 之间的离散转移概率b过渡状态。因此,该模型以以下概率实现状态空间的进展:
在开始时移动到下一个中间转换状态的概率为:
(12)
开始时以退出状态终止的概率为:
(13)
假设我们处于中间过渡状态,则移动到下一个中间过渡状态的概率:
(14)
假设处于中间过渡状态,则在退出状态终止的概率为:
(15)
即时奖励的值为 R1延迟奖励的值为 Q(a = 选择 R2延迟时 N) = R2βδN.对于本研究中的建模,所有条件的 β = 1,这使得准双曲模型等效于指数模型。虽然MDPs固有地以指数方式折现未来奖励,但过去的工作表明,通过双曲线贴现可以更好地拟合人类行为[110-112]),并且β<1的值可能更适合拟合人类行为数据,但不会影响对此处提供的结果的解释。
操纵时态贴现任务中的不确定性
对于时间贴现任务,δ,转移概率用于操纵不确定性。如果 δ = 0.5,则退出中间、无奖励状态的可能性与向最终奖励状态更近一步的可能性,如果 δ = 0.9,则 90% 的时间都会进入下一个状态。环境中的不确定性被建模为延迟奖励的预期转移概率的δ值小于用于计算在代理模型中选择延迟奖励的状态操作值的值。状态操作值 Q(st,a),使用 δ 计算代理真实结果是用δ模拟的环境,其中δ代理<δ环境(某些环境)和δ代理>δ环境(不确定的环境)。因此,每个δ,δ代理和δ环境,有两个可能的值 0.55 和 0.99,尽管结果并不取决于这些确切值。我们比较了两个代理商的表现,其中一个具有低折扣系数(γ脉冲= 0.6)和一个具有高折扣系数(γ非冲动= 0.99),分别模拟冲动和非冲动行为。
为了模拟多个试验的结果,使用一系列无单位的小奖励规模(R1= 1:0.5:51)和大奖励大小(R2= 50:10:1050)和无单位时间延迟(N = 1:20)。对于每个试验,操作值 Q(st,a) 使用折扣系数计算两个选项,γ代理和δ代理使得 Q(选择 R1) = R1和 Q(选择 R2) = R2 γ代理Nδ代理N.然后,代理选择较大的操作值,以确定它们是否收到 R1或通过模拟向R的过渡状态进行2在那次审判中。为了模拟延迟奖励的过渡状态,使用δ模拟了一系列概率状态环境和 N,使得代理有效地进行了 N 伯努利试验,p = δ环境以确定 R 是否2在审判中收到R时2被选中,或者未收到奖励。平均奖励是针对每个环境中的每个代理在 10 次迭代中计算的,每次 100 次试验。然后,我们比较了收到的平均奖励和选择较大、延迟选项的频率,当δ代理<δ环境当δ代理>δ环境对于两个代理。
信息采样(磁珠)任务
在信息抽样任务中,要求参与者猜测骨灰盒中珠子的大多数颜色(两种颜色之一,例如蓝色和绿色)。大多数珠子颜色的证据是一次累积一颗珠子,每颗珠子的绘制成本很小。在每个时间步长,有三种可能的操作:(a)猜测绿色(b)猜测蓝色或(c)绘制另一个珠子以收集更多信息。状态,st,由抽奖次数 (nd)和累积的蓝色珠子的数量t= {nd, nb}.每次抽珠会产生成本,C画(st,a),并且有最大允许的抽奖次数。这使我们能够使用有限视界、有限状态 POMDP [45] 对任务进行建模。其他参数包括多数瓮中珠子的真实比例(q),正确猜测的奖励(R正确)和猜错的代价(R错误).
对于给定的试验,使用多数磁珠q的分数生成磁珠绘制序列(最大长度)。为每个步骤的每个可能操作计算状态操作值,以确定代理何时应停止绘制并猜测多数颜色。
对于猜测骨灰盒大部分是蓝色的:
(16)
其中 pb是骨灰盒多数为蓝色的概率,由下式给出:
(17)
和 pg是骨灰盒多数为绿色的概率,由 p 给出g= 1?pb..为了猜测骨灰盒颜色,MDP 效用方程中表示 FEV 的第二项为 0,因为选择骨灰盒会终止动作序列。
对于再次绘制,a = draw,我们有:
(18)
从给定状态,st,如果代理再次绘制,则两个可能的下一个状态为T+1= {nd+1, nb+1} 如果绘制了蓝色珠子,则为T+1= {nd+1, nb} 如果绘制了绿色珠子。相应的转移概率为:
(19)
和
(20)
对每个步骤执行的操作是具有最高值的操作。当猜测蓝色或绿色的动作值高于抽奖的动作值时,选择相应的骨灰盒并计算总奖励(猜测是否正确,以及抽奖次数)。为了对平均代理行为进行建模,为每组任务参数生成了 100 个批次的 100 个绘制序列。为每个磁珠抽取序列的每个步骤计算操作值,并且代理在每个步骤中选择与最大操作值相关的操作。一旦代理选择了一种颜色或达到最大抽奖次数(在这些模拟中为 20 次),就会计算收集的奖励和产生的抽奖成本,并记录选择前的抽奖次数。这是在一个批次中的所有模拟序列中进行的,并计算了各批次的磁珠抽奖的平均奖励和平均抽奖次数。对所有任务参数集中的每个折扣系数重复此操作。
操纵信息采样(磁珠)任务中的不确定性
为了改变磁珠任务中的不确定性水平,修改了三个参数以创建参数环境,其中非脉冲代理(更高的折扣因子,γ镍= 0.99)或脉冲因子(较低的折扣系数,γ我= 0.55)将获得更多的整体奖励。一、多数珠子的比例,q环境,用于生成磁珠绘制序列高于或低于用于计算代理状态操作值的多数分数,q代理.例如,如果 q环境,用于生成磁珠绘制,低于 q代理,那么代理将期望从实际序列中存在每个磁珠抽取的更多信息。修改的第二个参数是绘制珠子的成本(C画).变化的C画影响冲动或非冲动代理平均收集更多的奖励。三、猜错的代价(R错误) 设置的大于正确猜测的奖励 (R正确).虽然存在一个参数范围,其中|R错误|= |R正确|并且冲动代理可以收集更多的平均奖励,在这个域中,代理通常只在猜测其中一种颜色的动作值大于绘制珠子的动作值之前进行一次抽奖。如果|R错误|>|R正确|,这鼓励了脉冲代理的多次抽取,从而产生更丰富的行为输出。
探索-漏洞利用任务
探索-利用任务是一个 3 臂老虎机任务,其中一个选项以参数化的随机速率替换为新选项。每个选项的奖励大小相同,但从每个选项获得奖励的概率不同。代理必须通过经验了解每个选项的价值。代理在一段时间内体验三个可用选项后,将随机选择其中一个选项并替换为新选项。然后,代理必须决定是选择新选项(探索)还是选择(利用)代理有更多经验的其余两个选项之一。替换是事先不知道的,并且是随机发生的,因此无法计划替换选项。
在模型中,状态由选择每个选项的次数和奖励的次数来定义t = {R1,C1, R2,C2, R3, C3}.即时奖励估算由下式给出:
(21)
分子和分母包括 beta(1,1) 先验的假设,反映了 0.5 的先验奖励概率。可能的下一个状态集由所选目标给出,是否获得奖励,以及其中一个选项是否被新选项替换。新替换的概率,h是一个参数,q我 = r(st,a = i)。向没有新选择替换和没有奖励的状态的转移概率由下式给出: 如果所选目标得到奖励,但仍然没有新选项:
当引入新选项时,它可以替换所选选项或不同的选项。如果所选目标 i 未获得奖励,并且替换了不同的目标 j,则转移概率为:
只要所选目标没有获得奖励,转移概率是相同的,即使所选目标i被替换。相应地,如果所选目标 i 得到奖励,并且替换了不同的目标 j,则转移概率由下式给出:并且与所选目标 i 的奖励和替换相同。
在“探索-利用”任务中操纵不确定性
为了操纵探索-利用任务中的不确定性,我们改变了新选项的替换率。与信息抽样任务中的失配方法类似,代理具有单一的替换率(p代理= 0.08),新选项在环境中的替代率从p环境= 0.02 到 p环境= 0.2。因此,代理期望的取代率为0.08,但是在每个实验条件下,环境中的取代率高于,低于或等于预期的取代率。低替代率代表一定的环境,其中三个选项的值长期稳定。高替代率代表一个不确定的环境,因为经常采用新的选择,因此任何单一的选择都不能长期利用。
为了比较冲动和非冲动代理收集的平均奖励,我们改变了用于计算三个选项中每个选项的行动值的折扣因子(γ)。我们模拟了三个选项的 50,250 次试验的 000 次迭代。潜在的奖励率可以是0.8、0.5或0.3,当引入新的选项时,它们的奖励率是随机分配的。代理必须探索新的选择来了解他们的奖励率。可用选项集可以包括这三个奖励概率的任意组合。新选项取代了速率为 p 的选项之一环境.我们使用模型为这些试验生成操作值。通过为每个试验选择最大的操作值来生成选择。奖励是根据选择这些选项及其基本奖励率计算的。为了比较具有不同折扣因子的药物,针对每种替代率,对两种药物进行了相同的试验序列。
为了比较新选项的开发和探索之间的平衡,我们计算了不同代理在首次出现时选择新选项的频率。这是使用与计算平均奖励相同的选择数据计算的。
支持信息
时间折扣任务中一系列预期和实际转换概率中非冲动和冲动代理的平均奖励差异的热图。
显示 1/2: pcbi.1010873.s001.pdf
跳到无花果共享导航
S1 图非平均奖励差异的热图-冲动和冲动时态中一系列预期和实际转换概率的代理折扣任务。每个面板都是一个热图,显示平均奖励的差异一个一对非-一系列跃迁概率的冲动和冲动代理。d!"#$%(x-axis) 是馈送到模型的转移概率,并且d#$&(Y-轴)是实际的过渡用于计算未来预期值的概率的延迟奖励。
1 / 2
下载
无花果分享
S1 图 时间折扣任务中一系列预期和实际转换概率中非冲动和冲动代理的平均奖励差异的热图。
每个面板都是一个热图,显示了一对非冲动和冲动代理在一系列转换概率下的平均奖励差异。δ代理(x 轴)是馈送到模型的转移概率,δ环境(y 轴)是用于计算延迟奖励的未来预期值的实际转移概率。
https://doi.org/10.1371/journal.pcbi.1010873.s001
(英文)
S2 图 对一系列磁珠任务参数的行为进行建模,并具有正确和错误猜测的均匀结果(R正确= 10, R不對= -10)。
每个面板都是一个热图,显示了一对非冲动和冲动代理的平均奖励差异,由最左边的折扣因素表示。每列都有一组热图,用于模型的预期多数珠子比例,q代理.每行都有一组热图,用于一对折扣因子(冲动和非冲动)。每个热图的 x 轴是绘制成本,y 轴是模型输入 q 之间的差值代理和用于生成磁珠抽取的多数部分,q环境.更多的蓝色值表示非冲动代理收集了更多的平均奖励,更多的红色值表示脉冲代理收集了更多的奖励。如 q代理增加(从左到右),非冲动代理表现更好的领域扩展。
https://doi.org/10.1371/journal.pcbi.1010873.s002
(英文)
确认
我们要感谢西尔维娅·洛佩兹·古兹曼博士审阅了这份手稿的早期版本。
引用
1.小史蒂文斯,斯蒂芬斯·冲动的适应性。冲动:贴现的行为和神经科学。2010;361–387.
查看文章谷歌学术搜索
2.Moeller FG, Barratt ES, Dougherty DM, Schmitz JM, Swann AC. 冲动的精神病学方面。Am J 精神病学。2001;158: 1783–1793.pmid:11691682
查看文章PubMed/NCBI谷歌学术搜索
3.埃文登·各种冲动。精神药理学(贝尔)。1999;146: 348–361.pmid:10550486
查看文章PubMed/NCBI谷歌学术搜索
4.Ioannidis K,Hook R,Wickham K,Grant JE,Chamberlain SR.赌博障碍和问题赌博中的冲动:荟萃分析。神经精神药理学 2019 44:8。2019;44: 1354–1361.pmid:30986818
查看文章PubMed/NCBI谷歌学术搜索
5.克拉克 L, 罗宾斯 TW, 埃尔舍 KD, 萨哈基安 BJ.当前和以前的物质使用者的反射冲动。生物精神病学。2006;60: 515–522.pmid:16448627
查看文章PubMed/NCBI谷歌学术搜索
6.罗杰斯,默勒,斯旺,克拉克·最近关于吸毒和精神健康障碍个体冲动的研究:对酗酒的影响。酒精临床实验研究 2010;34: 1319–1333.密码:20528825
查看文章PubMed/NCBI谷歌学术搜索
7.测量冲动并模拟其与吸烟的关系。行为神经科学修订版 2004;3: 261–275.密码:15812110
查看文章PubMed/NCBI谷歌学术搜索
8.埃弗里特BJ,罗宾斯TW。强化毒瘾的神经系统:从行动到习惯再到强迫。自然神经科学 2005 8:11.2005;8: 1481–1489.密码:16251991
查看文章PubMed/NCBI谷歌学术搜索
9.罗宾斯TW,吉兰CM,史密斯DG,威特S德,厄舍KD。冲动和强迫的神经认知内表型:走向维度精神病学。趋势Cogn Sci. 2012;16: 81–91.pmid:22155014
查看文章PubMed/NCBI谷歌学术搜索
10.巴克利。行为抑制,持续注意力和执行功能:构建ADHD的统一理论。心理公牛。1997;121: 65.密码:9000892
查看文章PubMed/NCBI谷歌学术搜索
11.Dekkers TJ,de Water E,Scheres A.患有注意力缺陷/多动障碍(ADHD)的青少年的冲动和冒险决策:需要发展观点。当代心理学评论. 2022;44: 330–336.密码:34953445
查看文章PubMed/NCBI谷歌学术搜索
12.Peluso MAM, Hatch JP, Glahn DC, Monkul ES, Sanches M, Najt P, et al.情绪障碍患者的特质冲动。J 影响不和谐。2007;100: 227–231.密码:17097740
查看文章PubMed/NCBI谷歌学术搜索
13.斯旺AC,多尔蒂DM,帕扎利亚PJ,范M,默勒FG。冲动:双相情感障碍与药物滥用之间的联系。躁郁症。2004;6: 204–212.pmid:15117399
查看文章PubMed/NCBI谷歌学术搜索
14.Reddy LF, Lee J, Davis MC, Altshuler L, Glahn DC, Miklowitz DJ, et al.双相情感障碍和精神分裂症的冲动和冒险。神经精神药理学。2014;39: 456.密码:23963117
查看文章PubMed/NCBI谷歌学术搜索
15.巴拉特·冲动和焦虑的一些心理测量的因子分析。心理学代表 1965;16: 547–554.密码:14285869
查看文章PubMed/NCBI谷歌学术搜索
16.艾森克SBG,艾森克HJ。冲动在人格描述的维度系统中的位置。英国社会与临床心理学杂志。1977;16: 57–68.密码:843784
查看文章PubMed/NCBI谷歌学术搜索
17.达利JW,罗宾斯TW。分离冲动:神经精神学意义。自然评论神经科学2017 18:3。2017;18: 158–171.密码:28209979
查看文章PubMed/NCBI谷歌学术搜索
18.奥托AR,马克曼AB,爱BC。现在,采取更多:冲动选择的最优性取决于环境结构。社会心理学个人科学 2012;3: 131–138.pmid:22348180
查看文章PubMed/NCBI谷歌学术搜索
19.Raio CM, Konova AB, Otto AR. 特质冲动和急性压力相互作用,影响多阶段决策过程中的选择和决策速度。科学代表 2020;10: 1–12.pmid:32385327
查看文章PubMed/NCBI谷歌学术搜索
20.麦奎尔JT,凯布尔JW。理性的时间预测可能是延迟满足的明显失败的基础。心理学修订版 2013;120: 395–410.密码:23458085
查看文章PubMed/NCBI谷歌学术搜索
21.威尔逊RC,吉安娜A,怀特JM,路德维格EA,科恩JD。人类使用定向和随机探索来解决探索-利用困境。实验心理学杂志 2014;143: 2074–2081.密码:25347535
查看文章PubMed/NCBI谷歌学术搜索
22.海恩斯JM,威利斯-摩尔ME,佩雷斯D,考辛斯DJ,奥杜姆AL.延迟满足的时间期望。J exp 肛门行为。2022 [引用时间:8-2022-36477783]。密码:<>
查看文章PubMed/NCBI谷歌学术搜索
23.Esteves M,Moreira PS,Sousa N,Leite-Almeida H.评估人类和啮齿动物的冲动:走翻译之路。前行为神经科学。2021;15: 79.pmid:34025369
查看文章PubMed/NCBI谷歌学术搜索
24.赛德斯马,利特菲尔德AK,科菲S,卡里亚迪卡。检查UPPS-P冲动行为量表的简短英文版本。上瘾行为。2014;39: 1372–1376.密码:24636739
查看文章PubMed/NCBI谷歌学术搜索
25.Patton J, Stanford M, Barratt E. Barratt impulsiveness 量表的因子结构。临床心理学杂志1995;51:768–774。pmid:8778124
查看文章PubMed/NCBI谷歌学术搜索
26.斯坦福大学,马蒂亚斯CW,多尔蒂DM,莱克SL,安德森NE,巴顿JH。巴拉特冲动量表五十年:更新和回顾。Pers Indiid Dif. 2009;47: 385–395.
查看文章谷歌学术搜索
27.Hook RW, Grant JE, Ioannidis K, Tiego J, Yücel M, Wilkinson P, et al.冲动和强迫的跨诊断测量:自我报告工具的综述。神经科学生物行为修订版 2021;120:455–469。pmid:33115636
查看文章PubMed/NCBI谷歌学术搜索
28.乔杜里 NS, 利夫西 EJ, 布拉什琴斯基 A, 哈里斯 JA.病理性赌博和运动冲动:荟萃分析的系统评价。赌博研究杂志 2017 33:4.2017;33: 1213–1239.密码:28255940
查看文章PubMed/NCBI谷歌学术搜索
29.Halperin J, Wolf L, Pascualvaca D, Newcorn J, Healey J, O'BRIEN JD, et al. 儿童注意力和冲动的差异评估。J Am Acad 儿童青少年精神病学。1988;27: 326–329.密码:3379014
查看文章PubMed/NCBI谷歌学术搜索
30.迪克曼 SJ.冲动,唤醒和注意力。Pers Indiid Dif. 2000;28: 563–581.
查看文章谷歌学术搜索
31.Carr MR,De Vriesa TJ,Pattija T.光遗传学和化学遗传学方法来操纵啮齿动物的注意力,冲动性和行为灵活性。行为药理学。2018;29: 560–568.密码:30169376
查看文章PubMed/NCBI谷歌学术搜索
32.Romer D. 青少年冒险,冲动和大脑发育:对预防的影响。发展心理生物学。2010;52: 263–276.pmid:20175097
查看文章PubMed/NCBI谷歌学术搜索
33.劳里奥拉 M, 潘诺 A, 莱文 IP, 勒胡埃斯 CW. 风险决策中的个体差异:气球模拟风险任务的感觉寻求和冲动的荟萃分析。J 行为 德西斯·麦.2014;27: 20–36.
查看文章谷歌学术搜索
34.拉米雷斯-马丁 A、拉莫斯-马丁 J、马约拉尔-克莱里斯 F、莫雷诺-库斯特纳 B、古兹曼-帕拉 J. 双相情感障碍的冲动、决策和冒险行为:系统评价和荟萃分析。心理医学 2020;50: 2141–2153.密码:32878660
查看文章PubMed/NCBI谷歌学术搜索
35.罗森鲍姆总经理,哈特利加州。 关于风险和冲动选择的发展观点。英国皇家学会哲学学报 B. 2019;374: 20180133.密码:30966918
查看文章PubMed/NCBI谷歌学术搜索
36.Hamilton KR, Mitchell MR, Wing VC, Balodis IM, Bickel WK, Fillmore M, et al.选择冲动:定义、测量问题和临床意义。人格障碍:理论、研究和治疗。2015;6: 182–198.密码:25867841
查看文章PubMed/NCBI谷歌学术搜索
37.Keren G, Roelofsma P. 跨期选择的即时性和确定性。器官行为哼1995;63: 287–297.
查看文章谷歌学术搜索
38.对未来的竞标:反对延迟奖励的规范贴现的证据。实验心理学杂志 1997;126: 54–70.
查看文章谷歌学术搜索
39.洛佩兹-古兹曼 S, 科诺瓦 AB, 格利姆彻 PW.冲动和风险的计算精神病学:风险和时间偏好如何在健康和疾病中相互作用。皇家学会哲学学报 b. 2019;374.密码:30966919
查看文章PubMed/NCBI谷歌学术搜索
40.Huq SF,Garety PA,Hemsley DR.受骗和非受骗受试者的概率判断。Q J Exp Psychol A. 1988;40: 801–812.密码:3212213
查看文章PubMed/NCBI谷歌学术搜索
41.弗尔N,阿韦贝克BB。顶叶皮层和岛叶与寻求与奖励相关决策相关的证据有关。神经科学杂志。2011;31: 17572–17582.密码:22131418
查看文章PubMed/NCBI谷歌学术搜索
42.贾姆希迪安 A, 奥沙利文 SS, 萨诺茨基 Y, 沙曼 S, 马特维延科 Y, 福尔蒂尼 T, 等.决策、冲动和成瘾:帕金森病患者会妄下结论吗?莫夫·迪索德。2012;27: 1137.密码:22821557
查看文章PubMed/NCBI谷歌学术搜索
43.阿韦贝克 BB, 贾姆希迪安 A, 奥沙利文 SS, 豪斯登 CR, 罗伊瑟 JP, 李斯 AJ.将未来行动映射到奖励的不确定性可能是行为成瘾中多种冲动性指标的表现的基础:帕金森病的证据。行为神经科学。2013;127: 245–255.密码:23565936
查看文章PubMed/NCBI谷歌学术搜索
44.阿韦贝克BB。强盗、信息抽样和觅食任务的选择理论。公共科学图书馆计算生物学. 2015;11.密码:25815510
查看文章PubMed/NCBI谷歌学术搜索
45.Moutoussis M,Bentall RP,El-Deredy W,Dayan P. 妄想患者跳跃到结论偏差的贝叶斯模型。2011;16: 422–447.密码:21480015
查看文章PubMed/NCBI谷歌学术搜索
46.科斯塔 VD, 特兰 VL, 图尔奇 J, 阿韦贝克 BB.多巴胺在决策过程中调节寻求新奇的行为。行为神经科学。2014;128: 556–566.密码:24911320
查看文章PubMed/NCBI谷歌学术搜索
47.Meyer RJ, Shi Y. 歧义下的顺序选择:武装强盗问题的直观解决方案.1995;41: 817–834.
查看文章谷歌学术搜索
48.Frank MJ,Doll BB,Oas-Terpstra J,Moreno F.前额叶和纹状体多巴胺能基因预测探索和开发的个体差异。自然神经科学 2009 12:8.2009;12: 1062–1068.密码:19620978
查看文章PubMed/NCBI谷歌学术搜索
49.斯泰弗斯M,李医学博士,瓦根梅克EJ。对强盗问题人类决策的贝叶斯分析。数学心理学杂志. 2009;53: 168–179.
查看文章谷歌学术搜索
50.Lee MD,Zhang S,Munro M,Steyvers M.人类的心理模型和强盗问题的最佳表现。Cogn Syst Res. 2011;12: 164–174.
查看文章谷歌学术搜索
51.萨顿R.S.,巴托公司。强化学习,简介。再版。在:麻省理工学院出版社。2018.
52.内夫茨·人工和生物系统中的强化学习。自然机器智能。自然研究;2019.第133–143页。
查看文章谷歌学术搜索
53.马尔可夫决策过程:离散随机动态规划。xvii. 马尔可夫决策过程:离散随机动态规划。纽约:威利;1994. https://doi.org/10.1002/9780470316887
54.吉洛维奇T,格里芬D,卡尼曼D.启发式和偏见。启发式和偏见:直觉判断的心理学。剑桥大学出版社;2002. https://doi.org/10.1017/CBO9780511808098
55.Martinez E, Pasquereau B, Drui G, Saga Y, Météreau é, Tremblay L. 腹侧纹状体支持哌醋甲酯对时间贴现任务中表达的冲动选择的治疗作用。科学报告 2020 10:1.2020;10: 1–11.密码:31959838
查看文章PubMed/NCBI谷歌学术搜索
56.小野田 K, 冈本 Y, 国里 Y, 青山 S, 志志田 K, 冈田 G, 等.奖励预测中的个体间折扣因子差异在地形上与尾状激活相关。实验脑研究 2011;212: 593–601.密码:21695536
查看文章PubMed/NCBI谷歌学术搜索
57.Kirby KN,Petry NM,Bickel WK。 海洛因成瘾者延迟奖励的折扣率高于非吸毒对照组。实验心理学杂志 1999;128: 78–87.密码:10100392
查看文章PubMed/NCBI谷歌学术搜索
58.延迟折扣概率奖励:费率随着金额的增加而降低。Psychonomic Bulletin & Review 1996 3:1.1996;3: 100–104.密码:24214810
查看文章PubMed/NCBI谷歌学术搜索
59.Scholten H,Scheres A,de Water E,Graf U,Granic I,Luijten M.减少延迟折扣的行为训练和操作:系统评价。Psychon Bull Rev. 2019;26: 1803–1849.密码:31270766
查看文章PubMed/NCBI谷歌学术搜索
60.Cisek P,Puskas GA,El-Murr S.变化条件下的决定:紧迫性门控模型。神经科学杂志。2009;29: 11560–11571.密码:19759303
查看文章PubMed/NCBI谷歌学术搜索
61.格林 L, 迈尔森 J.具有延迟和概率奖励的选择折扣框架。心理公牛。2004;130: 769–792.密码:15367080
查看文章PubMed/NCBI谷歌学术搜索
62.卢克曼 A, 唐金 C, 纽厄尔 BR.风险跨期选择模型的评估和比较。心理学修订版 2020;127:1097–1138。密码:32700921
查看文章PubMed/NCBI谷歌学术搜索
63.米歇尔 W, 绍达 Y, 皮克 PK.学龄前满足延迟预测的青少年能力的性质。心理学杂志, 1988;54: 687–696.密码:3367285
查看文章PubMed/NCBI谷歌学术搜索
64.基德 C, 帕尔梅里 H, 阿斯林 RN.理性零食:幼儿对棉花糖任务的决策受到对环境可靠性的信念的调节。认识。2013;126: 109–114.pmid:23063236
查看文章PubMed/NCBI谷歌学术搜索
65.Amlung M,Vedelago L,Acker J,Balodis I,MacKillop J.陡峭延迟贴现和成瘾行为:连续关联的荟萃分析。成瘾。2017;112: 51–62.密码:27450931
查看文章PubMed/NCBI谷歌学术搜索
66.Cardinale EM, Pagliaccio D, Swetlitz C, Grassie H, Abend R, Costa V, et al. 青少年的审议选择策略:与跨诊断焦虑症状的相关性:https://doi.org/101177/2167702621991805。2021;9: 979–989.
查看文章谷歌学术搜索
67.Drugowitsch J, Moreno-Bote RN, Churchland AK, Shadlen MN, Pouget A.在感性决策中积累证据的成本。神经科学杂志。2012;32: 3612–3628.密码:22423085
查看文章PubMed/NCBI谷歌学术搜索
68.Juni MZ,Gureckis TM,Maloney LT.具有显式采样成本的信息采样行为。决定(洗涤D C)。2016;3: 147–168.密码:27429991
查看文章PubMed/NCBI谷歌学术搜索
69.Bennett D, Oldham S, Dawson A, Parkes L, Murawski C, Yücel M. 信息采样任务中反射冲动的系统性高估。生物精神病学。2017;82: e29–e30.密码:27587264
查看文章PubMed/NCBI谷歌学术搜索
70.科斯塔VD,阿韦贝克BB。额叶-顶叶和边缘纹状体活动是最佳选择问题中信息抽样的基础。大脑皮层。2015;25: 972–982.密码:24142842
查看文章PubMed/NCBI谷歌学术搜索
71.Furl N, Averbeck BB, McKay RT. 寻找正确的先生:决策偏见会阻止我们找到最有吸引力的面孔。Cogn Psychol. 2019;111: 1–14.密码:30826584
查看文章PubMed/NCBI谷歌学术搜索
72.金岳,沙德伦明尼苏达州。神经计算是关于感官刺激决策的基础。趋势Cogn Sci. 2001;5: 10–16.密码:11164731
查看文章PubMed/NCBI谷歌学术搜索
73.Ditterich J. 关于运动方向决策的随机模型:行为和生理学。神经网络。2006;19: 981–1012.密码:16952441
查看文章PubMed/NCBI谷歌学术搜索
74.Tickle H, Tsetsos K, Speekenbrink M, Summerfield C. 人类在异方差世界中的选择停止。心理修订版 2021 [引用于 26 年 2022 月 34570524 日]。密码:<>
查看文章PubMed/NCBI谷歌学术搜索
75.Kobayashi K, Lee S, Filipowicz ALS, McGaughey KD, Kable JW, Nassar MR. 信息的主观价值的动态表示。神经科学杂志。2021;41: 8220–8232.pmid:34380761
查看文章PubMed/NCBI谷歌学术搜索
76.佩蒂特 P, 阿塔阿拉 B, 马诺哈尔 SG, 侯赛因 M.不确定性下决策前主动信息抽样的计算成本。自然人类行为 2021 5:7。2021;5: 935–946.密码:34045719
查看文章PubMed/NCBI谷歌学术搜索
77.鲍勒 A, 哈比希特 J, 摩西-佩恩 ME, 斯坦拜斯 N, 穆图西斯 M, 豪瑟 TU.儿童在不昂贵的情况下进行广泛的信息收集。认识。2021;208: 104535.密码:33370652
查看文章PubMed/NCBI谷歌学术搜索
78.贝克,科诺瓦,道恩德,霍加·精神分裂症妄想的一种独特的推理机制。脑。2019;142: 1797–1812.密码:30895299
查看文章PubMed/NCBI谷歌学术搜索
79.Voon V, Reynolds B, Brezing C, Gallea C, Skaljic M, Ekanayake V, et al.多巴胺激动剂相关冲动控制行为中的冲动选择和反应。精神药理学(贝尔)。2010;207: 645–665.密码:19838863
查看文章PubMed/NCBI谷歌学术搜索
80.卡什丹·结核病,霍夫曼·广泛性社交焦虑障碍的高新奇寻求冲动亚型。抑制焦虑。2008;25: 535–541.密码:17935217
查看文章PubMed/NCBI谷歌学术搜索
81.Black DW, Shaw M, McCormick B, Bayless JD, Allen J. 强迫性购买障碍中的神经心理学表现、冲动、ADHD 症状和新奇寻求。精神病学研究 2012;200: 581–587.密码:22766012
查看文章PubMed/NCBI谷歌学术搜索
82.Wood AC,Rijsdijk F,Asherson P,Kuntsi J.从横断面数据推断因果关系:检查多动冲动与寻求新奇之间的因果关系。前热内特。2011;2: 6.密码:22303305
查看文章PubMed/NCBI谷歌学术搜索
83.No?l X, Brevers D, Bechara A, Hanak C, Kornreich C, Verbanck P, et al. 酗酒个体中新颖性和感觉寻求的神经认知决定因素。酒精和酗酒。2011;46: 407–415.密码:21596760
查看文章PubMed/NCBI谷歌学术搜索
84.科斯塔VD,阿韦贝克BB。灵长类动物眶额叶皮层编码与管理探索-利用权衡相关的信息。神经科学杂志。2020;40: 2553–2561.pmid:32060169
查看文章PubMed/NCBI谷歌学术搜索
85.科斯塔VD,米茨AR,阿韦贝克BB。灵长类动物探索开发决策的皮层下基质。神经元。2019;103: 533–545.e5.pmid:31196672
查看文章PubMed/NCBI谷歌学术搜索
86.威尔逊RC,博纳维茨E,科斯塔VD,Ebitz RB。平衡勘探和开发与信息和随机化。行为科学的当前观点。爱思唯尔有限公司;2021.第49–56页。https://doi.org/10.1016/j.cobeha.2020.10.001 pmid:33184605
87.Aloi J, Crum KI, Blair KS, Zhang R, Bashford-Largo J, Bajaj S, et al.青少年酒精使用障碍与大麻使用障碍症状在神经预测错误信号和对新颖性的反应中的个体关联。Dev Cogn Neurosci.2021;48: 100944.密码:33773241
查看文章PubMed/NCBI谷歌学术搜索
88.布塞迈耶 JR,斯托特 JC。认知决策模型对临床评估的贡献:分解Bechara赌博任务的表现。心理评估。2002;14: 253–262.密码:12214432
查看文章PubMed/NCBI谷歌学术搜索
89.Kvam PD,Romeu RJ,Turner BM,Vassileva J,Busemeyer JR.使用联合认知模型测试行为的因子结构:延迟贴现和剑桥赌博任务中的冲动。心理方法。2021;26: 18–37.密码:32134313
查看文章PubMed/NCBI谷歌学术搜索
90.洛佩兹-古兹曼 S, 科诺瓦 AB, 路易 K, 格利姆彻 PW.风险偏好对选择冲动的衡量标准施加了隐藏的扭曲。公共图书馆一号。2018;13: e0191357.密码:29373590
查看文章PubMed/NCBI谷歌学术搜索
91.Andreoni J, Sprenger C. 风险偏好不是时间偏好。美国经济评论。2012;102: 3357–76.
查看文章谷歌学术搜索
92.派恩 A, 希纳 T, 西摩 B, 多兰 RJ.人类的多巴胺、时间和冲动。神经科学杂志。2010;30: 8888–8896.密码:20592211
查看文章PubMed/NCBI谷歌学术搜索
93.科佩茨 CE, 沃纳 JI, 布里斯金 JL, 通信 CE, 科佩茨 W.再看冲动:冲动行为可能是战略性的吗?Soc个人心理指南针。2018;12: e12385.pmid:34079587
查看文章PubMed/NCBI谷歌学术搜索
94.格罗曼·非人类动物冲动决策和强化学习的神经生物学。Curr Top Behav Neurosci.2020;47: 23–52.密码:32157666
查看文章PubMed/NCBI谷歌学术搜索
95.Insel T, Cuthbert B, Garvey M, Heinssen R, Pine DS, Quinn K, et al. Research Domain Criteria (RDoC): Towards a New Classification Framework for Research on Mental Disorders.https://doi.org/101176/appi.ajp201009091379。2010;167: 748–751.pmid:20595427
查看文章PubMed/NCBI谷歌学术搜索
96.卢曼CC, 春明, 易DJ, 李D, 王晓杰.跨期选择中延迟和不确定性的神经解离。神经科学杂志。2008;28: 14459.密码:19118180
查看文章PubMed/NCBI谷歌学术搜索
97.Yoshida N, Uchibe E, Doya K. 具有状态依赖贴现因子的强化学习。2013 IEEE 第三届发展与学习与表观遗传机器人联合国际会议,ICDL 3—电子会议论文集。2013.
查看文章谷歌学术搜索
98.Humphreys KL, Lee SS, Telzer EH, Gabard-Durnam LJ, Goff B, Flannery J, et al.勘探-开发战略取决于早期经验。发展心理生物学。2015;57: 313–321.pmid:25783033
查看文章PubMed/NCBI谷歌学术搜索
99.Lloyd A,McKay RT,Furl N.有不良童年经历的人探索较少和体重不足的奖励反馈。美国国家科学院院刊,2022;119。密码:35046026
查看文章PubMed/NCBI谷歌学术搜索
100.Lejuez CW, Read JP, Kahler CW, Richards JB, Ramsey SE, Stuart GL, et al.评估冒险行为测量:气球模拟风险任务 (BART)。实验心理学应用杂志 2002;8: 75–84.密码:12075692
查看文章PubMed/NCBI谷歌学术搜索
101.伯恩RM,罗伯BJ,波拉克SD,雷娜VF。儿童早期压力暴露、奖励途径和成人决策。美国国家科学院院刊,2017;114:13549–13554。密码:29203671
查看文章PubMed/NCBI谷歌学术搜索
102.Gerin MI, Puetz VB, Blair RJR, White S, Sethi A, Hoffmann F, et al.基于强化的决策作为受虐待儿童候选潜在脆弱性机制的神经计算研究。德夫精神病患者。2017;29: 1689–1705.pmid:29162176
查看文章PubMed/NCBI谷歌学术搜索
103.布莱尔 KS, 阿洛伊 J, 巴什福德-拉戈 J, 张 R, 埃洛夫斯基 J, 卢科夫 J, 等.不同形式的童年虐待对参与强化价值表示的神经系统有不同的影响。Dev Cogn Neurosci.2022;53: 101051.密码:34953316
查看文章PubMed/NCBI谷歌学术搜索
104.Raabid HA,Foordid C,Ligneulid R,Hartleyid CA.用于检测环境可控性的计算的发展变化。涂豪瑟,编辑。公共科学图书馆计算生物学. 2022;18: e1010120.密码:35648788
查看文章PubMed/NCBI谷歌学术搜索
105.贝尔曼 R. 动态编程。兰德公司,编辑。普林斯顿:普林斯顿大学出版社;1957. 可用: https://www.science.org/doi/10.1126/science.127.3304.976.a
106.样本量测定和功效。样本量测定和功效。约翰·威利父子;2013. https://doi.org/10.1002/9781118439241
107.Gregorios-Pippas L,Tobler PN,Schultz W.人类腹侧纹状体奖励价值的短期时间折扣。J 神经生理学。2009;101: 1507.密码:19164109
查看文章PubMed/NCBI谷歌学术搜索
108.哈里里 AR, 布朗 SM, 威廉姆森 DE, 弗洛里 JD, 德威特 H, 马努克 SB. 对即时奖励的偏好与腹侧纹状体活动的大小有关。神经科学杂志。2006;26: 13213–13217.pmid:17182771
查看文章PubMed/NCBI谷歌学术搜索
109.莱布森D.金蛋和双曲线折扣。经济杂志 1997;112: 443–478.
查看文章谷歌学术搜索
110.Madden GJ,Bickel WK,Jacobs EA.阿片类药物依赖门诊患者的延迟奖励折扣:指数或双曲线贴现函数?临床精神药理学。1999;7: 284.密码:10472517
查看文章PubMed/NCBI谷歌学术搜索
111.Kim BK, Zauberman G. 时间贴现中预期时间的感知.神经科学心理经济杂志 2009;2: 91–101.
查看文章谷歌学术搜索
112.Green L,Myerson J.延迟结果的指数与双曲线贴现:风险和等待时间。整合比较生物学. 1996;36: 496–505.
查看文章谷歌学术搜索