决策论文发表 决策层次结构中的决策优先级和因果推理-核心期刊杂志-厦门论文发表
阿里尔·齐尔伯伯格
出版日期: 2021年12月31日
抽象
从做饭到找到通往目的地的路线,许多现实生活中的决定都可以分解成子决定的层次结构。在层次结构中,选择要考虑的决策需要规划可能包含大量决策序列的空间。为了深入了解人们如何决定决定什么,我们研究了一项新颖的任务,该任务结合了感知决策,主动感知以及分层和反事实推理。人类参与者必须找到隐藏在决策树最低级别的目标。他们可以从决策树的不同节点获取信息,以收集有关目标位置的嘈杂证据。只有在叶节点出现错误后才会给出反馈,并提供有关错误原因的模糊证据。尽管任务很复杂(107潜在状态)参与者能够在任务中有效地进行计划。该过程的计算模型确定了少数计算复杂度的低启发式方法,这些启发式方法解释了人类行为。这些启发式方法包括在决策树的分支点做出分类决策,而不是推进整个概率分布,丢弃被认为不可靠的感官证据来做出选择,以及在初始计划失败后使用选择置信度来推断错误的原因。基于概率推理或近视采样规范的计划无法捕获参与者的行为。我们的结果表明,在人类行为中,通过感知来识别启发式规划的标志是可能的,并且使用中等复杂性的任务有助于识别人类推理决策层次结构的能力背后的规则。
作者简介
复杂的决策通常被分解为一系列信息收集行动,然后是寻求奖励的行动。例如,医生可能会在建议纠正措施之前进行一系列测试来诊断患者的疾病。人们如何决定接下来要问的适当问题(测试,实验,查询)是什么?人类参与者被呈现一个二叉决策树,该决策树分叉三次。他们可以从分岔点收集信息,以收集有关目标位置的嘈杂证据。我们确定了人们用于在这个复杂任务中有效规划的启发式方法。参与者利用任务的等级结构,依靠对过去决定的信心来为选择后续行动提供信息。我们的结果与人们如何在大型部分可观察的领域中有效计划有关,并且对人类和其他动物计划的神经生理学研究具有影响,并且必须通过积极的探索做出决策的人工代理的设计。
数字
Fig 7Fig 8Fig 9图1图2图 3Fig 4Fig 5Fig 6Fig 7Fig 8Fig 9图1图2图 3
引文:Zylberberg A (2021)决策层次结构中的决策优先级和因果推理。PLoS Comput Biol 17(12):e1009688。https://doi.org/10.1371/journal.pcbi.1009688
编辑 器:杨天明,中国科学院,中国
收到:八月 20, 2021;接受:十一月 28, 2021;发表:十二月 31, 2021
版权所有:? 2021 Ariel Zylberberg。这是一篇根据知识共享署名许可协议条款分发的开放获取文章,该许可证允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性:数据和代码可以在Github上找到:https://github.com/arielzylberberg/decision_prioritization_hierarchy。
资金:这项研究得到了国家神经疾病和中风研究所R01NS113113和霍华德休斯医学研究所(PI:Michael N. Shadlen)的支持。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益:作者宣布不存在相互竞争的利益。
介绍
许多现实生活中的决策都是按层次结构组织的,因为它们由本身可以被视为决策的部分组成。例如,考虑一位工程师,他必须诊断工业工厂的故障原因。工程师可能会把这个复杂的决定分解成一系列更简单的决定(例如,电机跳闸了吗?如果是,保险丝是否熔断了?如果不是,泵轴承是否发生故障?这些决定通过特定的信息寻求行动(即测试)来解决,其中每个测试的结果都会影响后续测试的结果。信息寻求行动之后通常是寻求奖励的行动。例如,工程师可能会断定故障是由于泵轴承的磨损造成的,并决定更换它们。通常,我们的行动不会导致预期的结果,我们需要重新计划[1–3]。例如,如果更换泵的轴承不能恢复工厂的功能,工程师必须确定其有缺陷的推理的原因,并决定下一步要采取什么行动(例如,进行新的测试,重复不可靠的测试,或更换其他组件)。
该示例代表了许多决策,这些决策构成了子决策的层次结构,并且反馈不允许明确地识别错误的原因。它们出现在医学诊断中,当选择职业道路或设计实验来解决科学问题时。由于三个原因,这些决定很难以最佳方式做出。首先,决策者必须选择每个步骤中最相关的操作,这很复杂,因为可能的行动序列的数量随着计划范围呈指数级增长,并且行动的价值可能取决于过去行动和观察的整个序列[4,5]。 例如,检查泵轴承磨损的相关性取决于先前的测试是否指出泵送系统是故障的可能原因。其次,一些信息寻求行动可能比其他行动更可靠或更昂贵,这应该为选择下一个行动提供信息[6,7]。 例如,如果工程师得知某个测试不可靠但很便宜,她可能会决定连续执行几次测试,以增加她对结果的信心。第三,为了消除在或有行动不会导致预期结果后获得的负面反馈的歧义,决策者必须参考所考虑问题的因果模型[8,9]。 例如,工程师必须利用她关于组件变化将如何影响工厂产量的知识来选择后续测试或补救措施。
需要通过一系列信息搜索行动消除潜在状态歧义的决策属于部分可观察马尔可夫决策过程(POMDP)的广泛类别[4,5]。 对于具有完全可观察状态的问题,如视频游戏[10,11] 或路线规划[12],查找最佳动作归结为对动作序列的搜索,其中最佳动作我在时间步长 i仅取决于代理的当前状态(例如,迷宫中的位置)。虽然搜索通常是棘手的,因为可能路径的数量随着状态变量的数量和规划范围呈指数级增长,但人工智能的进步已经确定了聪明的启发式方法,允许自动求解器直接从问题的紧凑描述中派生行动策略,并扩展到涉及数百万状态的问题(参见[13]进行审核)。相比之下,在POMDP中,决策策略采取一系列行动和观察的形式(1, o1、a2, o2,...),以及下一个最佳操作 a我可能取决于整个序列,使这些问题更难以最佳方式解决[14]。对于小问题,通常的方法是将潜态上的POMDP转换为信念态上的完全可观察的马尔可夫决策过程(MDP)——潜态上的概率分布——并使用贝尔曼方程[15,16]来解决它。 但是,此解决方案仅适用于状态和行动较少且规划范围较短的问题;对于更复杂的问题,有效的规划必须依赖于启发式策略和松弛,这些策略和松弛的特征不如完全可观察的对应物那么好。
在这里,我们研究了人们如何决定解决哪些决定,以消除潜在状态的歧义,并在初始计划失败时重新计划。我们以对简单感知决策的研究为基础。一个经过充分研究的例子是关于随机移动的点的净运动方向的决策[17,18]。 在这种二元决策(例如,左右运动)中,人类和猴子随着时间的推移积累了嘈杂的证据样本。这种基本范式已扩展到研究按层次结构构建的决策。Lorteije等人[19] 训练猴子在每个分支点上用随机证据解决一个明确的决策树。他们发现,第一级决策偏向于更容易的第二级决策,这表明不同的子决策不是独立做出的,而是相互影响,以最大化预期的回报。最近的研究表明,对潜在结果的分级预期(也称为置信度)在决策层次结构中的行动选择和信用分配中起着关键作用。当必须正确解决两个顺序决策才能获得奖励时,对第一个决策准确性的信心会影响后续决策的速度- 准确性权衡,以最大限度地提高奖励率[20]。置信度还有助于消除错误原因的歧义,当它们可能是由于误解或刺激反应偶然性的隐蔽变化[21,22]。 这些研究仅限于单一证据流的情况,并且使用了决策者无法控制提交给他们的证据的任务,因此这些任务不需要计划一系列行动。
我们研究了一项新颖的任务,其中参与者在决策树中做出一系列二元感知决策,这些决策树在每个分岔处都有随机证据。决策的难度各不相同,人们必须探索决策树,直到找到隐藏在决策树最低级别节点之一(称为叶节点)的目标。选择不正确的叶节点后获得的负面反馈提供了有关错误原因的模糊证据。鉴于问题的复杂性(107可能状态),该任务无法由现成的POMDP求解器解决,但人们能够以高精度执行。他们通过采用基于一小组启发式方法的规划策略来实现这一目标。这些包括丢弃被认为不可靠的信息以做出决定;偏向于局部解决不确定性,将概率信息折叠成一个分类决策,而不是推进整个概率分布;以及使用置信度来消除错误后负面反馈的歧义。这些结果将感知决策的框架扩展到更复杂的决策,这些决策构成了子决策的层次结构。
结果
分层决策任务
四名人类参与者被呈现出一个二叉决策树,该决策树分叉三次。他们的任务是找到隐藏在决策树的叶节点之一的目标(图1A)。决策树的每个内部节点都被分配了一个运动方向,可以是向右或向左。目标隐藏在叶节点上,通过跟踪从决策树的根节点开始,在每个分岔处遵循正确的运动方向所定义的路径来标识。图1B和1C说明了两个示例配置,其中箭头(未向参与者显示)指示每个分岔处的正确运动方向。
thumbnail 下载:
个人电脑幻灯片-核心期刊杂志-厦门论文发表
巴新放大图片
断续器原始图像
图 1.分层决策任务。
(A)刺激显示。参与者必须确定8个较低级别节点中的哪一个提供了积极的奖励并结束了试验。将视线引导到决策树顶部三个级别的节点并按下一个键会触发随机点运动的短脉冲。在每次试验中随机选择分配给每个内部节点的方向(左或右)和运动强度。可以通过在从根节点到叶节点的每个分岔处遵循正确的运动方向来识别目标。参与者可以自由地探索决策树,因为他们希望最大限度地提高获得的积分。(B–C)每个内部节点的运动方向正确,用于两个示例试验。运动的真实方向由每个内部节点下方显示的水平箭头指示。分配给节点的数字不代表空间位置,而是取决于每个分岔处的正确运动方向(如下一个面板中所述)。(D) 通过命名法。级别 1 到 3 是内部节点。叶节点是位于决策树最低级别的节点。节点根据每个分岔处的正确运动方向进行编号。如果向右是每个分岔处的正确运动方向(如水平箭头所示),则分配给每个节点的编号将从上到下以及从左到右增加,如面板所示。(E) 两项具有代表性的试验的选择顺序示例。垂直箭头指示查询决策树节点的时间。箭头上方的数字标识所查询的节点,遵循面板 D 中描述的约定。
https://doi.org/10.1371/journal.pcbi.1009688.g001
参与者没有被告知每个分岔处的正确运动方向,但他们可以通过查询决策树的内部节点来推断它。当参与者将目光引导到其中一个内部节点,然后按下按钮时,他们会看到随机点运动的短脉冲(227 ms)(图1A)。点的净运动方向是向右或向左,并且与分配给该节点的真实运动方向一致。
运动辨别的难度可能因节点而异。像往常一样,在使用随机点运动刺激的实验中,难度由每个点在运动方向上而不是随机移位的概率来控制。我们将这种概率称为运动强度。为决策树的每个内部节点独立采样运动强度和方向(左/右),并在整个试验中固定。
选择叶节点未提供任何运动信息。相反,如果选择的叶节点是目标,则试验结束,参与者将获得积极的奖励。如果选择的叶节点不是目标,则参与者会收到负面反馈(低音调的声音),并且必须继续探索决策树,直到找到目标。实验的屏幕录像显示在配套视频(S1电影)中。
参与者可以自由决定如何探索决策树以最大化获得的积分数量,并提前了解奖励意外情况。参与者每次向内部节点查询运动信息时都会失去1分,每次选择叶节点并且它不是目标时都会失去3分,并且在找到目标时获得10分。为了鼓励寻找能够获得高回报的策略,参与者收到了关于他们在每次试验后获得多少分的反馈。此外,在每个50个试验块结束时,参与者被告知在该块和所有先前块中获得的总点数。
在整个手稿中,我们使用数字来标识决策树的每个节点。这些数字不反映空间位置,而是取决于每个分岔处的真实运动方向(图1D)。节点 1 到 7 是内部节点,节点 8 到 15 是叶节点。节点 15 是目标,节点 1、3 和 7 是位于目标路径上的级别 1–3 的节点。关于编号约定的一种简单思考方法是,如果每个内部节点的真实运动方向是向右的,那么分配给每个节点的数字将从上到下以及从左到右增加(图1D)。
图1E显示了两个试验,它们举例说明了试验中的选择顺序。顶部的试验说明了一个典型的试验,其中参与者在找到目标之前没有犯任何错误,但查询了根节点两次。图1E(底部)显示了一个试验,其中参与者在找到目标之前犯了多个错误,无论是在内部节点还是叶节点。四名参与者每次试验平均分别进行了6.5次,7.7次,9.4次和7.7次查询(所有标准误差均小于0.2)。
运动选择取决于运动强度和树级别
在分析如何将多个决策链接到一个序列之前,我们重点介绍查询决策树的内部节点后所做的选择。几乎所有试验(>99.7%)都是从根节点的查询开始的。查询内部节点后,最常见的三个操作是再次查询同一节点(我们称之为重新查询),或查询两个子节点之一(图2A-2D)。这些操作代表了内部节点查询之后的绝大多数操作(参与者 1-4 分别为 99%、97%、98% 和 98%)。紧随叶节点错误之后的操作不那么刻板,可以定向到决策树的不同节点,包括其他叶节点或内部节点(图2E)。在本节中,我们重点介绍查询子集,在观察随机点运动刺激后,参与者要么选择两个子节点中的一个,要么从同一节点请求其他信息;如前所述,这些是查询内部节点后最常见的操作。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2.决策树节点之间的转换概率。
(A)在所有面板中,决策树的节点按照图1D中描述的约定重新排列。重新排列可以被解释为向右是每个分岔处的真实运动方向(此处由右箭头指示)。(B-E)红线标识节点对之间最常见的转换。从级别 1–3 的节点的过渡显示在面板 B–D 中,从叶节点的过渡显示在面板 E 中。从节点x到节点y的线的宽度与从x到y转换的概率成正比,因为最后一个查询是节点x。省略了不太可能的转换(条件概率< 0.075)。(B–D)查询内部节点后,更频繁的操作是选择两个子节点之一,或重新查询同一节点。功能区对应于重新查询。由于符号约定,每个内部节点的真正运动方向都是向右的。(E) 从左到右,从叶节点 8 过渡到 14。我们排除了目标(节点 15),因为查询它会终止试用。
https://doi.org/10.1371/journal.pcbi.1009688.g002
在内部节点上做出的决策的准确性取决于节点的运动强度及其在决策树中的级别。准确性是根据紧跟两个子节点之一的选择的那些查询计算得出的:如果所选的子节点处于运动的真实方向,则运动选择被视为正确。不出所料,更强的运动导致更准确的运动选择(图3,顶行)(等式6,β 1= 15 ± 0.6,p < 10 ?8).更有趣的是运动选择的准确性与树级之间的合法关系。运动选择在决策树的最高层最准确,在决策树的最低层最不准确(图3,顶行)(Eq 6,β 2= ?2 ± 0.26, p < 10?8).精度和树级之间的关系不能用运动刺激的属性来解释,运动刺激在树级上在统计上是相同的。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3.运动选择取决于运动强度和树级别。
顶行显示正确运动选择的比例与运动强度的函数关系。底行显示在同一节点上后跟另一个查询的查询的比例。实线曲线是检测模型的拟合。在决策树的不同级别做出的决策以不同的颜色显示。每列显示来自一个参与者(S1 到 S4)的数据。误差线表示 s.e.m。
https://doi.org/10.1371/journal.pcbi.1009688.g003
查询内部节点后,参与者通常会再次查询同一节点(称为重新查询)。就像运动选择的准确性一样,重新查询的频率取决于运动的强度和树级别。当运动较弱时,重新查询的可能性更大(图3,底行)(等式7,β 1= ?7 ± 0.17, p < 10?8).重新查询的频率还取决于决策树中决策的级别:参与者不太可能再次查询同一节点以获取决策树中更深处的决策(图3,底行)(Eq 7,β 2= ?0.7 ± 0.02, p < 10?8).
检测模型解释在内部节点上做出的决策
图3中的实线是受概率求和[23]和早期决策模型[24]启发的检测模型的拟合。这些模型的一个关键方面是,将证据流中的证据样本与标准进行比较,以确定证据样本是否足够可靠,可以做出检测[23]或歧视[24]判断。如果证据超过标准,则做出选择;否则,将丢弃证据样本,并从证据流中获得新样本。我们将这类模型扩展到涉及从决策层次结构中主动抽取信息的决策,并将该模型与根据最佳决策模型规定的在连续查询中集成证据样本的模型进行了比较[25]。为了预示我们的结果,他们更喜欢没有积分的模型,我们称之为检测模型[26]。
我们用高斯概率密度函数对瞬时运动证据的表示进行了建模。瞬时证据的均值和方差是运动强度的线性函数(图4A)。均值的符号取决于运动的真实方向:向右运动为正,向左运动为负。两个对称分布在零周围的决策准则(图4A中的垂直线)将瞬时证据的领域划分为三个区域。如果证据低于最左边的标准,决策者解释净运动方向是向左的,并通过决策树的左分支下降一个水平。同样,如果证据高于最右边的标准,决策者就会通过正确的分支下降。如果证据介于两个条件之间,则丢弃证据样本,并再次查询同一节点。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4.一个简单的检测模型解释了运动选择。
(A) 从中抽取瞬时动议证据的分布情况。瞬时运动证据呈正态分布,均值和方差随运动强度线性缩放。均值的符号取决于运动方向。每个参与者的坡度都是独立拟合的(这里我们显示了参与者1的分布)。该决定是将证据样本与位于±Φ的两个标准进行比较。该标准由基本准则的乘积给出,φ?,以及随着在节点上进行的连续查询数 (nq).(B)从最佳拟合模型获得的决策树的每个参与者和级别的基本标准。(C) 标准 Φ 呈指数级接近于零,因为节点上的连续查询数 (nq) 增加。衰变率由λ决定。每条曲线描绘了每个参与者的最佳拟合指数函数。(D) 重新查询的频率,作为节点上先前连续查询数的函数(nq).此比例随n而减小q以及树中决策的级别(由不同的颜色指示)。实线是来自检测模型的预测。本分析仅包括较低的运动强度(低于25.6%)。误差线表示参与者之间的.m。
https://doi.org/10.1371/journal.pcbi.1009688.g004
在我们的模型中,决策标准取决于 (i) 决策树中决策的级别,以及 (ii) 节点上的连续查询数。我们将这种依赖关系建模为依赖于决策树级别l的基本标准的乘积,φ?,以及一个随着重新查询次数呈指数级衰减的术语(图 4A,底部)。该模型有 6 个参数,这些参数在查询决策树的内部节点后所做的选择以最大可能性拟合。
最佳拟合模型的预测由图 3中的实线表示。该模型提供了与行为数据的良好拟合,捕获了运动强度和树级别对正确运动选择和重新查询的比例的影响。在最佳拟合模型中,每个参与者的基本标准随树级别而降低(图4B),这意味着在较高的树级别需要更强的运动才能做出运动选择。这就解释了为什么在决策树的较高级别进行了更多的重新查询(图3,底行),以及为什么在较高级别做出的运动选择平均比在决策树的较低级别进行的运动选择更准确(图3,顶行)。
该标准还取决于重新查询的次数。随着在节点上进行更多查询,它逐渐接近于零(图4C)。这就解释了为什么进行重新查询的概率随着过去重新查询的次数而降低(图4D)。这种效应类似于反应时间实验中决策边界的崩溃,当决策者不知道证据的可靠性时,这是最优的[27]。
没有跨重新查询集成运动信息
检测模型的一个强烈假设是弱运动证据被丢弃,这与决策的最佳模型不同,后者假设所有与决策有关的证据都应该被整合[25]。对用于做出决定的刺激信息的分析——所谓的心理物理逆相关或核分析[28,29]——支持了这一假设。 图 5显示了嘈杂显示中的可变性在多大程度上影响了查询内部节点后所做的左/右选择。对于仅在一个查询后做出的运动选择,心理物理核对于向右(向左)选择显着为正(负),表明选择是由刺激中的运动信息引导的(图5A)(p<10?8、似然比检验,H0: β3= 0,等式 9)。对于两个连续查询后进行的运动选择,使用来自第二个查询的运动信息计算的心理物理核也与零显着不同(图5B,右)(p<10?8、似然比检验,H0: β4= 0,等式 10)。但是,来自两个查询中第一个查询的运动信息对最终的左/右选择没有影响(图5B,左;p = 0.54, H0: β3= 0, Eq 10)和嵌套回归模型的比较有利于没有来自第一个运动脉冲的运动信息的模型(Eq 10,ΔBIC = 7.4支持没有β3术语)。通过分别分析决策树的3个级别的运动能量核得出了类似的结论(S1图)。如果在两个运动脉冲上积累了运动信息,则两个脉冲都应该提供有关最终选择的信息[30]。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5.只有来自上一个查询的运动信息才会通知左/右选择。
(A)运动能量残差对决定通过左支或右支下降水平的影响。通过将过滤器应用于随机点序列并减去相同运动强度和方向的所有刺激的平均值来计算残差。正(负)残差表示向右(向左)方向的运动过多。对于在单个查询后做出的左/右选择,运动能量残差对于向右选择为正,对于向左选择为负。(B)作为面板A,除了我们分析在同一内部节点的两个连续查询之后做出的左/右选择。这两个面板显示从第一个和第二个查询中获得的运动能量残差,并按在第二个查询之后做出的左/右选择进行排序。只有第二个表示的运动能量残差区分了向左和向右的选择,这表明来自第一个查询的运动信息不会影响最终选择。底纹表示 s.e.m。运动能量滤波器的脉冲响应引入的延迟解释了刺激呈现的时间(灰色水平条)和运动选择性开始之间的偏移(方法)。
https://doi.org/10.1371/journal.pcbi.1009688.g005
为了确认运动能量的无模型分析的结果,我们拟合了一个与检测模型相同的模型,只是运动证据是在连续查询中累积的。例如,如果查询后获得的证据,e1,介于 ±Φ 处的两个条件之间?,再次查询节点,然后基于e做出决定1 + e2,其中e2是从第二个查询获得的证据。如果e1 + e2再次落在两个条件之间,进行另一个查询(e3),然后e1 + e2 + e3与标准进行比较。集成模型具有与检测模型相同数量的参数。与积分模型相比,最合适的模型比较有利于检测模型,证实了参与者的无模型分析结果(∑ΔBIC = 43;S2 图)。
我们使用模型模拟来确认,如果参与者在连续的运动脉冲中积累证据,我们将观察到运动脉冲对选择的影响,即使它之后是重新查询。为此,我们模拟了最适合数据的检测和集成模型。与对数据所做的那样,我们选择在两个连续查询后对其做出左/右选择的查询子集,并重复上一节中报告的回归分析。对于积分模型的模拟,两个脉冲都对最终选择(p′s < 10)具有显着的正影响。?4,方程 10;ΔBIC = 5.5 赞成完整模型)。对于检测模型,只有最后一个模型提供了有关最终选择的信息(第1街= 0.71 和p第2 个< 10?8,方程 10;ΔBIC = 5.5 有利于没有β3术语)。结合运动能量的无运动分析和形式模型比较,该分析支持了参与者没有在重新查询中集成运动信息的结论。
我们将检测模型与其他替代模型进行了比较。随机点运动任务中行为模型中的一个常见假设是,瞬时运动证据的方差与运动强度无关(例如,[31])。我们将检测模型与方差不依赖于运动强度的模型进行了比较。对于四个参与者中的两个,模型比较有利于检测模型,其中方差与运动强度成比例;对于其他两个参与者,BIC的差异太小,不能偏向任何一个模型(S2图)。使用Akaike信息标准而不是BIC得出了同样的结论。这些数据与以前的研究一致,这些研究发现,根据运动强度调整噪声的方差可以稍微更好地适应选择[32]和响应时间[33]。
我们还评估了树级别影响除标准 Φ 之外的其他参数的可能性。?.例如,如果参与者或多或少地关注取决于树级的决定,则信噪比可能因电平而异,并导致我们观察到的性能差异(图3)。我们测试了两种替代模型,其中允许信噪比参数(κ)在树水平上变化。在其中一个中,κ依赖于决策树中的水平,但标准Φ在树级别上是相同的(S2图中的模型'1Φ3κ')。在另一个变体中,κ和 Φ 都依赖于树级别(模型 '3Φ3κ ',S2 图)。模型比较有利于检测模型而不是这两种替代方案(S2图)。
由于参与者开始每个试验时从上到下探索决策树,因此在试验中,树级别与查询顺序之间存在相关性。因此,查询顺序(而不是决策树中决策的级别)可能会影响控制重新查询概率的标准 Φ 的位置。为了评估这种可能性,我们拟合了一个替代模型,其中标准的位置取决于试验中查询的顺序。在模型中,准则从 Φ 呈指数级下降0至φ∞.衰减率,Φ0和φ∞是模型的自由参数。BIC分析强烈支持检测模型,其中标准明确依赖于树级别(S2图)。这一结论也得到了无模型分析的支持,该分析表明,树级与进行重新查询的概率之间的关系不是由试验中的查询顺序或经过的时间中介的(S3图)。综上所述,与不同替代模型的比较支持以下假设:决策树级别之间性能的差异可以通过树级别对标准位置的影响来解释,该标准确定运动证据是否足够可靠,可以提交运动选择。
概率模型无法解释人类行为
我们的目的是将参与者的行为与最优政策下的预期进行比较。但是,在我们的任务中找到最佳策略在计算上具有挑战性。由于每个节点可以处于 10 种状态(5 种运动强度× 2 个运动方向),并且有 7 个内部节点,因此可能的问题状态数为 10 个7.由于真实状态不是完全可观察的,因此最优决策者必须表示问题状态的概率分布,并使用他们收集的运动信息和他们在探索决策树时所犯的错误来更新它。为了找到最大化对未来回报期望的行动,决策者应该计划一系列潜在的无限的未来行动和观察。虽然对于低维问题,可以通过将未观测状态上的POMDP转换为信念状态上的完全可观察的MDP并使用贝尔曼方程来解决它来近似最优解,但在我们的任务中,状态空间太大而无法进行这种近似。
由于这些挑战,我们依靠仿真来近似最佳决策策略。贝叶斯模型表示问题状态的概率分布,其中s由 7 个内部节点中的每个节点的运动强度(c)和运动方向(d)定义,s = (c1,d1,c2,d2, ..., c7,d7).元组E = (E1、E2, ..., E7) 包含从 7 个内部节点的过去查询中获得的所有运动样本;E我是从内部节点i的查询中获得的运动样本集。V是一组叶节点,这些节点已被查询,但结果不是目标。
在叶节点处出现错误之前(即,当V为空集时),可以分解为:
(1)
其中 内部节点i具有运动强度c 的概率我和方向d我,给定运动样本集E我从节点 i 的先前查询中获得。c的值我和d我是那些对应于状态 s的那些。
在叶节点发生错误后(即,当V不再为空时),此分解不再有效。叶节点在贝叶斯网络的语言中被称为碰撞体,并且对一个节点的调节使得其独立父级之间的统计依赖性[9]。因此,从一个内部节点获得的运动信息应该会影响决策者对决策树其他节点的运动方向的信念。我们可以用一个例子来说明这一点,如图1B所示的激励配置。想象一下,决策者完全确定在节点1和3上做出的运动选择。如果决策者查询节点14并收到负面反馈,那么决策者几乎可以肯定节点7处的运动方向是向右的,即使她尚未查询该节点;另一种选择是,在节点1和3上做出的运动选择是错误的,但这些选择是高度确定的。碰撞体引入的不同内部节点的运动方向之间的依赖关系使得运动信息的更新变得不那么简单。在方法中,我们解释了如何分解和简化V不为空时的更新;在这里,我们关注贝叶斯模型如何选择下一个最佳操作的规划问题。
在选择每个操作之前,代理使用任务的内部模型来估计从 15 个可能的后续操作中的每一个操作开始查找目标的成本。代理从状态上的后验分布中抽取状态s*。然后,它假定s* 是系统的真实状态。状态s* 标识目标T*。然后,代理模拟随机操作,从操作a开始,直到达到T*,并具有以下约束。如果要在叶节点上进行查询,则要查询的叶节点是成为目标的可能性最高的叶子节点。在每次假想观察之后,都会更新状态后分布的副本,代理使用该副本来确定哪些叶节点具有成为目标的最高概率。代理对 15 个可能的后续操作(即.对于每个模拟,代理都会计算查找目标所产生的成本,接下来要执行的操作是将预期成本降至最低的操作。
所有过程都发生在决策者的"头脑中",只有当确定下一个最佳行动时,该行动才是"在世界上"执行的行动。然后使用从环境中获得的观察结果更新分布,并重复整个基于模拟的过程以确定下一个最佳操作。
总之,我们开发了一种方法来近似于我们任务的最佳决策策略。虽然我们不能保证上述方法(以及更详细的方法)使我们能够找到最优策略,但由此推导出的决策策略导致比参与者获得的奖励高得多(图6A)。由于贝叶斯模型使用来自检测模型的信号噪声参数拟合到数据,因此奖励收入的差异不能用对运动信息的灵敏度差异来解释,而必须是策略差异的结果。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6.比较数据和模型之间的平均奖励和查询数。-核心期刊杂志-厦门论文发表
(A)受试者获得的每项试验的平均奖励,贝叶斯模型和启发式模型。误差线表示各试验.m。(B) 每个级别的平均查询数和叶节点上的错误数。首先计算每个参与者的平均值,然后计算参与者的平均值。误差线表示参与者之间的.m。贝叶斯模型(启发式模型)的预测基于每个参与者2,000(50,000)次模拟试验。
https://doi.org/10.1371/journal.pcbi.1009688.g006
我们观察到贝叶斯模型的行为与解释奖励差异的数据之间存在许多质的差异。贝叶斯模型在内部节点上进行的查询更少,在叶节点上的错误比参与者多(图6B)。也就是说,对于模型和数据,信息寻求和寻求奖励行为之间的平衡是不同的。此外,贝叶斯模型几乎从不连续多次查询同一内部节点(图7D,左),这与进行多次重新查询的参与者不同(图7A,左)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 7.查询内部节点和叶节点后的操作分布。
左列显示查询内部节点后选择的操作类型,右列显示在叶节点发生错误后选择的操作类型。面板 A–H 表示在每个面板中标识的不同数据集。我们将内部节点查询之后的操作分为 3 类:路径查询、偏离路径查询以及不能归类为路径内或非路径的查询("其他")。我们将叶节点上错误之后的操作分为 6 类:选择处于真正运动方向的子节点("正确的子节点"),另一个子节点("不正确的子节点"),再次查询同一节点("重新查询"),同一级别的其他节点(不包括重新查询("其他,同一级别"),不是直接子节点的较低级别的节点("其他, 较低级别"),以及位于决策树较高级别("较高级别")的节点。
https://doi.org/10.1371/journal.pcbi.1009688.g007
模型和数据之间的其他差异可以在图8中看到,它显示了水平之间的转移概率,这是在计算转移概率之前通过对每个水平中的节点进行分组而获得的。红线的宽度与转移概率成正比。从较高级别到较低级别的过渡显示在每个图形的右侧,相反方向的过渡显示在左侧。在数据中,错误后面的操作可以针对决策树的不同级别。查询内部节点后,转换通常会转到同一级别或紧挨着的级别。在叶节点出现错误之前和之后都会观察到这种情况。相比之下,贝叶斯模型从树级别 3 跳过节点,直接从级别 1 或 2 跳到叶节点。在叶节点上出现错误后,贝叶斯模型通常会转换到其他叶节点,很少返回到查询内部节点(图8)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 8.参与者和启发式模型在级别之间进行了类似的转换。
决策树级别之间的转换频率,通过对来自同一级别的所有节点进行分组来获得。顶行显示在叶节点上出错之前的转换。底行显示叶节点上至少出现一个错误后的转换。红线的宽度与转换频率成正比。虚线是用于不频繁过渡的占位符。最后一列对应于贝叶斯模型,其中查询内部节点的成本降低到其真实值的 30%。在 8 个面板中的每一个面板中,到较低级别的过渡显示在右侧,到较高级别的过渡显示在左侧。功能区标识决策树同一级别(包括重新查询)节点之间的转换。首先计算每个参与者的过渡概率,然后对参与者进行平均(参见方法)。
https://doi.org/10.1371/journal.pcbi.1009688.g008
贝叶斯模型不查询级别 3 节点可能会令人惊讶。我们可以提供一些直觉,说明为什么这是最佳的。想象一下,在查询内部节点后做出正确运动选择的概率为 0.8,如果未查询节点,则为 0.5(机会)。为了简单起见,让我们假设1级和2级的运动选择是完全有信心的。决策者是否应该在选择叶节点之前查询 3 级节点?如果被查询,预期成本为 (1–0.8) × (-3) = -0.6,因为在选择目标之前,有 (1–0.8) 选择错误叶节点并损失 3 分的概率。相反,如果不查询 3 级节点,预期成本为 0.5 *(-3) = -1.5,因为决策者平均有一半的时间会选择错误的叶节点并损失 3 分。两个预期成本之间的差异小于在内部节点上进行查询的成本(1 点),因此在这种情况下,最佳策略是不从决策树的级别 3 查询节点。通过类似的推理可以证明,在级别 1 和 2 的节点上进行查询很方便,因为这些查询允许决策者(在最好的情况下)丢弃多个叶节点。当然,查询3级节点的便利性取决于收益结构和对运动信息的敏感性;稍后,我们将看到一个情况,其中查询内部节点的成本降低,并且使用贝叶斯模型派生的决策策略包括对级别3节点的查询。
对于为什么贝叶斯模型在内部节点上发出的查询更少,在叶节点上的错误比参与者多,一个可能的解释是主观奖励与真实奖励不同。例如,如果无论任务目标如何,解决运动方向的不确定性都被认为是有益的(例如,[34]),情况就是如此。我们推断,如果降低查询内部节点的成本,贝叶斯模型的行为可能与数据更相似。为了验证这一假设,我们将贝叶斯模型应用于查询内部节点的成本仅为我们在实验中使用的值的30%的案例。在这种情况下,内部节点上的查询在级别之间分布得更均匀,更类似于在数据中观察到的内容(S4(A)图)。然而,贝叶斯模型的行为仍然与参与者非常不同。贝叶斯模型对同一内部节点执行的连续查询很少,经常从较低级别的内部节点转换到较高级别的内部节点,并在来自同一树级别的不同节点之间进行横向转换(图7E和S4(B)–S4(E)图)。在叶节点上错误之前和之后都观察到数据和贝叶斯模型之间的差异,这表明它们之间的差异不仅仅是由于错误后如何分配责任的差异(图8A和8D)。
数据的一个突出方面是,参与者在决策树的较高级别比在较低级别进行了更多的重新查询(图3,底行)。这似乎是一个明智的策略,因为在较高树级别做出的错误判断可能会导致决策者花费很长时间来探索决策树的错误分支。为了确定这是否确实是一个明智的策略,我们解决了贝叶斯模型的情况,其中内部节点查询的采样成本降低到其真实值的50%,重新查询的采样成本降低到5%。此操作的目标是增加贝叶斯模型进行的重新查询数,以确定在决策树的较高级别还是较低级别进行更多重新查询是否更好。正如预期的那样,以这种方式改变奖励结构会导致更多的重新查询,其数量与实验观察到的数字相当(图7F)。在按树级别和运动强度分析重新查询次数时,我们观察到贝叶斯模型在决策树的较低级别执行的重新查询比在决策树的较高级别执行的重新查询更多(S5图)。这与我们在数据中观察到的相反。因此,如果我们在数据中观察到的大量重新查询是由于它们的主观成本低于其他节点的查询,那么参与者应该在决策树的较低级别进行比在较高级别的重新查询更多。
综上所述,这些结果表明,从贝叶斯模型导出的行为与我们的参与者所显示的行为在质量上不同。这种失败促使了我们下面介绍的启发式模型的开发。
浅层采样规范
鉴于贝叶斯模型的表现优于参与者,我们研究了更简单的指标是否可以更好地捕捉参与者的行为。我们采用了主动感知文献中经常使用的指标来在信息寻求行动之间进行仲裁(概述参见[35])。这些指标是短视的,肤浅的或贪婪的,因为它们只展望未来一步。它们没有考虑到有关不同行动和结果的成本和回报的信息;相反,根据任务相关类别的后验概率分布的预期变化来确定操作的优先级。最好的下一个操作是最大化评分函数的操作,该功能根据所使用的指标而有所不同。我们探索了三个经过充分研究的指标:概率增益、信息获取和影响。
这些度量被应用于概率分布,即相信叶节点T是给定所有过去运动观测值的目标 E = {E1、E2, ..., E7} 从 7 个内部节点和已访问过的叶节点集V中获取,结果不是目标。
对于概率增益(PG),与每个可能动作相关的分数由后验峰的预期变化给出:
(2)
其中操作a是 15 个可用操作和最大值x是 8 个叶节点上的最大值。期望值是根据操作 a 之后的可能观测值o计算的。如果a是内部节点的查询,则观测值o是运动样本。如果a是叶节点的查询,则观测值o只能取两个值,具体取决于叶节点是否是目标。
信息获取(IG)的评分函数是以下动作a的熵的预期减少:
(3)
其中H表示熵(不确定性的度量 [36])。
影响指标 (I) 的评分函数由行动后总和绝对变化的期望值 a给出:
(4)
其中||表示绝对值,总和在 8 个叶节点上。
这些指标都没有导致与参与者类似的行为。从概率增益和信息增益派生的决策策略忽略了内部节点,直接在叶节点上搜索(图7G)。这种策略导致我们的任务奖励较低(平均每次试验-0.5分)。使用影响指标得出的政策表现要好得多,导致参与者每次试验的平均奖励为2.06±0.14。在这种情况下,该策略包括只在根节点上进行一个查询,然后从第一个查询所青睐的分支中随机选择叶节点(图7H)。这些策略显然与我们的参与者所采用的策略不同。
请注意,与其将不同的采样范数应用于信念,不如将它们应用于内部节点的运动强度和方向的后验概率。然后,采样规范将有利于探索不确定性较高的节点(即以前未访问过的节点)。如果参与者被要求在没有任何任务指示的情况下自由探索决策树,这可能是一个明智的策略,但显然不是我们的参与者遵循的策略,因此我们没有进一步探索这种可能性。综上所述,我们的分析表明,主动感知文献中常用的浅层采样规范无法解释参与者在我们的分层决策任务中的行为。
启发式模型
在前面的章节中,我们看到贝叶斯模型和基于常用采样规范的模型都无法解释参与者在任务中的行为。在本节中,我们提出了一个替代模型,该模型基于一小组计算复杂度的启发式算法。启发式模型使用一种机制扩展了检测模型,以确定在发生错误后要查询的节点,并且可以解释参与者行为的大多数方面。
叶节点T出现错误后获得的负(听觉)反馈提供了有关错误原因的模糊证据。它通知参与者,在将根节点连接到T的至少一个节点(称为错误路径P)中发生了错误T),但它并没有表明这三个选择中的哪一个是错误的。
我们假设决策者将使用对运动选择的置信度来消除叶节点错误后获得的负面反馈的歧义。我们将内部节点i上做出正确运动选择的置信度定义为,给定上次查询该节点i时获得的运动证据样本,该选择是正确的概率。向右是运动正确方向的置信度(即d = 1)可以使用贝叶斯规则和运动强度c的边际来计算:
(5)
对左选择的信心很简单。这种似然是由正态分布的概率密度函数(Eq 14)给出的,并在图4A中绘制了不同运动强度的曲线。
启发式模型比较运动选择中的置信度,以决定将错误归咎于哪个节点并选择后续操作。我们将低置信度选择定义为置信度低于标准ω的那些选择。如果误差路径中的两个决策是以低置信度做出的,则模型会将错误的责任分配给属于P的节点中最高级别的节点T谁的运动选择是低置信度的。例如,如果在节点 11 处出错,并且节点 2 和 5 处的运动选择置信度较低,则模型认为节点 2 对错误负责,因为 (i) 节点 2 属于错误路径P T,(ii) 运动选择是在低置信度下做出的,并且 (iii) 节点 2 在决策树中比节点 5 处于更高的级别。然后,模型对错误归咎于的节点(在本例中为节点 2)执行查询。这里的基本原理是,如果决策者无法确定哪个运动选择不正确(因为多个运动选择是以低置信度做出的),那么重新查询错误路径的一个节点以解决这种歧义是合理的。
我们使用术语on-path来指代那些在叶节点T出现错误后,决策者从错误路径 P 中选择一个节点的查询。 T.例如,在节点 11 出现错误后查询节点 1、2 或 5 将被视为路径查询。
相反,如果沿误差路径仅以低置信度进行一个(或没有)运动选择,则模型会将误差的责任分配给属于误差路径P的节点T对于该动议,其选择的信心最小。例如,如果在节点 11 处出错,并且只有节点 2 的决策是以低置信度做出的,则错误的责任将分配给节点 2。下一步操作是查询对错误负责且不在错误路径P中的子节点的子节点T.在示例中,决策者将对节点 4 进行查询,因为它是节点 2 的子节点,而不是导致节点 11 上错误的路径上。这里的逻辑是,如果误差路径中只有一个决策是以低置信度做出的,那么可以合理地假设该错误是由于在该节点上做出的选择,并继续通过"反事实"路径(即,如果该节点上的运动选择与实际做出的路径不同,则将采取的路径)进行探索决策树。
我们使用术语off-path来指代那些在叶节点T出现错误后,决策者选择P中其中一个节点的子节点的查询T它本身不在错误路径中。例如,在节点 11 出现错误后查询节点 3、4 或 10 将被视为偏离路径的查询。
总之,我们提出了一种机制,通过该机制,运动选择的置信度用于解决叶节点错误后收到的模棱两可的反馈,并选择后续操作。启发式模型中包含的另一个假设是,一旦一个节点被归咎于错误,在从中获得新证据之前,不能再次指责该节点。我们采用了这种临时建模假设,因为如果没有它,模型就会反复将错误归咎于同一节点,从而降低性能。由于此假设,可能会发生错误路径中的任何节点都不能归咎于错误,在这种情况下,模型会随机且以相等的概率选择任何未访问的叶节点。
一旦模型确定了在错误后要查询的节点,它就会继续遵循检测模型的规则,就像在错误之前一样。启发式模型只有一个自由参数 (ω)。它适合匹配模型和数据之间的路径查询的比例(图 7A 和 7B中的紫色条,右列)。所有其他参数值都继承自检测模型的拟合。通过将检测模型与确定在错误后要查询哪个节点的机制相结合,我们获得了一个可以执行任务并进行行为预测的模型,我们可以与实验数据进行对比。
启发式模型的一个预测是,将错误责任分配给节点的概率取决于错误路径中节点的运动强度。图9A说明了这一预测。它显示了叶节点的错误比例,其中模型将运动强度c的节点归咎于节点(如横坐标所示),而运动强度c的节点位于错误路径中。该模型指责运动最弱的节点的可能性是运动最强的节点的4倍。如果将责任随机分配给错误路径中的任何节点,则此比率将接近 1。[请注意,比例不需要加一,因为并非所有运动强度都存在于每个试验中,并且相同的运动强度可能存在于多个节点中。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 9.运动强度和树级别会影响哪个节点被归咎于错误。-核心期刊杂志-厦门论文发表
面板 A-C 显示启发式模型的预测,面板 D-F 对应于行为数据。(A) 如果具有运动强度的节点位于误差路径中,则将责任归咎于具有横坐标中指示的运动强度的节点的误差比例。请注意,比例不需要加到 1,因为误差路径最多可以包含三个不同的运动强度值。(B) 在路径查询之后的误差比例到级别l的节点,给定错误路径的级别l具有在横坐标中指示的运动强度。例如,如果根节点的运动强度可能最弱,则在该节点上进行传入查询的概率为 ~0.23。(C) 错误比例,从级别l的节点进行偏离路径查询后跟,给定错误路径的级别l具有横坐标中指示的运动强度。例如,如果根(级别 1)节点的运动强度尽可能弱,则根节点被归咎于错误的可能性为 ~0.25,并且会对其不在错误路径上的子节点进行偏离路径查询。首先计算每个参与者的比例,然后在参与者之间取平均值。
https://doi.org/10.1371/journal.pcbi.1009688.g009
另一个应该影响哪个节点被归咎于错误的因素是决策树中节点的级别。树级别与节点因错误而被归咎于概率之间的预测关系对于路径查询和路径外查询是不同的。路径查询更频繁地定向到更高的树级别(图9B)。这是因为模型至少需要两个低置信度决策才能选择路径查询,然后将查询定向到以低置信度进行运动选择的节点中的较高级别节点。相比之下,偏离路径的查询更频繁地定向到较低的树级别(图9C)。这是因为平均而言,较低级别的决策比较高级别的决策具有较弱的证据,因为标准Φ?随着树的水平降低(图4B)。由于错误的责任被分配给以最小置信度做出的决策,因此偏离路径查询通常针对决策树的较低级别。
这些数据验证了这些预测。错误的责任更有可能归咎于运动较弱的节点(图9D)(p<10?8、似然比检验,H0: β1= 0,等式 11)。对于路径查询,错误的责任更有可能分配给决策树的较高级别(图9E)(p<10?8、似然比检验,H0: β2= 0,等式 11)。相反,对于偏离路径的查询,决策树的较低级别更有可能被归咎于错误(图9F)(p<10?8、似然比检验,H0: β2= 0,等式 11)。
与在模型中一样,叶节点上错误之后的大多数操作都是离道或入路查询。虽然偏离路径和路径查询仅代表错误后可用的14个操作中的6个(不包括再次查询相同的叶节点),但它们表示参与者在错误后选择的大多数操作(参与者1到4分别为96%,95%,95%和77%)(图7A)。在图 7中,我们使用术语"其他"来指代叶节点上出现错误后选择的既不是路径上也不是非路径外的操作。它们出现在模型中,因为一个节点不能被归咎于两次错误,除非从中收集新的证据。这些操作始终定向到其他叶节点。有趣的是,参与者还做了一小部分既不是偏离路径也不是在路径上的动作,其中大多数(72%)也针对叶节点(图7A)。
启发式模型还再现了参与者行为的其他方面。模型和数据每次试验的平均得分相似,即使平均奖励没有用于模型拟合(图6A)。模型和数据也为每个级别进行了相似数量的查询,并且在叶节点上每次试验产生的错误数大致相同(图6B)。
启发式模型使我们能够区分感知错误和策略错误。如图6A所示,除3号科目外,所有受试者的平均奖励均为正数。这很有趣,因为该参与者对运动判别的敏感性高于受试者2和4,通过比较模型的信噪比参数(κ,S1表)可以看出。κ与实验中获得的平均奖励之间的这种解离可以通过策略的差异来解释。参与者 3 是显示路径查询比例最高的参与者(图 7A,右栏)。事实证明,路径查询是一个战略错误。我们可以用与启发式模型相同的模型来验证这一点,除了它适合最大化奖励。在此模型中,错误后进行的所有查询都是偏离路径的(图7C)。这预测了如果参与者将所有查询都偏离路径,则参与者将获得更高的平均奖励,并将错误归咎于错误路径中信心最小的决策。
启发式模型还重现了参与者在单独分析叶节点错误之前和之后选择的操作时的行为(图8)。如数据中所观察到的,在启发式模型中,错误后面的操作可以针对决策树的不同级别。查询内部节点后,转换通常会转到同一级别或紧挨其下方的级别。在叶节点出现错误之前和之后都会观察到这种情况。
在模型中,确定叶节点发生错误后是否进行偏离路径或路径查询的是,错误路径中的两个或多个决策是以低置信度做出的。由于低置信度决策在运动较弱时更频繁,因此当参与者进行路径查询时,未归咎于错误的节点上的运动强度应低于他们进行偏离路径查询时的运动强度。我们使用逻辑回归测试了这一预测。如果sn1和sn2是误差路径中不负责误差的两个节点的运动强度,是两者的乘积, sn1? sn2当参与者在发生错误后执行路径查询而不是偏离路径查询时,应降低 。这个预测在数据(S6图)(方程8,β中得到验证。2= ?4.9 ± 0.9, p < 10?7),并提供了支持我们在启发式模型中引入的机制的进一步证据,以便在偏离路径和路径查询之间进行仲裁。
学习
尽管我们提出的分析和模型假设行为在试验中是稳定的,但鉴于参与者在几天内进行了多次长时间的实验,因此在实验过程中,决策策略可能会在某种程度上有所不同。
我们分析了决策策略的不同方面如何随着经验而变化。平均奖励和重新查询的数量在前~4-7个区块(每个50个试验)中逐渐增加(S7(A)图)。重要的是,即使在第一个试验块中,参与者在决策树的较低级别进行了更多的重新查询(Eq 7,β 2= ?0.9 ± 0.14, p < 10?8),这种效果在后来的块中被放大了(S7(A)图)。与图8类似的分析对第一个和最后6个试验块独立进行的分析显示,这两组试验的水平之间的转换概率相似(S7(B)图)。虽然对我们任务中学习动态的详细分析超出了当前研究的范围,但分析表明,启发式策略的标志已经存在于第一批试验中。
讨论
适应性行为需要做出准确的决策,但也要知道哪些决策值得做出。为了研究人们如何决定决定什么,我们研究了一项新任务,其中人们必须通过从决策树的内部节点收集随机信息来找到隐藏在决策树最低层的目标。我们的核心发现是,少数启发式方法解释了参与者在这个复杂的决策任务中的行为。该研究将感知决策框架扩展到更复杂的决策,这些决策包括不同难度级别的子决策层次结构,并且决策者必须在任何给定时间积极决定要解决哪个决策。
我们的任务可以被设想为一系列二元决策,也可以被设想为一个有八个替代方案的决策。参与者的行为支持前一种解释。参与者通常在降序级别之前在同一节点上执行多个查询,并且在到达叶节点之前,他们很少从内部节点过渡到更高级别的节点。这表明参与者在决定下降水平之前,对所访问节点的运动方向做出了明确的决定。这种对局部解决不确定性的偏倚在近似最优策略中没有观察到(图8),因此可能反映了更普遍的认知约束,限制了参与者在任务中的表现[37]。一个强大的候选者是有限的工作记忆容量[38]。通过在每个内部节点上达成绝对决策,参与者避免了在所有与任务相关的变量上使用完全概率分布的需要,而是倾向于一种策略,其中只有对运动选择的信心被延续以告知未来的选择[39]。
参与者经常在内部节点上进行许多连续查询。查询的数量不是预先确定的,而是取决于决策的难度和决策树中决策的深度。当决策困难时,参与者要求更多信息[40–42]。他们还在决策树的较高级别进行了比在较低级别的更多重新查询,这解释了为什么以前的决策更准确(图3)。这种策略似乎是明智的,因为在决策树的较高级别做出的错误判断可能会导致决策者花费很长时间来探索决策树的错误分支。正如约翰·冯·诺依曼[43]所说,在长时间计算期间累积的误差和在计算早期犯下的误差在计算的后半部分被放大了。然而,令人惊讶的是,最优模型的解决方案(其中我们修改了收益以鼓励在同一节点上进行多个连续查询)表明,与数据中发现的不同,在决策树的较低级别进行更多重新查询会更方便。最优策略可以理解如下。节点上的最佳查询数取决于采样成本与预期准确性提高所带来的收益之间的平衡。由于决策者在试验开始时并不知道将来会遇到的决策的难度,因此多次对根节点进行采样可能次优,因为后续决策可能很困难,因此其他策略(如直接在叶节点上搜索)可能更有价值。但是,在到达决策树的较低级别后,贝叶斯决策者可以利用在较高级别做出的决策中的确定性来更好地评估重复采样低级别节点的好处,从而实现最佳策略,在决策树的较低级别进行更多查询。
我们结果的一个意想不到的方面是,人们没有在重新查询中积累运动信息。相反,如果认为证据不可靠,则放弃证据,以做出绝对的动议选择。这一结论与简单感知和基于价值的决策中广泛传播的决策过程的假设形成鲜明对比,它基于对刺激运动信息波动如何影响运动选择的无模型分析,以及有和没有积分的模型之间的正式比较。Kiani等人[30]使用类似于我们的无模型分析表明,当参与者看到两个运动脉冲以短暂的间隔分开时,两个脉冲对运动选择的贡献几乎相等。这个结果与我们的结果形成鲜明对比,其中只有第二个脉冲对最终选择有显着影响。在我们的实验中,即使积分是完美的,我们也不期望所有脉冲对运动选择产生相同的影响,因为当参与者决定再次咨询节点时,前面的查询中提供的证据很可能很弱 - 否则,参与者就不会重新查询。通过仿真,我们验证了如果在两次查询后做出运动选择,则第一个运动脉冲的回归系数应与零显着不同。相比之下,数据(以及检测模型的模拟)显示,在两次连续查询后做出运动选择时,第一个脉冲没有显著影响。总而言之,这些分析支持一个模型,其中只有最后一个查询通知运动选择。
是什么解释了我们的任务中没有整合?一种可能性是,参与者丢弃了如果无法进行重新查询,他们本来会使用的信息。或者,无集成策略可能比以前承认的更广泛。许多基于感知和价值的决策可以基于单个、信息量大的证据样本,但由于实验者不知道这个样本何时发生,反向相关分析可能会得出这样的结论,即决策者在比实际时间更长的时间内积累了信息。虽然这两种替代机制(证据整合和极值检测)似乎会导致准确性和响应时间的巨大差异,但只有当信噪比已知(包括刺激和大脑中的噪声)时,情况才如此,通常情况并非如此。如果信噪比被认为是适合数据的自由参数,那么对于感知决策文献中常用的许多任务,包括随机点运动辨别任务[26,44–46],两种模型都是无法区分的。
我们的结果与那些用贝叶斯推理来描述人类决策的结果形成鲜明对比。我们没有发现证据表明参与者代表了所有决策相关变量的联合概率分布。贝叶斯模型(确实如此)产生了远远优于实验观察到的性能,并表现出质的不同行为。因为我们的任务比通常用于感知决策文献的任务更复杂(例如,[47,48]),所以随着决策问题变得更加复杂,人们可能会偏离最佳行为。或者,如果任务复杂度较低[26,49,50],并且需要更复杂的决策来可靠地消除它们之间的歧义,则贝叶斯模型和非贝叶斯模型的行为也可能相似。
与贝叶斯模型不同,贝叶斯模型根据奖励结构的任何变化调整其决策策略,启发式模型仅限于可以通过修改其参数(例如决策条件以及路径和路径查询之间的比率)来推导的决策策略空间。虽然不如贝叶斯模型灵活,但启发式模型比文献中常用的采样规范(我们也在本研究中进行了探讨)更灵活,例如概率增益和信息增益,它们没有可以根据奖励结构变化进行调整的自由参数。此外,据报道,人们的计划策略对奖励意外事件的变化相对不敏感[51],人们(和猴子)即使在对任务表现有害的情况下也倾向于寻求信息,这可以解释为对奖励信息相对缺乏敏感性[34,52 ].我们实验的一个变体,其中奖励因区块而异,应该能够解决人们的计划策略对奖励意外事件的敏感程度的问题。
我们的数据显示,对动议决策准确性的信心 - 或对潜在结果的其他分级期望 - 会及时结转,以影响后续决策。然而,信心不足以在我们的任务中做出最佳决定。例如,对动议选择的信心可能很低,因为没有收集到足够的信息,或者因为获得的证据很弱。在这两种情况下,最好的后续操作可能不同:在第一种情况下,再次查询节点可能很方便,而在第二种情况下,在试验中不再查询它可能很方便,因为可以从过去的查询中推断出证据来源不可靠。为了区分这些战略,除了信心之外,还有必要推进其他不确定性措施(例如,对信心的信心)。
在检测模型中,通过将感官证据的强度与标准进行比较来做出重新查询决策。如果将标准设定为置信度而不是证据强度,则将获得相同的结果,因为两者之间存在单调关系。条件的位置取决于树级别,这就解释了为什么性能在树级别之间会有所不同。该标准还取决于节点在一行中采样的次数。当决策的难度是先验未知时,用样本数量折叠标准是一种明智的策略:如果从一个节点获得许多样本并且尚未做出决定,则证据质量越来越低的可能性越来越大,因此通过折叠标准来加速决策可能很方便。类似的原理证明了在反应时间实验中使用折叠决策终止边界是合理的[27,31]。
置信度还有助于解决错误后提供的模棱两可的反馈所引入的因果推理问题。参与者的行为可以通过一个模型来解释,该模型比较了沿着错误路径做出的决策的置信度,以确定哪个决策被归咎于错误。如果只有一个决策是低置信度的,则决策者将错误的责任分配给该节点;如果至少两个决策的置信度较低,则会再次查询其中最高级别的节点。先前对人类和猴子的研究表明,信心用于决定没有奖励是由于感知错误,还是由于刺激反应偶然规则的隐蔽变化[21,22]。 我们的结果将置信度在消除错误原因歧义中的作用扩展到决策层次结构中的主动采样情况。
在这项研究中,我们将置信度定义为运动选择正确的后验概率,用贝叶斯规则计算。在以前使用随机点运动任务的研究中,后验概率已被证明是置信度(高达单调变换)的良好代表[20,32,33,53,54]。 然而,后验概率很可能只是人们信心的一级近似值。置信度报告[55,56]中高度的个体变异性,情绪或人格特质等非任务因素的影响[56,57],微妙刺激操作的实验[58,59]和建模研究[60]表明,置信度和选择正确的后验概率之间可能存在系统性偏差。置信度计算中的一些细微差别,例如置信度的正证据偏倚[58]或置信度对证据变异性的不敏感[61],是否会影响人们在我们的任务中的计划行为,特别是在叶节点出现错误后的责任分配,还有待确定。
我们的研究与以前的人类规划研究之间存在许多差异。这些研究中的大多数依赖于没有不确定性的任务(经典计划)或不确定性仅限于状态之间随机转换的任务(马尔可夫决策过程,MDP),并专注于人们如何应对随着计划范围的增加而发生的组合爆炸[62–64],人们计划的深度[65,66] ],或者人们在从强化中学习时使用基于模型或无模型的策略的程度[62,67,68]。 目前的研究是不同的,因为我们专注于人们如何将单个隐藏状态与一系列寻求信息和寻求奖励的行为区分开来。该任务属于部分可观测的 MDP 类,其中需要一个观测模型来从嘈杂或不明确的观测值中推断当前状态。在这方面,我们的任务与主动传感文献中使用的任务更相似,其重点是如何引导感官提取决策相关信息(参见[69]进行综述)。我们的研究可以被解释为将主动传感的适用性扩展到由不同可靠性水平的子决策层次结构组成的任务。
虽然对我们任务中学习的详细分析超出了本研究的范围,但对行为如何随经验变化的分析表明,启发式策略的基础已经在早期建立起来。这意味着参与者要么从任务的口头描述中自动推导出启发式策略,要么在最初的几次试验中迅速学习。然后,可以使用任务中的经验来微调此初始策略的参数,而不是"从头开始"学习。在这方面,关于程序归纳和元学习的文献(例如,[70,71])可能比关于强化学习的文献更相关,这些文献对人类计划的研究非常有影响力。
同样相关的是向猴子或人类提供随机信息的决策树的研究,其中参与者可以同时访问来自不同分岔的证据[19,72–76]。 这些研究(没有主动抽样成分)表明,较低级别的决策会影响较高级别的决策,这表明在对其中任何一个做出绝对决策之前,将来自各种分岔的证据结合起来。Van den Berg等人的研究[20]是同时呈现所有分岔证据的一个例外,其中2级决定的证据仅在根节点上做出分类决定后才提出。虽然这项任务没有规划,重新规划或主动传感组件,但研究表明,2级决策比1级决策更快,这与我们的观察一致,即标准Φ?在决策树的更深处做出决策时变得更加自由。
通过我们的任务,我们打算在系统神经科学中常用的高度简化的决策任务与心理学和认知科学中使用的高度复杂的任务之间取得平衡。调整我们的任务由非人类灵长类动物执行可能有助于阐明主动信息采样,启发式计划和信念传播的神经生理学基础,补充最近在高度复杂的决策任务中训练的非人类灵长类动物的研究(例如,[77,78])。 未来研究的另一个可能富有成效的方向是将这里存在的范式应用于大规模在线研究。除了确认本研究中提出的结果外,基于少数经验丰富的参与者,它还将使我们能够探索人们的决策策略如何随着任务变量(如决策树的深度,不同替代方案的先验概率和奖励结构)以及任务外部变量(如特质测量)而变化。
虽然我们的任务被设计为推理模型,但我们的任务与那些决策之间存在许多差异,在这些决策中,不同子决策的证据是在内部产生的。一个明显的区别是,虽然在我们的任务中,不同子决策的证据一次只能评估一个,但大脑可以同时代表许多证据流[79]。这种差异可能不像看起来那么重要,因为有行为和神经科学证据表明,即使大脑能够并行处理多个证据流,但其中只有一个可以用来在每一刻更新决策变量[39,80,81]。 因此,决定使用哪种记忆、感觉或想法来告知决策的必要性可能受到我们在这里确定的相同类型的仲裁规则的约束。更根本的区别是,与决策有关的证据来源的数量可能很大[82,83],假设空间可能需要在决策过程中扩展[84,85],并且需要查询更丰富的内部模型以将单个评估与代理的目标相关联[86]。扩展这里提出的范式来近似这些更复杂的推理方面可能是富有成效的。
方法
道德声明
该研究是在哥伦比亚大学(纽约)进行的。所有参与者都提供了书面知情同意书。该研究得到了哥伦比亚大学医学中心机构审查委员会的批准。
参与者
四名参与者(1名男性和3名女性)参加了这项研究。所有人都有正常的视力,对实验的目的很天真。四名参与者中有三名参加了之前的一项研究[33]。
装置
视觉刺激在屏幕刷新率为75Hz的CRT显示器上呈现。使用头枕和下巴托,并使用Eyelink 1000眼动仪以2,000 Hz的频率监测眼睛位置(SR Research Ltd.,密西沙加,安大略省,加拿大)。该实验是在Matlab中编程的,使用Psychtoolbox库[87–89]。
试验设计
每个参与者在5到8个会话中完成了实验,每个会话大约1个小时。参与者每周完成2-3节课,每天不超过一节课。在典型的会话中,他们完成了3-5个块,每个块50个试验。总共,1至4名参与者分别完成了1450,700,1050和975项试验。这相当于每个参与者总共7015,3921,7817和5304个随机点运动演示。
随机点运动刺激
随机点运动刺激是按照前面描述的方法产生的[48]。每个视频帧显示三组交错点中的一组。当 40 毫秒后重新绘制时,每个点都可能从其先前位置移位±Δx,或者可以在随机位置重新绘制。点在运动方向上重绘的概率等于运动强度。位移Δx使得视运动速度为每秒5度的视角。位移的标志是确定为该节点和试验设定的运动方向。点密度为16.7/度2/s,并且这些点在4度视角的圆形光圈内是可见的。
在试验开始时,运动强度和方向被随机和独立地分配给每个节点,并且在整个试验过程中保持恒定。分配给每个节点的运动强度从列表[3.2,6.4,12.8,25.6,51.2]%中抽样。参与者每次查询内部节点时,都会获得227毫秒的随机点运动(17个视频帧)。每个随机点的运动电影都使用不同的随机种子进行实例化,因此,如果参与者在试验中多次查询同一节点,则每次都会向他们展示不同的电影,尽管具有相同的运动强度和方向。
任务描述
审判中的事件序列显示在S1电影中。决策树(28°宽和14°视角高度)在试验开始时显示,包括连接它们的15个节点和线。当参与者的视线在其中一个节点的2.2°以内时,它将颜色从红色变为粉红色。如果参与者按下键盘的空格键,他或她将看到一个随机点运动的短脉冲(227毫秒)。找到目标完成了试验,并提供了积极的回报。选择其他7个叶节点中的任何一个都会触发低音调的声音,向参与者表明所选的叶节点不是目标。
参与者被告知,查询内部节点导致损失1分;选择错误的叶节点导致损失3分;找到目标后获得了10分的积极奖励。在所有试验中,参与者(最终)找到了目标,因为这是结束试验并继续进行下一次试验的唯一方法。每次试验后,参与者都会收到有关他们在该试验中得分的反馈,按查询损失的分数,选择错误的叶节点而损失的分数以及找到目标而获得的分数(请参阅S1电影)进行细分。在每个区块结束时,参与者都会看到一个条形图,其中包含在区块和之前的所有区块中获得的总积分。
数据分析
我们使用逻辑回归来评估运动强度和树级别对查询内部节点和叶节点后所做选择的影响。我们对嵌套模型使用似然比检验来评估一个或多个回归系数等于零的原假设。在所有回归模型中,我们使用指标变量合并来自不同参与者的数据。
用于确定运动强度和树级别对运动选择的影响的逻辑回归模型为:
(6)
其中p向右是向右运动选择的概率(即,通过右分支下降一个级别),s是符号刺激强度(向右运动为正,向左运动为负),l是决策树中决策的水平(自上而下的值为 1 到 3),I 苏贝是一个指示变量,如果试验由受试者 subj 完成,则取值为 1,否则取值为 0。对于此分析,我们仅包括了在两个子节点之一中直接跟随查询的查询,这使我们能够评估运动选择是否正确。
我们使用逻辑回归来评估再次查询同一内部节点的概率(p重新查询) 取决于运动强度和树级别:
(7)
其中c是无符号运动强度。对于此分析,我们包括了所有查询,这些查询后跟两个子节点之一的查询或重新查询。如前所述,这三种类型的选择对应于内部节点查询之后的绝大多数操作。使用相同的回归模型(仅使用来自第一个试验块的数据)来评估树水平是否对p有影响。重新查询在每位参与者完成的第一批试验中。
为了确定叶节点发生错误后路径查询的比例是否取决于未归咎于错误的节点的运动强度,我们使用以下逻辑回归模型:
(8)
其中p上是在叶节点发生错误后执行路径查询的概率,cb是导致错误的原因节点的运动强度,cn,1和cn,2是误差路径中其他两个节点的运动强度。启发式模型预测β2应为负数,因为当沿错误路径做出决策时,路径查询的可能性更大,而当运动较弱时,低置信度选择更频繁。对于此分析,我们在叶节点上包含了这些错误,我们可以将后续操作分类为路径或路径外查询。通过对具有和不具有β的嵌套模型进行似然比检验来评估显著性2术语。
我们使用以下逻辑回归模型来确定刺激中的运动信息是否对选择具有显著的杠杆作用:
(9)
其中m是从运动刺激中获得的运动能量。运动能量随时间而求和,因此每个查询只有一个值。回归分析包括在一个查询后向右/向左选择的查询。
为了确定来自重新查询的查询的运动能量是否对最终选择有影响,我们使用以下逻辑回归模型:
(10)
它与方程9相同,除了它包括两个运动能量项,m第一和m第二,它们是在做出左/右运动选择之前查询节点的两次运动能量。该分析仅包括那些在两个查询后向右/向左选择的查询。
在图5中,我们显示了运动能量残差的时间过程。我们使用先前公布的程序[90,91]计算运动能量。简而言之,每次试验中呈现的随机点序列与两对时空滤波器卷积。每对运动方向中的一个都是有选择性的。方向选择性是通过加法和减法时间和空间滤波器的乘积来实现的。对手的运动能量是通过从向右的优先响应中向左减去来计算的。在对两个空间维度进行平均后,我们得到了一个时变信号,该信号量化了试验过程中运动能量的波动。滤波器的脉冲响应在刺激开始和滤波器响应之间引入了延迟,如图5所示。平均运动能量是运动强度的线性函数。为了计算运动能量残差,我们减去每个节点的运动强度和方向给出的运动能量的期望值。
以下逻辑回归模型用于测试决策树中节点的级别是否对叶节点错误被归咎于概率有影响:
(11)
其中p怪是具有运动强度c的节点从水平l到受试者I完成的概率苏贝归咎于错误。在此分析中,叶节点处的每个错误都会向逻辑回归模型贡献三个条目,每个条目对应于错误路径中的每个节点。因变量为错误原因的节点取值 1,其他两个节点的值为 0。对路径查询、非路径查询以及两者的并集独立执行分析,以估计运动强度(β1术语)和树级别 (β2) 分别用于这些条件。
在图 2中,我们显示了状态对之间的条件转移概率。对于每个主题u, Mu(i, j)是在节点i进行查询后查询节点j的次数。我们计算条件转移概率Wu(j|i) 以M为单位潜水每行u(i, j)按其总和。然后我们计算W的期望值u(j|i) 在主体上,得到W(j|在图中,我们只显示了W(j|的转换。i) 大于 0.075。线宽与W(j|成正比i)。
图 8显示了树级别之间的(无条件)转换概率。对于每个主题u,我们计算一个节点从级别l开始的次数j从级别l查询节点后被查询i, which is denoted by Nu(?i, ?j). To account for the difference in the number of trials across participants, we normalize Nu(?i, ?j) dividing it by the total number of queries (minus one) completed by each participant. Finally, we average across participants to obtain the normalized transition probabilities between levels, which we denote by N(?i, ?j). The figure only shows the transitions for which N(?i, ?j) is greater than 0.05. Line widths are proportional to N(?i, ?j).
Detection model
We assume that the momentary evidence comprises samples from a gaussian distribution and that the integration is unbounded for the duration of the stimulus. Therefore, the integral of the momentary evidence is also normally distributed. Following previous studies using random dot motion stimuli (e.g., [32]), the mean is assumed to be a linear function of motion strength,
(12)
where κ is the signal-to-noise, d indicates the net direction of motion (-1 for leftward and +1 for rightward motion) c is the motion strength and t = 0.227s is the stimulus duration. By convention, μ is positive for rightward motion, and negative for leftward motion.
The variance is also assumed to be a linear function of motion strength,
(13)
从以前的研究中可以知道,这比具有恒定方差的模型更好地解释了行为。这是一个合理的假设,因为从刺激中获得的运动能量的方差随着运动强度的增加而增加[33]。斜率γ是模型的自由参数。
内部节点的每个查询都会产生一个运动证据样本,
(14)
这取决于节点的运动强度c和运动方向d。
查询后做出的决策取决于e的值。如果e < ?φ?或e > φ?,模型考虑运动方向分别为左或右,下一个动作是选择相应的子节点。相反,如果|e|<φ?,则丢弃证据样本e,并从同一节点获取新样本。
标准Φ?是决策树中节点级别l和先前在节点上执行的查询数n的函数q,
(15)
其中φ?是取决于级别l的基本标准。速率参数 λ 控制 Φ 随n衰减的速度q.
检测模型总共有 6 个参数:θ ={κ ,γ,φ 1、φ2、φ3, λ}.该模型拟合了在内部节点的每个查询之后做出选择的可能性最大化,
(16)
其中选项可以是 +、? 或r,分别用于选择右分岔、左分岔或执行重新查询。cq和dq是查询q和l的运动强度和方向q是决策树中节点的级别(1 到 3)。我们将模型拟合到决策子集,这些决策子集后跟两个子节点之一的重新查询或查询。如 Results 中所述,这包括在内部节点上跟踪查询的绝大多数决策。
模型的行为由在 ±Φ 处超过条件的概率控制?:
(17)
(18)
(19)
其中 erfc 是互补误差函数。方程表示存在于±Φ 之外或之间的概率质量?.
该模型使用贝叶斯优化算法为每个参与者独立拟合[92]。图3和图4中的实线是用每个参与者的最佳拟合模型生成的。S1 表显示了最佳拟合模型的参数值。
贝叶斯模型
如 Results 中所述,贝叶斯模型表示问题可能状态s的概率分布,以从 7 个内部节点E和已访问的叶节点集V的过去查询中获得的运动样本为条件。
在叶节点上出现第一个错误之前(即,当V是空集时),分布可以按Eq 1中所示进行分解。 在等式1中是内部节点i具有运动强度c和运动方向d的概率,给定运动样本E的集合我从节点 i 的过去查询中获得。
在查询节点i并得到运动观测值 e后,节点i的运动方向的后验按照贝叶斯规则更新:
(20)
其中 似然函数,其示例如图4A所示。在第一个查询之前,是均匀分布的。
贝叶斯模型也表示概率分布,即叶节点T是目标的信念。如果在叶节点上尚未出现错误(即V是空集),则可以从分布中计算信念,这些分布可以通过边缘化运动强度轻松获得:
(21)
然后,可以将叶节点T作为目标的概率作为连接根节点到T的路径中三个节点i的乘积(请参见S2 表)。例如,图1B中目标10正确的概率等于节点1,2和5处净运动方向向右(d = 1)的概率。那是。
在叶节点发生错误后,此分解不再有效,因为当以错误为条件时,概率不再独立。我们使用以下过程来计算集合V不为空时的信念。首先,我们忽略叶节点处的错误,并使用E中的所有观测值来计算每个内部节点i,如前所述。
使用 ,我们计算K = 2 的概率77个内部节点的运动方向的可能组合。图1B和1C中所示的示例对应于两种这样的配置。我们使用索引k来识别决策树内部节点上运动方向的特定组合;例如,k = 0 可用于标识每个内部节点的真实运动方向向左的配置。忽略叶节点处的误差,7 个内部节点处运动方向的特定组合k的概率由乘积给出
(22)
其中d我为 1 或 -1,具体取决于对于组合k,节点i的运动方向分别是向右还是向左。
然后,我们在叶节点上合并错误。我们可以将所有组合k的概率归零,对于这些组合,正确的叶节点是已经访问过但结果不是目标的组合之一。例如,如果查询了叶节点 14 并且它不是目标,则可以丢弃节点 14 为目标的 16 个运动方向组合。对于所有可能被叶节点上的过去错误丢弃的组合k,我们将值设置为零,并重新规范化,使剩余 的总和加起来为 1,
(23)
其中Tk′是组合k的目标,如果组合k′ 的目标在集合V中,则是一个指标变量,其计算结果为 1,否则计算结果为 0。
最后,我们计算叶节点T是目标的信念。我们通过添加正确叶节点为T 的 16 个组合k的值来为每个叶节点T执行此操作。
(24)
其中 是一个指标变量,如果T是组合k的目标,则计算结果为 1,否则计算结果为零。
到目前为止,我们已经解释了如何在15个节点中的任何一个节点上进行查询后更新信念。但是我们还没有解决如何选择要查询的节点的问题。为此,我们使用了模拟。
从15种可能的行动中的每一项开始,我们评估在找到目标之前将产生的平均成本。当然,决策者不知道哪个叶节点是目标,因此我们实现以下过程。代理从状态上的后验分布中抽取状态s*。在叶节点出现误差之前,可以通过从分布中对每个内部节点i的运动强度和方向进行采样来获得s*。为了在叶节点出现错误后对状态s* 进行采样,我们首先从分布中采样运动方向k* 的组合,然后从分布中对每个节点i的运动强度进行采样,其中d我是由组合k* 确定的节点i处的运动方向。代理假定状态s* 是问题的真实状态。
然后,代理模拟随机操作,直到找到T*,目标对应于状态s*。代理以概率对其中一个内部节点进行采样,该节点以随机且概率相等地选择。有概率,代理对其中一个叶节点进行采样。在后一种情况下,代理对具有最高后验成为目标的叶节点进行采样。在每个模拟操作之后,代理都会更新分布区和(Eqs 20和24)。二. 意见e我采样后获得的内部节点与从检测模型(Eq 14)的拟合获得的参数呈正态分布。动作的内部模拟一直持续到找到目标T* 。找到目标T* 后,代理将使用实验的真实收益计算查找目标 T * 所产生的成本。请注意,这整个过程发生在决策者的"头脑中"。
上述过程重复 2, 000 次,从 15 个可能的后续操作中的每一个开始,总共 15 × 2, 000 次推出。为了选择下一个最佳操作,代理会从 15 个可能的后续操作中逐个操作中平均查找目标所产生的成本。所选操作是预期成本最低的操作。执行所选操作后,将从环境中获取观察结果,并用于更新信念和 。如果所选节点不是目标,贝叶斯决策者将选择下一个操作,重复刚才描述的基于仿真的过程。
启发式模型
启发式模型使用一种机制扩展了检测模型,以选择要在发生错误后查询的节点。在此过程中,沿误差路径(或选择置信度)进行的运动选择的预期精度起着关键作用。
使用贝叶斯规则计算在内部节点i上做出正确选择的置信度,该规则基于上次查询该节点i时获得的运动证据样本e。对向右是正确运动方向的信心是:
(25)
对左选择的信心很简单。
可能性由正态分布的概率密度函数(Eq 14)给出。如果在内部节点上进行了多次连续查询,则置信度基于上一个查询的运动证据。采用这一假设是为了与检测模型保持一致。在叶节点上出现错误后,决策者会比较错误路径中三个决策的置信度,以确定最佳的下一个操作。我们是使用向右还是向左选择的置信度取决于到达发生错误的叶节点所需的运动方向。例如,如果在图1B中的节点12处犯了一个错误,那么我们用于在节点1,3和6上做出的决策的置信度就是向左选择的置信度,因为所有这些选择都必须向左,节点12才能成为目标。
我们在启发式模型中加入了另外两个假设。一个是,一旦内部节点被归咎于错误,在从中获得新样本之前,它不能再次被归咎于它。如果没有这种假设,当错误路径中只有一个决策是以低置信度做出时,决策者可以反复指责同一节点。由于此假设,有时路径P中没有节点T可以对错误负责。在这种情况下,决策者随机查询叶节点,并且从尚未访问的节点中以相等的概率查询叶节点。另一个建模假设是,决策者可以记住已经访问过的叶节点,因此不会在同一次试验中两次查询同一叶节点。如果模型在决策树的第 3 级做出运动选择,这将导致在试验中已访问过的叶节点,则决策者将选择下一个操作,就好像它选择了该叶节点并获得负面反馈一样,而无需再次查询叶节点。
启发式模型(ω)的唯一参数是最小化模型和数据之间路径查询比例之间的差异,
(26)
其中p在路径上是路径查询数除以叶节点上的错误总数。
启发式模型的结果基于每个参与者的50,000个模拟试验。
浅层采样规范
结果中描述了用于使用浅层抽样规范选择行动的标准。Eqs 2–4中的期望值是根据可能的观测值 o计算的,而不是可以遵循动作a 、p(o|a, E, V),其中E和V分别包含一组运动样本和已访问的叶节点。
如果操作a是叶节点T的查询,则观察o可以取两个可能的值对应于目标已达到和未达到。在这种情况下,可能性分别由正反馈和负反馈给出。
相反,如果动作a是内部节点i的查询,则观测值 o是运动信息的样本,并且计算其似然需要边缘化运动强度c和方向d的可能值:
(27)
哪里
(28)
对于方程28右侧的第一项,E和V的条件化可以简化为E我因为一旦我们对运动方向(d)进行条件处理,不同运动强度的概率就变得独立于过去的误差和从其他节点获得的运动样本。 根据内部节点上运动方向的k个可能组合的枚举来计算,
(29)
其中,总和在所有组合k上(如贝叶斯模型部分所述),并且是一个指示变量,如果对于组合k,内部节点i的运动方向等于 d,则计算结果为1,否则计算结果为零。
支持信息
检测和启发式模型的最佳拟合参数。
显示 1/10: pcbi.1009688.s001.pdf
跳到无花果共享导航
Sorry we could not load your data.
1 / 10
下载
无花果共享
S1 表。检测和启发式模型的最佳拟合参数。
https://doi.org/10.1371/journal.pcbi.1009688.s001
(英文)
S2 表。所有路径PT从根节点到叶节点T。
表示P的元素T从级别l.节点编号遵循图1D的约定。
https://doi.org/10.1371/journal.pcbi.1009688.s002
(英文)
S1电影。分层决策任务。
实验的三次试验的屏幕录像。光标用于模拟参与者的注视;它没有在实验中显示。
https://doi.org/10.1371/journal.pcbi.1009688.s003
(MP4)
S1 图为决策树的三个级别单独计算的运动能量核。
我们分析了在同一内部节点的两次连续查询后做出的左/右选择。上行和下行分别显示从第一个和第二个查询中获得的运动能量残差,这些剩余值按第二个查询后所做的左/右选择排序。在决策树的每个级别做出的决策都是单独分析的,并在此处以列的形式显示。底纹表示 s.e.m。嵌套回归模型的比较有利于没有来自第一个运动脉冲的运动信息的模型(对于级别1-3,分别为Eq 10,ΔBIC = 1.3,6.5和5.4),所有这些都支持没有β3术语)。
https://doi.org/10.1371/journal.pcbi.1009688.s004
(英文)
S2 图与替代模型的统计比较。
检测模型与五个替代模型之间的贝叶斯信息准则 (BIC) 差异。正值表示对检测模型的支持。从左到右,五个替代模型是:(1)一个模型,其中集成了来自内部节点的连续查询的证据,这与只有最后一个查询影响左/右选择的检测模型不同;(2)一个模型,其中决策树的三个级别有一个通用标准φ,但信噪比(κ)可以为决策树的三个级别采用不同的值;(3)与以前的模型类似,除了φ也可以像检测模型一样,为决策树的每个级别取不同的值;(4)模型与检测模型相同,只是噪声与运动强度无关(即γ= 0);(5)标准φ取决于q(试验中查询的顺序)的模型,参数化为:φ = φ∞ + (φ0? φ∞)eη(q?1),其中η ,φ0和φ∞是拟合参数。
https://doi.org/10.1371/journal.pcbi.1009688.s005
(英文)
S3 图树级别与进行重新查询的概率之间的关系不受查询数或经过的时间的中介。
重新查询后跟的查询比例,作为查询顺序(左面板)和试验中查询时间(右面板)的函数。针对决策树的三个级别分别计算重新查询的比例。重新查询更有可能在决策树的较高级别进行,即使对于相同的查询数或经过的时间也是如此。这表明查询数和经过的时间都不能解释树级别对重新查询概率的影响。在左侧面板中,我们仅包含来自每个参与者的至少6个查询的条件。数据点是参与者的平均值。误差线表示参与者之间的.m。在右侧面板中,我们计算滑动窗口中 300 个查询的比例,这些查询按经过的时间对查询进行排序。
https://doi.org/10.1371/journal.pcbi.1009688.s006
(英文)
S4 图具有较低采样成本的贝叶斯模型的行为。
贝叶斯模型是针对查询决策树内部节点的成本降低到其真实值的 30% 的情况推导的。(A) 级别 1–3 级别时每次试验的平均查询数和叶节点的平均错误数。数据以绿色显示(类似于图6A),贝叶斯模型具有较低成本采样的行为以橙色显示。误差线表示 s.e.m.(B-E) 类似于图 2,但用于贝叶斯模型选择的动作,采样成本较低。它显示了从级别 1–3 的节点(面板 B–D)和叶节点(面板 E)的条件转移概率。红线的宽度与节点之间的条件转移概率成正比。
https://doi.org/10.1371/journal.pcbi.1009688.s007
(英文)
S5 图具有修改奖励偶然性的贝叶斯模型的正确运动选择和重新查询的比例。
与图3相同,但数据点是从贝叶斯模型获得的,采样更便宜(真实值的50%),甚至更便宜的重新查询(5%)。数据点基于每位参与者2,000项模拟试验。实线是类似于图3中使用的检测模型的拟合。与数据不同,贝叶斯模型在决策树的最低级别执行更多重新查询。
-核心期刊杂志-厦门论文发表
(英文)
S6 图路径查询的比例取决于未归咎于错误的节点的运动强度。
该图显示了路径查询的比例(所有路径查询的总和除以所有路径和非路径查询的总和),作为错误路径中未归咎于错误的两个节点的运动强度的乘积的函数。启发式模型预测,当两个节点的运动更强时,路径查询应该会更少,而不会归咎于错误。这一预测在数据中得到验证(参见正文中的统计分析)。虚线是指数函数与单项试验数据的拟合。误差线表示 s.e.m。
https://doi.org/10.1371/journal.pcbi.1009688.s009
(英文)
S7 图任务性能的动态。
(A)平均奖励残差(上图)和重新查询的比例(下图)与区块数的函数关系。奖励残差是从每次试验中获得的奖励中减去的,这是给定试验在每个内部节点的运动强度的预期奖励。使用线性回归模型为每个参与者独立拟合计算奖励预期,使用7个内部节点中每个节点的运动强度(加上一个截距)作为自变量。底部面板显示决策树每个级别的重新查询的比例,该比例是根据查询子集计算得出的,其中内部节点的查询后跟重新查询或两个子节点之一的查询。每个区块有50个试验。数据是参与者的平均值。误差线表示参与者之间的.m。(B)如图8所示,但独立计算了每个参与者完成的第一个和最后6个区块。对于两组试验,水平之间的转换概率大致相似。
https://doi.org/10.1371/journal.pcbi.1009688.s010
(英文)
确认
我要感谢Mike Shadlen分享资源,并感谢Peter Dayan,Mike Shadlen,Ralf Haefner,Shushruth,Ethan Bromberg-Martin,Ankani Chattoraj和Anton Pletenev对手稿早期版本的有益评论。
引用
1.Cushing W, Kambhampati S. Replanning: A New Perspective.美国蒙特雷自动规划和调度国际大会议论文集。2005;第13-16页。
2.Fakhari P, Khodadadi A, Busemeyer JR.随机环境中的绕道问题:托尔曼重新审视。认知心理学。2018;101:29–49.pmid:29294373
查看文章PubMed/NCBI谷歌学术搜索
3.Bonet B,Geffner H.通过经典重规划在部分可观察性下进行规划:理论与实验。在: 第二十二届国际人工智能联合会议;2011.
4.Kaelbling LP,Littman ML,Cassandra AR.在部分可观察的随机域中规划和行动。人工智能。1998;101(1-2):99–134.
查看文章谷歌学术搜索
5.Smallwood RD, Sondik EJ.有限视界上部分可观测马尔可夫过程的最优控制。运筹学。1973;21(5):1071–1088.
查看文章谷歌学术搜索
6.Levine JM,Samet MG.信息寻求多个来源的冲突和不可靠的信息。人为因素。1973;15(4):407–419.
查看文章谷歌学术搜索
7.Tsividis P,Gershman S,Tenenbaum J,Schulz L.在具有大型动作空间的嘈杂环境中的信息选择。在:认知科学学会年会论文集。第36卷;2014.
8.K?rding KP, Beierholm U, Ma WJ, Quartz S, Tenenbaum JB, Shams L. 多感官知觉中的因果推断。PLoS one.2007;2(9):e943.下午:17895984
查看文章PubMed/NCBI谷歌学术搜索
9.珍珠J.因果关系。剑桥大学出版社;2009.
10.Schrittwieser J, Antonoglou I, Hubert T, Simonyan K, Sifre L, Schmitt S, et al.通过学习模型进行规划,掌握atari,围棋,国际象棋和将棋。自然界。2020;588(7839):604–609.pmid:33361790
查看文章PubMed/NCBI谷歌学术搜索
11.Mnih V, Kavukcuoglu K, Silver D, Rusu AA, Veness J, Bellemare MG, et al.通过深度强化学习进行人类层面的控制。自然界。2015;518(7540):529–533.pmid:25719670
查看文章PubMed/NCBI谷歌学术搜索
12.Balaguer J,Spiers H,Hassabis D,Summerfield C.虚拟地铁网络中分层规划的神经机制。神经元。2016;90(4):893–903.pmid:27196978
查看文章PubMed/NCBI谷歌学术搜索
13.格夫纳 H, 博内特 B.简要介绍用于自动规划的模型和方法。关于人工智能和机器学习的综合讲座。2013;8(1):1–141.
查看文章谷歌学术搜索
14.叶楠,索马尼A,许德,李WS。暴君:具有正则化的在线pomdp计划。人工智能研究杂志。2017;58:231–266.
查看文章谷歌学术搜索
15.阿斯特罗姆 KJ.具有不完全状态估计的马尔可夫决策过程的最优控制.J 数学肛门应用。1965;10:174–205.
查看文章谷歌学术搜索
16.松迪克在无限视野内对部分可观测马尔可夫过程的最佳控制:贴现成本。运筹学。1978;26(2):282–304.
查看文章谷歌学术搜索
17.Britten KH, Shadlen MN, Newsome WT, Movshon JA.视觉运动的分析:神经元和心理物理性能的比较。神经科学杂志。1992;12(12):4745–4765.pmid:1464765
查看文章PubMed/NCBI谷歌学术搜索
18.金吉,明尼苏达州沙德伦。决策的神经基础。神经科学年度回顾。2007;30.pmid:17600525
查看文章PubMed/NCBI谷歌学术搜索
19.Lorteije JA, Zylberberg A, Ouellette BG, De Zeeuw CI, Sigman M, Roelfsema PR.视觉皮层中分层决策的形成。神经元。2015;87(6):1344–1356.下午:26365766
查看文章PubMed/NCBI谷歌学术搜索
20.Van den Berg R, Zylberberg A, Kiani R, Shadlen MN, Wolpert DM. 信心是多阶段决策之间的桥梁。当前生物学。2016;26(23):3157–3168.pmid:27866891
查看文章PubMed/NCBI谷歌学术搜索
21.Purcell BA,Kiani R.在不同时间尺度上运行的分层决策过程是选择和战略变化的基础。美国国家科学院院刊。2016;113(31):E4531–E4540.pmid:27432960
查看文章PubMed/NCBI谷歌学术搜索
22.Sarafyazd M,Jazayeri M.额叶皮层神经回路的分层推理。科学。2019;364 (6441).pmid:31097640
查看文章PubMed/NCBI谷歌学术搜索
23.Watson AB. 随时间推移的概率求和。视觉研究。1979;19(5):515–522.下午:483579
查看文章PubMed/NCBI谷歌学术搜索
24.卡特赖特 D, 费斯廷格 L.决策的定量理论。心理学评论。1943;50(6):595.
查看文章谷歌学术搜索
25.Wald A, Wolfowitz J. 序贯概率比检验的最优特征。数理统计年鉴。1948;第326-339页。
查看文章谷歌学术搜索
26.Stine GM, Zylberberg A, Ditterich J, Shadlen MN.在感知决策中区分整合和非整合策略。埃利夫。2020;9:e55365.pmid:32338595
查看文章PubMed/NCBI谷歌学术搜索
27.Drugowitsch J, Moreno-Bote R, Churchland AK, Shadlen MN, Pouget A.在感知决策中积累证据的成本。神经科学杂志。2012;32(11):3612–3628.pmid:22423085
查看文章PubMed/NCBI谷歌学术搜索
28.Ahumada A Jr. 来自Vernier敏锐度的感知分类图像被噪音掩盖。知觉。1996;25(1_suppl):2–2.
查看文章谷歌学术搜索
29.Okazawa G,Sha L,Purcell BA,Kiani R.心理物理逆相关反映了感官和决策过程。自然通讯。2018;9(1):1–16.pmid:30154467
查看文章PubMed/NCBI谷歌学术搜索
30.Kiani R, Churchland AK, Shadlen MN.方向线索的积分对于它们之间的时间间隙是不变的。神经科学杂志。2013;33(42):16483–16489.pmid:24133253
查看文章PubMed/NCBI谷歌学术搜索
31.Shadlen MN, Hanks TD, Churchland AK, Kiani R, Yang T.一个简单的感知决策的速度和准确性:数学入门。贝叶斯脑:神经编码的概率方法。2006;第209-37页。
查看文章谷歌学术搜索
32.Fetsch CR, Kiani R, Newsome WT, Shadlen MN.皮质微刺激对感知决策信心的影响。神经元。2014;83(4):797–804.下午:25123306
查看文章PubMed/NCBI谷歌学术搜索
33.Zylberberg A, Fetsch CR, Shadlen MN.证据波动性对感知决策的选择、反应时间和信心的影响。埃利夫。2016;5:e17688.pmid:27787198
查看文章PubMed/NCBI谷歌学术搜索
34.Tversky A,Edwards W.信息与二元选择中的奖励。实验心理学杂志。1966;71(5):680.pmid:5939707
查看文章PubMed/NCBI谷歌学术搜索
35.纳尔逊·法学博士寻找有用的问题:关于贝叶斯诊断性,概率,影响和信息获取。心理回顾。2005;112(4):979.pmid:16262476
查看文章PubMed/NCBI谷歌学术搜索
36.香农 CE.沟通的数学理论。贝尔系统技术期刊。1948;27(3):379–423.
查看文章谷歌学术搜索
37.Markant DB, Settles B, Gureckis TM.自主学习有利于局部的不确定性,而不是全球性的不确定性。认知科学。2016;40(1):100–120.pmid:25789918
查看文章PubMed/NCBI谷歌学术搜索
38.米勒 GA.神奇的数字七,加上或减去二:我们处理信息的能力受到一些限制。心理回顾。1956;63(2):81.pmid:13310704
查看文章PubMed/NCBI谷歌学术搜索
39.Zylberberg A, Dehaene S, Roelfsema PR, Sigman M.人类图灵机:心理程序的神经框架。认知科学的趋势。2011;15(7):293–300.pmid:21696998
查看文章PubMed/NCBI谷歌学术搜索
40.Desender K, Boldt A, Yeung N. 主观置信度预测决策中的信息寻求。心理科学。2018;29(5):761–778.下午:29608411
查看文章PubMed/NCBI谷歌学术搜索
41.Desender K, Murphy P, Boldt A, Verguts T, Yeung N.置信度的犹豫后神经标志物预测决策中的信息寻求。神经科学杂志。2019;39(17):3309–3319.pmid:30804091
查看文章PubMed/NCBI谷歌学术搜索
42.Ludwig CJ, evens DR. 信息觅食感知决策。实验心理学杂志:人类感知与表现。2017;43(2):245.下午:27819455
查看文章PubMed/NCBI谷歌学术搜索
43.冯·诺依曼计算机和大脑。耶鲁大学出版社;1958.
44.Ditterich J. 关于运动方向的决策随机模型:行为和生理学。神经网络。2006;19(8):981–1012.pmid:16952441
查看文章PubMed/NCBI谷歌学术搜索
45.Thura D, Beauregard-Racine J, Fradet CW, Cisek P. 通过紧急门控做出决策:理论和实验支持。神经生理学杂志。2012;108(11):2912–2930.pmid:22993260
查看文章PubMed/NCBI谷歌学术搜索
46.Shadlen MN, Kiani R, Newsome WT, Gold JI, Wolpert DM, Zylberberg A, et al.评论"顶叶皮层的单次试验尖峰训练揭示了决策过程中的离散步骤"。科学。2016;351(6280):1406–1406.下午:27013723
查看文章PubMed/NCBI谷歌学术搜索
47.布伦顿BW,博特维尼克MM,布罗迪CD。老鼠和人类可以最佳地积累决策证据。科学。2013;340(6128):95–98.pmid:23559254
查看文章PubMed/NCBI谷歌学术搜索
48.罗伊特曼JD,明尼苏达州沙德伦。在联合视觉辨别反应时间任务期间,外侧顶内区域神经元的反应。神经科学杂志。2002;22(21):9475–9489.下午:12417672
查看文章PubMed/NCBI谷歌学术搜索
49.Schütt H, Yoo A, Calder-Travis J, Ma WJ.点估计观察者:一类用于感知决策的新模型。PsyArXiv.2021.
50.奥尔汉·艾,马伟杰。使用非概率反馈训练的通用神经网络中的高效概率推理。自然通讯。2017;8(1):1–14.pmid:28743932
查看文章PubMed/NCBI谷歌学术搜索
51.马尔坎特D,古雷基斯T。信息的效用是否会影响抽样行为?在:认知科学学会年会论文集。第34卷;2012.
52.Bromberg-Martin ES,Hikosaka O. Midbrain多巴胺神经元对即将到来的奖励的预先信息表示偏好。神经元。2009;63(1):119–126.pmid:19607797
查看文章PubMed/NCBI谷歌学术搜索
53.Kiani R, Shadlen MN.表示与顶叶皮层神经元决策相关的置信度。科学。2009;324(5928):759–764.pmid:19423820
查看文章PubMed/NCBI谷歌学术搜索
54.Kiani R, Corthell L, Shadlen MN.选择确定性由证据和决策时间决定。神经元。2014;84(6):1329–1342.pmid:25521381
查看文章PubMed/NCBI谷歌学术搜索
55.Fleming SM,Weil RS,Nagy Z,Dolan RJ,Rees G.将内省准确性与大脑结构中的个体差异联系起来。科学。2010;329(5998):1541–1543.下午:20847276
查看文章PubMed/NCBI谷歌学术搜索
56.Ais J, Zylberberg A, Barttfeld P, Sigman M. 置信度判断的准确性和分布的个人一致性。认识。2016;146:377–386.pmid:26513356
查看文章PubMed/NCBI谷歌学术搜索
57.Rouault M,Seow T,Gillan CM,Fleming SM.精神症状维度与元认知的离去性变化有关,但与任务表现无关。生物精神病学。2018;84(6):443–451.pmid:29458997
查看文章PubMed/NCBI谷歌学术搜索
58.齐尔伯伯格 A, 巴特菲尔德 P, 西格曼 M.在感知决策中建立信心。综合神经科学的前沿。2012;6:79.pmid:23049504
查看文章PubMed/NCBI谷歌学术搜索
59.Maniscalco B,Peters MA,Lau H.启发式使用感知证据导致表现与元认知敏感性之间的解离。注意力,感知和心理物理学。2016;78(3):923–937.pmid:26791233
查看文章PubMed/NCBI谷歌学术搜索
60.阿德勒WT,马WJ。比较人类信心报告的贝叶斯和非贝叶斯帐户。PLoS计算生物学。2018;14(11):e1006572.pmid:30422974
查看文章PubMed/NCBI谷歌学术搜索
61.Zylberberg A,Roelfsema PR,Sigman M.方差误解解释了简单感知决策中的信心幻觉。意识和认知。2014;27:246–253.下午:24951943
查看文章PubMed/NCBI谷歌学术搜索
62.Keramati M,Smittenaar P,Dolan RJ,Dayan P.习惯性地整合到深度限制计划中定义了习惯性目标导向的光谱。美国国家科学院院刊。2016;113(45):12868–12873.pmid:27791110
查看文章PubMed/NCBI谷歌学术搜索
63.Huys QJ, Eshel N, O'Nions E, Sheridan L, Dayan P, Roiser JP.你脑海中的盆景树:巴甫洛夫系统如何通过修剪决策树来雕刻目标导向的选择。PLoS Comput Biol. 2012;8(3):e1002410.pmid:22412360
查看文章PubMed/NCBI谷歌学术搜索
64.Callaway F, van Opheusden B, Gul S, Das P, Krueger P, Lieder F, et al.人类规划作为最佳信息搜索。手稿正在准备中。2021.
65.Snider J, Lee D, Poizner H, Gepshtein S. 资源有限的前瞻性优化。PLoS 计算机生物学 2015;11(9):e1004501.pmid:26367309
查看文章PubMed/NCBI谷歌学术搜索
66.van Opheusden B, Galbiati G, Kuperwajs I, Bnaya Z, Ma WJ, et al.通过双人棋盘游戏揭示专业知识对人类规划的影响。PsyArXiv.2021.
67.Daw ND, Gershman SJ, Seymour B, Dayan P, Dolan RJ.基于模型对人类选择和纹状体预测误差的影响。神经元。2011;69(6):1204–1215.pmid:21435563
查看文章PubMed/NCBI谷歌学术搜索
68.Daw ND,Niv Y,Dayan P.前额叶和背外侧纹状体系统之间基于不确定性的行为控制竞争。自然神经科学。2005;8(12):1704–1711.pmid:16286932
查看文章PubMed/NCBI谷歌学术搜索
69.杨SCH,Wolpert DM,Lengyel M.主动传感的理论视角。行为科学的当前观点。2016;11:100–108.
查看文章谷歌学术搜索
70.Ellis K, Wong C, Nye M, Sable-Meyer M, Cary L, Morales L, et al. Dreamcoder: Growing possibleized, interpretizes knowledge with wake-sleep bayesian program learning.arXiv 预印本 arXiv:200608381.2020.
71.湖BM,萨拉库季诺夫R,特南鲍姆JB。通过概率程序归纳进行人类层面的概念学习。科学。2015;350(6266):1332–1338.下午:26659050
查看文章PubMed/NCBI谷歌学术搜索
72.Calderon CB,Dewulf M,Gevers W,Verguts T.连续跟踪路径揭示了多步骤决策中的加法证据集成。美国国家科学院院刊。2017;114(40):10618–10623.
查看文章谷歌学术搜索
73.Solway A, Botvinick MM. 基于模型的树搜索中的证据集成。美国国家科学院院刊。2015;112(37):11708–11713.pmid:26324932
查看文章PubMed/NCBI谷歌学术搜索
74.Zylberberg A, Lorteije JA, Ouellette BG, De Zeeuw CI, Sigman M, Roelfsema P. 灵长类动物的序列、并行和分层决策。埃利夫。2017;6:e17331.pmid:28648172
查看文章PubMed/NCBI谷歌学术搜索
75.Hyafil A,Moreno-Bote R.分解灵长类动物决策的层次结构。埃利夫。2017;6:e16650.下午:28648171
查看文章PubMed/NCBI谷歌学术搜索
76.Zylberberg A, Ouellette B, Sigman M, Roelfsema PR. 心理难治期的决策。当前生物学。2012;22(19):1795–1799.pmid:22921368
查看文章PubMed/NCBI谷歌学术搜索
77.Shushruth S, Shadlen MN.在抽象决策过程中,从存储器中进行顺序采样是操作选择的基础。生物Rxiv.2021.
查看文章谷歌学术搜索
78.杨璐, 林振, 张伟, 李娟, 陈晓, 张娟, 等. 猴子玩吃豆人与构图策略与分层决策.生物Rxiv.2021.
查看文章谷歌学术搜索
79.Carney T, Shadlen M, Switkes E. 并行处理运动和颜色信息。自然界。1987;328(6131):647–649.pmid:3614368
查看文章PubMed/NCBI谷歌学术搜索
80.Kang YH, L?ffler A, Jeurissen D, Zylberberg A, Wolpert DM, Shadlen MN.关于一个物体的多个决策涉及并行感官采集,但时间多路复用证据的结合。埃利夫。2021;10:e63721.pmid:33688829
查看文章PubMed/NCBI谷歌学术搜索
81.Pashler H. 双重任务干扰简单任务:数据和理论。心理学公报。1994;116(2):220.pmid:7972591
查看文章PubMed/NCBI谷歌学术搜索
82.Moreno-Bote R, Ramírez-Ruiz J, Drugowitsch J, Hayden BY.广度-深度困境的启发式方法和最佳解。美国国家科学院院刊。2020;117(33):19799–19808.下午:32759219
查看文章PubMed/NCBI谷歌学术搜索
83.Moreno-Bote R,Mastrogiuseppe C.深厚的想象力是在有限资源下在大型决策树中进行规划的接近最优策略。arXiv 预印本 arXiv:210406339.2021.
84.克里斯蒂·S, 根特纳·假设从何而来:通过结构对齐来学习新的关系。认知与发展杂志。2010;11(3):356–373.
查看文章谷歌学术搜索
85.肯普C,特南鲍姆JB。结构形式的发现。美国国家科学院院刊。2008;105(31):10687–10692.下午:18669663
查看文章PubMed/NCBI谷歌学术搜索
86.Coenen A, Nelson JD, Gureckis TM.提出关于人类探究心理学的正确问题:九个开放的挑战。Psychonomic Bulletin & Review。2019;26(5):1548–1587.pmid:29869025
查看文章PubMed/NCBI谷歌学术搜索
87.布雷纳德DH。心理物理学工具箱。空间视觉。1997;10(4):433–436.pmid:9176952
查看文章PubMed/NCBI谷歌学术搜索
88.佩利DG,Vision S.用于视觉心理物理学的VideoToolbox软件:将数字转换为电影。空间视觉。1997;10:437–442.下午:9176953
查看文章PubMed/NCBI谷歌学术搜索
89.Kleiner M, Brainard D, Pelli D.Psychtoolbox-3 中有哪些新功能?知觉。2007;36(ECVP 摘要增刊)(14).
90.Adelson EH,Bergen JR.用于运动感知的时空能量模型。乔萨 a. 1985;2(2):284–299.
查看文章谷歌学术搜索-核心期刊杂志-厦门论文发表层次结构中的决策优先级和因果推理-核心期刊杂志-厦门
91.Kiani R, Hanks TD, Shadlen MN.顶叶皮层的有界整合是决策的基础,即使观看持续时间由环境决定。神经科学杂志。2008;28(12):3017–3029.pmid:18354005
查看文章PubMed/NCBI谷歌学术搜索
92.阿塞尔比 L, 马 WJ.与贝叶斯自适应直接搜索一起拟合模型的实用贝叶斯优化。arXiv preprint arXiv:1