《免费医学论文发表-小鼠视觉皮层作为一种有限的资源系统,可以自我学习生态学上的一般表征》期刊简介
免费医学论文发表-小鼠视觉皮层作为一种有限的资源系统,可以自我学习生态学上的一般表征
抽象
对小鼠视觉系统的研究表明,各种视觉大脑区域被认为支持多种行为能力,从刺激奖励关联到目标导向导航和以对象为中心的歧视。然而,对小鼠视觉皮层的整体理解,以及它如何支持一系列行为,仍然未知。在这里,我们采用一种计算方法来帮助解决这些问题,提供小鼠视觉皮层的高保真定量模型,并确定该模型成功的关键结构和功能原理。在结构上,我们发现具有低分辨率输入的相对较浅的网络结构是模拟小鼠视觉皮层的最佳选择。我们的主要发现是函数式的——与在监督目标或其他自我监督方法上训练的模型相比,使用基于对比嵌入概念的任务不可知的自监督目标函数训练的模型与小鼠皮层的匹配度要好得多。这一结果与灵长类动物非常不同,灵长类动物先前的工作表明两者大致相同,自然导致我们提出一个问题,为什么这些自我监督的目标比小鼠的监督目标更匹配。为此,我们表明,自我监督的对比目标构建了一个通用的视觉表示,使系统能够在分布外的视觉场景理解和基于奖励的导航任务上实现更好的转移。我们的研究结果表明,小鼠视觉皮层是一种低分辨率的浅层网络,它充分利用小鼠有限的资源来创建轻量级的通用视觉系统,与灵长类动物的深层,高分辨率和更分类主导的视觉系统形成鲜明对比。
作者摘要
对小鼠视觉行为的研究揭示了多种视觉能力,从刺激奖励关联到目标导向导航和以对象为中心的辨别。一个有原则的小鼠视觉皮层系统模型将有助于为这种广泛的行为提供组织理论,并为更广泛的小鼠神经科学的许多模型驱动的研究提供实用技术。然而,创建定量准确的灵长类视觉皮层模型的标准方法在小鼠系统中不太成功。在这里,我们确定了捕获小鼠特异性神经刺激 - 反应模式所需的关键计算特征,并说明了如何将这些特征解释为使资源高度有限的小鼠大脑在自学任务通用视觉表示方面具有比较优势。
数字
图1表1图2Table 2Fig 3Fig 4Fig 5Fig 6Fig 7Table 3图1表1图2
引文: Nayebi A, Kong NCL, Zhuang C, Gardner JL, Norcia AM, Yamins DLK (2023) 小鼠视觉皮层作为一种有限的资源系统,可以自我学习生态学的一般表征。公共科学图书馆计算生物学19(10): e1011506. https://doi.org/10.1371/journal.pcbi.1011506
编辑 器: 蒂姆·克里斯蒂安·基茨曼, 奥斯纳布吕克大学:德国奥斯纳布吕克大学
收到: 12年2023月11日;接受: 2023月 2, 2023;发表: <>月 <>, <>
版权: ? 2023 纳耶比等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关的神经数据均可在以下网址访问: https://github.com/AllenInstitute/AllenSDK 所有源代码均可在: https://github.com/neuroailab/mouse-vision.
资助:A.N.由麻省理工学院K. Lisa Yang综合计算神经科学(ICoN)中心支持。N.C.L.K.得到了斯坦福大学Ric Weiland研究生奖学金的支持。J.L.G.感谢吴仔神经科学研究所和以人为本的人工智能研究所的支持。A.M.N.得到了斯坦福大学以人类为中心的人工智能研究所的支持。D.L.K.Y. 得到了詹姆斯·麦克唐纳基金会(了解人类认知奖资助第 220020469 号)、西蒙斯基金会(全球大脑基金合作第 543061 号)、斯隆基金会(奖学金 FG-2018-10963)、美国国家科学基金会(RI 1703161 和 CAREER Award 1844724)、DARPA 机器常识计划以及 NVIDIA 公司的硬件捐赠的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 作者声明没有竞争利益。
介绍
小鼠已成为系统神经科学中不可或缺的模式生物,在单个回路的细胞类型特异性水平上实现了前所未有的遗传和实验控制[1]。此外,对小鼠视觉行为的研究揭示了多种能力,从刺激奖励关联到目标导向导航和以对象为中心的判别[2]。因此,小鼠动物模型将细粒度的低水平实验控制与高级行为联系起来。因此,了解小鼠视觉系统结构和功能的基本原理以及它与更常研究的视觉生物(如猕猴)的关系非常重要。
计算模型是了解小鼠视觉皮层如何能够支持此类行为并为其结构和功能提供规范性解释的有效工具。它们使我们能够确定导致模型的关键成分,与神经数据具有最佳定量一致性。我们还可以评估啮齿动物和灵长类动物视觉皮层之间的功能异同,如果没有先前文献中的模型,除了在V1以上的更高视觉区域无法同源之外,很难捕获这些功能。此外,这些模型为理解视觉系统下游的更高层次的处理提供了一个自然的起点,例如在内存中及其在丰富视觉环境导航中的作用[3-7]。如果没有明确的视觉系统模型,就很难将视觉系统对神经反应方差的贡献与更高层次的认知现象的贡献区分开来。因此,理解啮齿动物高等认知和运动控制的基础计算将关键取决于对它们所依赖的上游感觉区域的理解。
深度卷积神经网络(CNN)是一类作为人类和非人类灵长类动物腹侧视觉流的预测模型(例如[8-13])而取得成功的模型。相比之下,这些模型对小鼠视觉皮层神经反应的预测能力较差[14,15]。 我们的假设是,这种失败可以通过目标驱动的建模方法来理解并得到补救[16]。这种方法假设神经科学中的规范模型应该仔细注意目标功能(即行为),架构(即神经回路)和数据流(即视觉输入)。这些结构和功能成分应根据所研究生物体的生物学和生态学进行微调。
在这项工作中,我们通过更好地将目标功能,架构和视觉输入与小鼠视觉系统的目标功能,结构和视觉输入对齐,建立了一个显着改进的小鼠视觉皮层模型。首先,从目标函数的角度来看,灵长类动物腹流模型在ImageNet上以监督方式进行训练[17,18],这是一个包含超过一百万张图像的图像集,属于一千个,主要是与人类相关的语义类别[19]。虽然这样的数据集是机器学习的重要技术工具,但它作为生物模型是非常不可信的,特别是对于啮齿动物来说,它们在发育过程中不会收到这样的类别标签。相反,我们发现使用自我监督的对比算法训练的模型提供了与小鼠视觉反应的最佳对应关系。有趣的是,这种情况与灵长类动物不同,先前的研究表明两者大致相同[20]。其次,就结构而言,这些灵长类动物腹侧视觉流模型太深,无法成为小鼠视觉系统的合理模型,因为已知小鼠视觉皮层比灵长类视觉皮层更平行且浅得多[21-24]。通过改变模型中线性非线性层的数量,我们发现线性非线性层较少的模型可以实现更好或与非常深的模型相当的神经预测性能。最后,已知小鼠的视力低于灵长类动物[25,26],这表明小鼠模型输入的分辨率应低于灵长类动物模型输入的分辨率。事实上,我们发现模型保真度可以通过在较低分辨率的图像上训练它们来提高。最终,这些成分的汇合产生了一个模型,称为“对比AlexNet”(前四层),迄今为止最匹配小鼠视觉皮层。
然后,我们从生态学的角度解决了为什么对比AlexNet在神经预测方面做得更好,特别是对比,自我监督学习的作用,这是新颖的,并且不是已知的小鼠生理学和行为实验所期望的。为了解决这个问题,我们使用对比AlexNet来评估其原始训练环境的分布外泛化,包括使用视觉编码器作为生物力学现实虚拟啮齿动物的前端,在支持空间扩展的基于奖励的导航的环境中运行。我们表明,该模型的可视化表示可以提高跨环境的监督对应物的传输性能,说明了任务转移性能与计算模型的神经保真度提高之间的一致性。
综上所述,我们最好的鼠标视觉系统模型表明,它是一个较浅的通用系统,在相对低分辨率的输入下运行。因此,这些已确定的因素为最初可能引起系统的约束汇合提供了可解释的见解,这表明考虑到小鼠所处的生态位以及它所受到的资源限制,这些因素至关重要。
结果
确定动物到动物的映射转换
以前的小鼠视觉皮层模型可以通过改变三种成分来改进,以更好地匹配小鼠视觉皮层的生物学和生态学。然而,在模型开发之前,我们必须确定评估模型的适当过程。与之前模拟灵长类动物视觉皮层的工作一样,我们将模型反应“映射”为生物反应,模型反应概括生物反应的能力决定了模型的神经保真度[8,9,17,20]。
人工神经网络反应应该如何映射到生物神经反应?小鼠视觉区域的哪些放电模式在多种动物中是常见的,因此值得计算解释?一种自然的方法是将人工神经网络特征映射到小鼠神经反应,就像不同的动物可以相互映射一样。具体来说,我们旨在确定将一种动物的神经种群的放电模式映射到另一只动物的放电模式所需的最佳相似性转换类,我们将其表示为“动物间一致性”。我们从已被证明对人类和非人类灵长类动物视觉、听觉和运动皮质建模有用的方法中汲取灵感[16,27-29]。与其他皮质区域一样,这种转换类可能不会如此严格,以至于需要细胞之间固定的神经元到神经元映射。但是,每个视觉区域的变换类也不能松散到允许不受约束的非线性映射,因为模型已经产生了图像可计算的非线性响应。
我们探索了每个小鼠视觉区域的群体反应之间的各种线性映射变换类(拟合不同的约束)(图1A)。艾伦研究所[15,22]先前使用双光子钙成像和神经像素从小鼠视觉皮层中的区域V1(VISp),LM(VISl),AL(VISal),RL(VISrl),AM(VISam)和PM(VISpm)收集了小鼠对自然场景的视觉反应(参见表1中每个数据集的单位和标本的数量以及“神经反应数据集”部分中的更多详细信息)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 跨小鼠视觉区域的动物间神经反应一致性。
A.使用不同的线性地图计算动物间的一致性,表明PLS回归提供了最高的一致性。顶部的水平条是每个视觉区域中神经元内部一致性的中位数和 s.e.m.。每个视觉区域的N个单位参见表1。B. 最大半分之一可靠性的分数绘制为每个视觉区域的时间函数(以 10 毫秒时间箱为单位)。
https://doi.org/10.1371/journal.pcbi.1011506.g001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 神经数据集的描述性统计。
钙成像和神经像素数据集的每个视觉区域的单位和标本总数。
https://doi.org/10.1371/journal.pcbi.1011506.t001
我们专注于自然场景刺激,由118张图像组成,每张图像呈现50次(即每张图像50次试验)。对于所有方法,在所有自然场景图像的50%上训练相应的映射,并在剩余的保留图像集上进行评估。我们还纳入了表征相似性分析(RSA;[30])作为动物之间种群相似性的基线度量,对应于没有选择单个单位,与其他映射变换不同。对于最严格的映射转换(一对一),每个目标单元都映射到源动物中单个最相关的单元。总体而言,在所考虑的地图中,一对一映射往往产生最低的动物间一致性。然而,岭回归(L2正则化)和偏最小二乘(PLS)回归在动物间映射中更有效,在视觉区域产生最一致的拟合,PLS回归提供最高的动物间一致性。因此,我们使用PLS回归来评估候选模型预测神经反应的能力。这种映射转换提供了额外的好处,可以与先前的灵长类动物腹流结果(也使用此映射[8,17])进行直接比较,以便更好地了解物种之间两个视觉系统之间的生态差异。
在所有映射变换下,对数线性外推分析(S5 Fig)显示,随着单元数量的增加,神经像素数据集的动物间一致性接近1.0的速度比钙成像数据集更快,钙成像数据集是从Δf / F迹线的平均值中获得的,这表明神经像素数据在所有视觉区域的可靠性更高。我们进一步注意到,通过RSA获得的动物间一致性与钙成像数据集RL中响应的任何其他映射转换实现的一致性之间存在很大差异(图1A中的绿色)。然而,在神经像素数据集中,RL中的响应没有观察到这种差异。这种差异表明,从钙成像数据集收集的响应存在高度的群体水平异质性,这可能是由于RL的双光子视场跨越了视觉和躯体感觉皮层之间的边界,正如de Vries等人最初指出的那样[15]。因此,我们在Siegle等人[31]之后,从进一步的分析中排除了钙成像数据集中的RL,他们系统地比较了这两个数据集。因此,这种分析提供了对收集数据的实验的见解,并使我们能够确定动物之间常见的神经反应方差水平,因此应该通过候选模型“解释”。由于上述这些原因,我们在更新,更可靠的神经像素数据集上展示了我们的主要结果,因为它可以更好地分离模型 - 在支持信息中提供的钙成像数据集上具有类似的结果。
模拟鼠标视觉皮层
构建定量准确的模型。
通过此映射和评估程序,我们可以开发模型以更好地匹配鼠标视觉反应。总体结论是,小鼠视觉系统与自监督、低分辨率和相对较浅的人工神经网络模型最一致。这一结论在早期的钙成像数据集以及RSA等非回归比较(参见S2,S3和S4图)上更为普遍。 我们最好的模型达到了动物间一致性的90%的神经预测性,比之前的高分辨率,深度和任务特异性模型(VGG16)要好得多,后者达到了该上限的56.27%(图2A;参见表2最右边的非标准化数量列)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 大幅提高小鼠视觉皮层模型的神经反应预测性。
A.在PLS回归下,在所有小鼠视觉区域(N = 16个单位)的单位下,与先前使用的监督VGG224的灵长类动物模型的中位数和s.e.m.(跨单位)神经预测性差异在14 px输入(“灵长类模型基线”,用于[15,36,1731])下。 表 2 中可以找到每个模型的绝对神经预测性(始终从最能预测给定视觉区域的模型层计算得出)。我们最好的模型在最左边表示为“AlexNet (IR)”。“单流”、“双流”和“六流”是我们基于 AlexNet 的前四层开发的新颖架构,但还包含密集的跳跃连接,从鼠标连接组的前馈连接中已知 [34, 35],以及多个并行流(示意图在 S1 图中)。CPC表示对比预测编码[32,37]。 除“灵长类动物模型基线”外,所有模型都在 64 像素的输入上进行训练。我们还注意到,除了CPC(紫色)、深度预测(橙色)和CIFAR-10标记的黑条之外,所有模型都是使用ImageNet训练的。B.在对比目标上训练模型可以提高所有视觉区域的神经预测能力。对于每个视觉区域,神经预测值绘制在未经训练的AlexNet,监督(ImageNet)AlexNet和对比AlexNet(ImageNet,实例识别)的所有模型层上 - 后者的前四层构成了小鼠视觉皮层的最佳模型。阴影区域表示跨单位的平均值和 s.e.m.。
https://doi.org/10.1371/journal.pcbi.1011506.g002
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. ImageNet top-1 验证通过线性传输或通过监督训练和每个模型的神经预测性来设置准确性。
我们在这里总结了 ImageNet 上每个自监督和监督模型的前 1 名准确性,以及通过 PLS 图获得的噪声校正神经预测性(在所有视觉区域聚合)。这些值绘制在图2C和S2图中。除非另有说明,否则每个模型都在 64 × 64 像素的图像上进行训练和验证。
https://doi.org/10.1371/journal.pcbi.1011506.t002
与之前的工作[32,33](参见图2A中的紫色和绿色条)相比,我们还获得了神经预测性的改进,特别是Shi等人[33]的后者“MouseNet”,它试图将鼠标连接组[34,35]的细节映射到CNN架构上。 图 2A 中有两个绿色条,因为我们还构建了自己的 MouseNet 变体,其中除了在模型的倒数第二层读取图像类别(而不是最初提出的早期层的串联)之外,所有内容都相同。我们认为这可能有助于原始MouseNet的任务性能和神经预测性,因为当输入维度非常大时,很难训练线性层。我们最好的模型也优于“MouseNet”的神经预测性,即使它是用自监督目标训练的(图2A中最左边的红色与“MouseNet”蓝绿色条)。这是我们的结构和功能目标驱动方法的另一个概念动机,因为更高层次的约束比合并和假设单个生物学细节更容易询问,因为这可能是一个非常受约束的过程。
在随后的小节中,我们提炼了有助于模型改善与鼠标视觉区域的对应关系的三个因素:目标函数、输入分辨率和架构。
目标函数:在自我监督的对比目标而不是监督目标上训练模型,改善了与小鼠视觉区域的对应关系。
人类和非人类灵长类动物视觉系统建模的成功很大程度上是由卷积神经网络驱动的,该网络在ImageNet [19]上以监督方式训练以执行对象分类[9,13]。 这表明,通过类别标签监督训练的模型学习有用的视觉表征,这些视觉表征与灵长类动物腹侧视觉流的视觉表示非常匹配[17,20]。 因此,尽管在生物学上对啮齿动物来说不可信,但类别标签监督是建立基线模型的有用起点,事实上,以这种方式训练的模型比之前的VGG16灵长类动物模型(图2A中的黑条)有了很大的改进。我们将该模型称为“灵长类动物模型基线”,因为尽管许多不同的模型已被用于预测灵长类动物腹侧流中的神经活动,但该模型尤其适用于小鼠视觉皮层的初始目标驱动建模研究中使用的事实上的CNN[14,15,36]。 这种选择也有助于明确说明我们研究的三个因素,即视力、模型深度和功能目标与灵长类动物腹流的偏差,如何定量地大大改善这些模型。
然而,这些改进的、类别标签监督的模型不能解释小鼠视觉系统最初是如何发展的。特别是,目前尚不清楚啮齿动物在训练后是否可以在大规模物体识别任务中表现良好,例如有数百个标签的任务。例如,他们在两种选择的强制选择对象分类任务中获得约70%的收益[38]。此外,ImageNet 数据集的类别以人为中心,因此与啮齿动物无关 事实上,灵长类动物的提供包括能够用手灵活地操纵物体(与啮齿动物不同)。因此,ImageNet类别可能与作为行为学代理的非人类灵长类动物比与啮齿动物更相关。
因此,我们转向了更多的生态监督信号和自我监督目标函数,其中不需要高级类别标签。这些目标可能会导致具有改进生物学合理性的模型,并可能基于自然图像统计为模型提供更一般的目标,超越(以人为中心的)对象分类的语义细节。在更生态监督的信号中,我们考虑对具有较少标签的相对低变异和低分辨率的图像进行分类(图 10A 中的 CIFAR-2 标记黑条;[39])和深度预测(图2A中的橙色条;[40]),作为搅拌的视觉代理[41]。在这里,我们注意到,在图2A中,除了CIFAR-10(黑色),CPC(紫色)或深度预测(橙色)表示的模型外,所有模型都在ImageNet图像上进行训练。因此,即使我们从训练中删除类别标签,许多图像本身(主要来自ImageNet和CIFAR-10)也是以人为中心的,因此未来的模型可以使用对小鼠更合理的图像进行训练。
谈到自我监督,早期的自我监督目标包括稀疏自动编码(图2A中的粉色条;[42]),实例化为图像重建损失的潜在空间中的稀疏性惩罚,已被证明成功地产生了类似Gabor的函数,让人想起Hubel和Wiesel工作[43]中的实验发现。然而,这些目标并没有导致高等视觉皮层的定量准确模型[8,20]。计算机视觉的进一步发展导致了其他自监督算法,其动机是“非语义”特征与更高层次的语义特征(即类别标签)高度相关,例如预测图像的旋转角度(图2A中的蓝条;[44])。 尽管这些目标非常简单,但基于它们优化的模型并不能为下游任务带来“强大”的可视化表示。我们根据这些目标训练了模型,并表明尽管它们比先前的灵长类动物模型(VGG16)提高了神经预测性,但它们的表现并不优于类别标签监督模型(图2A;比较粉红色,蓝色和橙色与黑色)。
自我监督学习的进一步发展提供了一类新的对比目标。这些目标比上述先前的自我监督目标强大得多,因为已经表明,使用对比目标训练的模型会导致视觉表示,可以支持下游对象分类任务的强劲表现。在高层次上,这些对比目标的目标是学习一个表征空间,其中一个图像的增强嵌入(即同一图像的两个转换的嵌入)彼此之间更“相似”,而不是其他图像的嵌入。我们使用一系列对比目标函数训练模型,包括:实例识别(IR;[45]),一个简单的对比学习框架(SimCLR;[46]),动量对比(MoCov2;[47]),简单的暹罗表示学习(SimSiam;[48])、巴洛双胞胎[49]和方差-不变性-协方差正则化(VICReg;[50])。 请注意,我们广义地使用术语“对比”来包含学习对增强具有鲁棒性的嵌入的方法,即使它们没有明确地依赖于负批处理示例——因为它们必须与某些东西进行对比以避免表征崩溃。例如,SimSiam 依赖于通过停止梯度的不对称表示;巴洛双胞胎依赖于使用互相关矩阵的对角线元素进行正则化;VICReg 使用每个嵌入的方差和协方差来确保批次中的样本不同。使用这些对比目标(图2A中的红色条)训练的模型在所有视觉区域都比在监督对象分类、深度预测和功能较弱的自监督算法(图2A中的黑色、橙色、紫色、粉红色和蓝色条)上训练的模型具有更高的神经预测性。
我们通过将架构固定为 AlexNet 来磨练对比目标函数(在监督目标上,并使用 ImageNet 的固定数据集)对神经预测性的贡献,同时改变目标函数(如 S9 图左所示)。我们发现,在所有目标函数中,使用实例识别训练AlexNet会导致最高的神经预测性。我们还注意到,神经预测性的改进超出了用于每个目标函数的增强,如S7图所示。当用于对比损失的图像增强与监督损失一起使用时,神经预测性不会提高。在所有视觉区域,只需使用强大的对比算法(图2B和S9左图中的红色与黑色),神经预测性就会得到改善。不仅神经预测性有所改善,而且与小鼠视觉层次结构的分层对应关系也有所改善。使用Nonaka等人开发的大脑层次结构评分[51],我们观察到对比模型在匹配小鼠视觉层次结构方面优于监督模型(S10图)。对比亚历克斯网的前四层(红色;图2B),其中神经预测性在视觉区域最大,形成了我们小鼠视觉皮层的最佳模型。
数据流:在较低分辨率的图像上训练模型可改善与小鼠视觉区域的对应关系。
已知小鼠的视力低于灵长类动物的视力[25,26]。 因此,更准确的小鼠视觉皮层模型必须以低于灵长类动物视觉系统模型训练中使用的图像分辨率进行训练和评估。我们研究了两个强对比模型的神经预测性如何随着训练它们的图像分辨率而变化。
使用两种模型来探索图像分辨率对神经预测性的影响。对比 AlexNet 使用从 64 × 64 像素到 224 × 224 像素的图像分辨率进行训练,因为 64 × 64 像素是 AlexNet 的最小图像大小,因为它的架构。图像分辨率上限224×224像素是通常用于训练灵长类动物腹侧视觉流神经网络模型的图像分辨率[17]。我们还使用我们开发的一种新型模型架构(称为“对比流网”)研究了图像分辨率的影响,因为它的架构使我们能够探索比原始AlexNet更低的图像分辨率范围。该模型基于 AlexNet 的前四层,但还包含密集的跳过连接(从鼠标连接组的前馈连接 [34, 35] 中已知)以及多个并行流(在 S1 图中示意图)。我们使用对比目标函数(实例识别)在图像分辨率下训练它,图像分辨率从 32 × 32 像素到 224 × 224 像素不等。
使用低于灵长类动物视觉皮层模型的分辨率的训练模型可以提高所有视觉区域的神经预测性,但不会超过神经预测性降低的某个分辨率(图3)。虽然 64 × 64 像素的输入分辨率可能不是每个架构的最佳分辨率,但我们用来训练所有模型的分辨率是我们用来训练所有模型的分辨率。这是由于观察到小鼠视力的上限为0.5个周期/度[25],对应于2个像素/周期×0.5个周期/度= 1个像素/度。先前的视网膜图研究[52]估计V1中的视觉覆盖范围为60-90度,我们发现64×64像素对于模型来说大致是最佳的(图3),并且也被Shi等人[36],Bakhtiari等人[32]和Shi等人的MouseNet[33]使用。尽管下采样训练图像是小鼠视网膜的合理代理,就像在之前的建模工作中所做的那样,但可能需要对适当的图像转换进行更多研究。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 低分辨率训练可提高神经反应预测性(神经像素数据集)。
对比AlexNet和对比StreamNet(双流)使用分辨率增加的图像进行训练。对于AlexNet,最小分辨率为64×64像素。对于双流网,最小分辨率为 32 × 32 像素。所有视觉区域所有单位的中位数和 s.e.m. 神经预测性与训练模型时的图像分辨率作图。在表示学习期间降低图像分辨率(但不超过某个点)可以改善与所有视觉区域的匹配。从图像分辨率(以像素为单位)到视野覆盖(以度为单位)的转换是基于以下假设:小鼠视力的上限为每度0.5个周期[25],奈奎斯特极限为每周期2个像素,导致转换比率为每度1个像素。
https://doi.org/10.1371/journal.pcbi.1011506.g003
总体而言,这些数据表明,使用图像统计(即数据流)中的简单变化进行优化对于获得改进的鼠标视觉编码模型至关重要。这表明小鼠视觉编码是“任务优化”的结果,其分辨率低于通常用于灵长类动物腹流模型的分辨率。
架构:浅层模型足以改善与小鼠视觉皮层的对应关系。
在解剖学上,小鼠视觉系统相对于灵长类视觉系统的层次结构较浅(参见[21-24])。此外,每个视觉区域的神经反应的可靠性为相对较浅的功能层次结构提供了额外的支持(图1B)。因此,与灵长类视觉皮层相比,更具生物学意义的小鼠视觉皮层模型应该具有更少的线性非线性层。通过将模型的神经预测性与其线性非线性运算的数量绘制成图表,我们确实发现,尽管损失函数和输入分辨率发生了变化,但非常深的模型并不优于浅层模型(即线性非线性运算少于 12 次的模型)(图 4)。此外,如果我们将目标函数固定为“实例识别”,我们可以清楚地观察到,与 ResNets 和 VGG16 相比,由八个线性非线性层组成的 AlexNet 具有最高的神经预测性(S9 图右)。此外,只有四个卷积层的模型(流网;单流、双流或六流)的性能与具有更多卷积层的模型一样好或更好(例如,将双流与 S101 图右中的 ResNet152、ResNet16、VGG9 或 MouseNets 进行比较)。这一观察结果与先前在灵长类动物视觉系统中的观察结果形成鲜明对比,在灵长类视觉系统中,线性-非线性操作少于18次的网络预测猕猴视觉反应不如具有至少50次线性-非线性操作的模型[17]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 神经预测性与模型深度。
模型在每个视觉区域的所有单位上的中位数神经预测性与其深度(线性-非线性层数;对数尺度)绘制。具有较少线性非线性层的模型可以实现优于或与具有更多线性非线性层的模型相当的神经预测性能。“灵长类动物模型基线”表示在16 px输入上训练的受监督VGG224,用于先前的工作[14,15,36]。
https://doi.org/10.1371/journal.pcbi.1011506.g004
小鼠视觉皮层作为通用视觉系统
我们的结果表明,在自监督对比物镜上优化的模型是小鼠视觉系统定量最准确的模型。然而,与监督对象分类或其他更经典的自我监督学习形式(如稀疏自动编码)不同,其生态功能直接编码在损失函数中(例如,捕食者识别或代谢高效降维),通过对比目标进行自我监督的功能效用并不那么明显。这自然提出了一个问题,即从生态适应性的角度来看,优化对比自我监督目标的行为功能可能会为小鼠带来什么。
通过分析上一节中描述的模型谱,我们首先观察到ImageNet分类的性能与小鼠视觉皮层神经预测性的提高无关(图5;参见表2的中间列,了解确切的ImageNet性能值),这与灵长类动物中众所周知的相关性不同(图5;插图)。在寻求对比性自我监督目标的生物学功能的解释时,我们因此被提示考虑超越以对象为中心的分类任务的行为。我们假设,由于自我监督损失函数通常在任务无关的刺激领域最有效,其中目标特定标签不可用,因此针对这样的目标进行优化可能会使啮齿动物能够很好地转移到新领域中复杂的多方面生态任务中,从而为超专业化提供很少的目标机会。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 神经预测性与 ImageNet 上的对象分类性能无关。
每个模型在 ImageNet 上的(转移或监督)对象分类性能都与所有视觉区域的所有单元的中位数神经预测率作图。所有 ImageNet 性能值都可以在表 2 中找到。插图。来自BrainScore的灵长类动物腹侧视觉流神经预测性与ImageNet分类准确性相关(改编自Schrimpf等人[17])。这种关系与我们在小鼠视觉皮层中的发现形成鲜明对比,在小鼠视觉皮层中,更高的ImageNet分类准确性与更高的神经预测性无关。配色方案如图2A所示。参见 S2 图。钙成像数据集的神经预测性。
https://doi.org/10.1371/journal.pcbi.1011506.g005
为了验证这一假设,我们使用了最近开发的“虚拟啮齿动物”框架(改编自Merel等人[53],Lindsay等人[54]也使用了该框架),其中将生物力学验证的小鼠模型放置在模拟的3D迷宫状环境中(图6A)。虚拟啮齿动物实验的主要目的不一定是对啮齿动物运动曲目做出具体陈述,而主要是关于我们的自我监督视觉编码器如何通过高维连续输入控制高维身体 - 这是许多(如果不是全部)动物必须解决的问题。当然,鉴于我们试图更好地理解为什么自我监督方法可以更好地预测特定的小鼠视觉皮层神经元,我们希望为该物种提供合理的生态任务(例如导航),并且它的提供性有点类似于实际的啮齿动物通过其身体的生物力学现实主义。特别是,如果我们使用浅层、低敏锐度、自我监督的视觉编码器来控制虚拟猴子模拟猴子适应的任务(例如,物体操作),我们不会期望这也能工作,因为这样的任务可能至少需要高视力和良好的物体识别能力。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 评估学习视觉表示的通用性。
答:每一行都显示了用于以离线方式训练强化学习(RL)策略的情节示例[56]。用于训练虚拟啮齿动物的情节(改编自Merel等人[53])是先前生成的,并且是用于基准测试算法的更大RL任务套件的一部分[57]。在这个任务(“DM 运动啮齿动物”)中,代理的目标是在迷宫中导航以收集尽可能多的奖励(第一行显示蓝色球体)。B. RL 代理的示意图。以自我为中心的视觉输入被输入到模型的视觉主干中,该主干被固定为AlexNet的对比或监督变体的前四个卷积层。然后,视觉编码器的输出与虚拟啮齿动物的本体感受输入连接起来,然后输入(反复出现的)批评者和政策负责人。视觉编码器的参数没有经过训练,而批评家头和政策头的参数是训练的。来自Merel等人的图1B的虚拟啮齿动物示意图[53]。C. 分布外泛化过程示意图。视觉编码器在ImageNet [19]或Maze环境[57]上以监督或自监督的方式进行训练,然后在基于奖励的导航或由Hong等人[55]的对象属性(类别,姿势,位置和大小)和不同纹理[58]组成的数据集上进行评估。
https://doi.org/10.1371/journal.pcbi.1011506.g006
我们使用最符合鼠标视觉反应的模型作为模拟鼠标的视觉系统,并结合简单的演员-评论家强化-学习架构(图6B)。然后,我们在具有不同目标功能的几个视觉环境中训练模拟鼠标,并评估这些模型在新环境中转移到各种任务的能力,包括基于奖励的导航任务,以及几个以对象为中心的视觉分类和估计任务(图6C)。
我们首先评估了一只模拟鼠标,其视觉系统在迷宫环境中转移到基于奖励的导航的能力方面是用 ImageNet 图像预训练的,在导航任务上只训练网络的强化学习部分,而预训练的视觉系统保持不变。作为监督对照,我们使用使用监督(ImageNet)对象分类预训练创建的视觉前端执行相同的转移训练过程。我们发现,具有对比性自我监督视觉表示的模拟鼠标能够可靠地获得比具有类别监督视觉表示的对应鼠标更高的导航奖励(图7A;参见表3获得的奖励的确切数量)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 自我监督、对比鲜明的视觉表示可以更好地支持下游、配送外任务的传输性能。
以对比方式训练的模型(分别使用ImageNet或以自我为中心的迷宫输入;红色和蓝色)比以监督方式训练的模型(即,在标签或奖励上监督的模型;分别为黑色和紫色)可以更好地转移分发外的下游任务。A. 在 ImageNet 上训练的模型,在基于奖励的导航上进行测试。B.在以自我为中心的迷宫输入(“对比迷宫”,蓝色)上训练或监督奖励(即基于奖励的导航;“监督迷宫”,紫色),测试视觉场景理解任务:姿势、位置和大小估计,以及对象和纹理分类。C.神经像素数据集中跨单位的中位数和s.e.m.神经预测性。
https://doi.org/10.1371/journal.pcbi.1011506.g007
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. RL 代理使用每个视觉骨干获得的 600 集的平均奖励和 s.e.m.
https://doi.org/10.1371/journal.pcbi.1011506.t003
相反,我们直接在迷宫环境中训练模拟鼠标。在一个变体中,我们在对比性自我监督目标(但在迷宫环境的图像上)训练视觉系统。在第二种变体中,我们对代理进行端到端的奖励导航任务本身的训练——相当于迷宫环境中的“监督”。然后,我们测试了两种模型转移到样本外视觉分类和估计任务的能力。同样,我们发现自我监督变体的转移明显优于其“监督”变体(图7B中的蓝色与紫色条)。
回到神经预测性的分析,我们发现两个自我监督模型(在任一环境中训练)都比各自环境中的监督对应物更好地匹配小鼠视觉皮层神经元(图7C中的红色和蓝色与黑色和紫色)。该结果说明了一般分布外任务转移性能与计算模型的神经保真度改进之间的一致性。
此外,Lindsay等人[54]发现,功能较弱的自我监督表示学习器(如CPC和自动编码)与小鼠视觉反应与RL训练的对应物(在表征相似性方面)不匹配。这与我们的发现一致,即图3A中的CPC和自动编码本身与神经反应以及对比自监督方法(红色与粉红色和紫色条)不匹配。
还值得注意的是,通过训练环境而不是目标函数比较模型,ImageNet训练的模型比Maze训练的模型产生更多的神经一致性模型,无论是监督目标还是自监督目标(图7C中的红色与蓝色和黑色与紫色)。使用对比自监督目标函数本身就足以将迷宫训练的模型提高到 ImageNet 训练的监督模型的预测性水平,但训练环境做出了重大贡献。这表明,虽然迷宫环境的任务域和生物力学模型是现实的,但未来的工作可能需要提高模拟图像分布的真实性。
总体而言,这些结果表明,对比嵌入方法已经实现了它们创建的视觉表征质量的普遍提高,从而实现了多种视觉行为,为它们作为小鼠视觉皮层计算模型的潜力提供了证据。虽然我们希望奖励的计算在视觉系统之外执行,但我们希望鼠标视觉系统将支持我们考虑的传输任务的视觉方面,因为我们发现更高的模型区域最能支持这些场景理解传输任务(S8 Fig)。这与灵长类动物没有什么不同,灵长类动物的下游视觉区域支持各种视觉识别任务[55]。
讨论
在这项工作中,我们表明,使用在较低分辨率图像上运行的对比目标训练的相对较浅的结构最准确地预测了多个小鼠视觉区域的静态图像诱发神经反应,超过了监督方法的预测能力并接近动物间的一致性。事实上,这些目标驱动的约束导致与视觉反应的更好匹配,即使在小鼠被动观看刺激的“行为无”数据中,表明这些约束可能是对小鼠视觉皮层结构和功能的进化和发育驱动因素的良好描述。
在灵长类动物腹侧视觉流中,在对比目标上训练的模型导致神经预测性能与监督模型相当[20],这表明它们是分类专用系统的生态学更有效的代理。这与我们在小鼠视觉皮层模型中的发现形成鲜明对比 - 我们发现在对比目标上训练的模型大大超过了其监督对应物的神经预测性。我们研究了对比物镜可能比监督物镜在鼠标视觉表示方面具有的优势,发现它们提供的表征通常比通过监督方法获得的物镜有所改进。对比模型的通用性的改进使得在新的、分布之外的环境中更好地转移到各种下游行为,包括在以自我为中心的迷宫环境中基于奖励的导航和视觉场景理解。
如前所述,目标驱动的建模方法使我们能够理解管理所研究系统的原则,并进一步允许跨系统进行直接比较。我们的小鼠视觉皮层的高保真模型及其构建原理可以与灵长类动物视觉皮层模型进行比较。虽然灵长类动物腹侧视觉流通过深层分层系统和对象类别学习进行了很好的建模,但迄今为止,小鼠作为模型视觉系统还没有如此连贯的解释。我们的结果表明,灵长类动物和啮齿动物的视觉系统都受到高度限制,尽管功能目的不同。上述结果进一步表明,与先前工作所建议的灵长类动物的深层、高分辨率和更分类主导的视觉系统相比,小鼠视觉皮层是一种轻量级、浅层、低分辨率和通用视觉系统[20]。
尽管我们在以三种核心方式(目标函数、数据流和架构类的选择)对鼠标视觉系统进行建模方面取得了进展,但在建模和神经数据方面仍然存在一些限制。
在建筑方面,我们在这项工作中的重点是前馈模型,但从较高视觉区域到较低视觉区域存在许多反馈连接[21]。将这些建筑基序纳入我们的模型中并使用动态输入训练这些模型可能有助于模拟小鼠视觉皮层的时间动力学,就像最近在灵长类动物中所做的那样[29,59,60]。
通过在架构中加入循环连接,我们可以在具有时间变化的动态输入场景中使用自监督损失函数来探测这些反馈连接的功能。例如,鉴于强大的自监督方法获得了静态图像的良好视觉表示,探索在动态输入上运行的更大范围的自监督信号将是有趣的,例如在前向预测的上下文中(例如,[61-63])。
约束输入数据,使它们更接近小鼠视觉系统接收的数据对于提高神经保真度非常重要。我们在训练期间将图像调整大小(即缩减采样)以缩小图像,作为低通滤波的代理。我们相信,未来的工作可以研究其他适当的低通滤波器和生态相关的像素级转换,以应用于原始图像或视频流[64,65]。
我们的动物间一致性分析为实验质量提供了建议,这些建议可能会提供有助于更清晰区分模型的数据。在所有映射函数下,对数线性外推分析显示,随着单元数量的增加,神经像素数据集的动物间一致性比钙成像数据集更接近5,这表明神经像素数据的可靠性更高(S6图)。此外,在评估动物间的一致性时,训练集的动物之间的相关值明显高于测试集,这表明可以扩大刺激的数量以缩小这一泛化差距(S6A图)。作为刺激数量的函数,测试集动物间的一致性稳步增加,如果数据集有更多的刺激,可能会继续大幅增加(S66B图)。因此,虽然实验方法的重点是增加数据集中神经元的数量[67],但我们的分析表明,增加刺激的数量可能会极大地改善模型识别。这样做可能会提高动物间的一致性,为分离模型提供更大的动态范围,因为它们匹配数据的能力,可能使我们能够获得更具体的结论,即哪些电路结构[68,45]和哪些(组合)目标(例如,[46,48,<>])最能描述小鼠视觉皮层。
我们致力于我们在模拟小鼠视觉皮层方面的工作将有意义地推动未来对其他感觉系统和视觉引导行为的小鼠的实验和计算研究。这些对比目标的输入域不可知性表明,它们可能被用于其他感觉系统,如桶状皮层或嗅觉系统。通过建立感觉皮层的高保真计算模型,我们相信它们可以与高阶系统(例如内侧颞叶)的模型集成,目的是让我们更深入地了解感官体验如何促进适应性或适应不良行为。
方法
神经反应数据集
我们使用艾伦脑天文台视觉编码数据集[15,22]收集,使用双光子钙成像和神经像素从小鼠视觉皮层中的V1(VISp),LM(VISl),AL(VISal),RL(VISrl),AM(VISam)和PM(VISpm)区域收集。我们专注于自然场景刺激,由118张图像组成,每张图像呈现50次(即每张图像50次试验)。
在选择单位后,我们按照以下程序在表1中列出了每个数据集的单位和标本的数量: 对于钙成像数据,我们使用与Conwell等人类似的单位选择标准[18],其中我们子选择了达到至少0.3的Spearman-Brown校正分半一致性的单位(在100次自举试验中取平均值), 并且其对其首选图像的峰值响应在刺激呈现期间不受鼠标运行速度的显着调制(P > 0.05)。
对于神经像素数据集,我们分别平均了每个标本和每个视觉区域在最大连续时间间隔上的时间响应(在 10 毫秒箱的水平上,最高可达 250 毫秒),当中位数(在该标本的单位总体中)分裂半一致性达到至少 0.3。此过程有助于在其时间平均响应中选择最内部一致的单位,并解释不同标本具有不同的时间过程,其种群响应变得可靠。
最后,在根据上述标准对两个数据集进行细分选择单位后,我们仅保留在该给定视觉区域的所有标本中至少具有第 75 个百分位数的标本。最后一步有助于确保每个标本有足够的内部一致性单位用于动物间一致性估计(在“动物间一致性推导”部分得出)。
噪声校正神经预测性
线性回归。
当我们执行神经拟合时,我们随机选择一组 50% 的自然场景图像(总共 59 张图像)来训练回归,其余 50% 用作测试集(总共 59 张图像),总共 1 个训练测试拆分。对于岭回归,我们按照sklearn.linear_model约定使用 α = 25。PLS回归是用8个分量进行的,就像以前的工作一样(例如,[17,1])。当我们使用一对一映射执行回归时,如图 50B 所示,我们确定每个目标单元的源总体中的最相关(通过训练图像上的皮尔逊相关性)单元。一旦确定了源单元,我们就会针对特定的训练测试拆分对其进行修复,并在剩余的 <>% 的图像上进行评估。
受“动物间一致性推导”部分中给出的动物间一致性噪声校正理由的激励,模型对神经反应回归的噪声校正是“多动物”部分中定义的数量的特殊情况,现在源动物被模型特征替换,分别拟合到每个目标动物(来自可用动物的集合)。设 L 为模型层的集合,设 r?是模型层 l ∈ L 的模型响应集,M 是映射,设 s 是试验平均伪种群响应,其中平均值取自举的半次自举半试验,⊕表示动物之间单位的串联,后跟单位之间的中值,并表示两个量的皮尔逊相关性。 表示原始数量的斯皮尔曼-布朗校正值(请参阅“斯皮尔曼-布朗校正”部分)。
在获得线性回归刺激的模型特征之前,我们使用模型训练期间验证集上使用的图像变换对每个刺激进行预处理,将两种情况下刺激的最短边缘调整为 64 像素,保留输入刺激的纵横比。具体来说,对于使用 ImageNet 数据集训练的模型,我们首先将刺激的最短边缘调整为 256 像素,将图像中心裁剪为 224 × 224 像素,最后将刺激调整为 64 × 64 像素。对于使用 CIFAR-10 数据集训练的模型,此大小调整会产生 64 × 81 像素的刺激。
代表性相似性分析 (RSA)。
与之前的工作[18,36]一致,我们还使用了表征相似性分析(RSA; [30])将模型与神经反应进行比较,以及将动物相互比较。具体来说,我们(通过皮尔逊相关)仅比较了代表性相异矩阵(RDM)的右上方三角形,不包括对角线以避免虚幻效应[69]。
对于每个视觉区域和给定模型,我们将该区域的模型预测性定义为应用适当的噪声校正后跨模型层的最大RSA分数,定义如下。让 r?是模型层 L 的模型响应,设 S 是试验平均伪群体响应(即跨样本聚合的响应)。这里使用的度量是方程(10)的特定实例,其中单一来源动物是试验方面的确定性模型特征(结果映射一致性为1)和单个目标动物,即伪种群响应:
(1)
其中 L 是模型层的集合,是动物对试验两半的反应(并在试验维度上取平均值),平均值是在 100 次自举分半试验中计算的,表示应用于内部一致性量的斯皮尔曼-布朗校正,在“斯皮尔曼-布朗校正”部分中定义。
如果对每只动物单独进行拟合,则对应于给定视觉区域(由集合定义)的每只动物,我们计算动物的中位数:
(2)
与上述类似,斯皮尔曼-布朗校正应用于内部稠度量。
动物间一致性推导
单对动物。
假设我们有来自两只动物和.让我们成为刺激集上动物的真实反应(在给定的时间箱或一组时间箱的平均值)的向量。当然,我们只收到 的噪声观测结果,所以让我们做第 n 个试验的第 j组。最后,让 M(x;y)我在输入 x 上训练以匹配输出 y 并在刺激集 i 上进行测试时,是映射 M(例如 PLS)的预测。例如,在测试集上映射M的预测是训练刺激以匹配给定的动物的真实神经反应,作为输入,在训练集刺激上输入动物的真实神经反应。类似地,在测试集刺激上映射M的预测训练以匹配动物的训练集刺激上的噪声样本1的试验平均值,作为输入,噪声样本1对动物的训练集刺激的试验平均值作为输入。
有了这些定义,动物与动物之间的动物间映射一致性对应于以下要估计的真实量:
(3)
其中是刺激集上的皮尔逊相关性。在下文中,我们将论证方程(3)可以用以下可测量量的比率近似,我们将两者分成两半,平均噪声试验观察结果,索引为1和2:
(4)
换句话说,动物间的一致性(即方程(4)左侧的数量)对应于在噪声试验的两个不同(平均)半部分(即方程(4)右侧的分子)上动物到动物的测试集刺激映射的预测性,由两个不同半噪声试验的动物对测试集刺激的反应的映射可靠性的平方根校正通过动物的内部稠度。
我们从方程(4)中的原始量开始,通过逐渐用其可测量的估计值(s)替换真实量(t)来证明方程(3)中的近似值。首先,我们做出以下近似值:
(5)
通过正相关的传递性(当刺激数量很大时,这是一个合理的假设)。接下来,通过噪声估计结构中的传递性和正态性假设,并且由于两组之间的试验数 (n) 相同,我们得到:
(6)
换句话说,方程(6)指出,n个试验的两组噪声观测值的平均值之间的相关性近似于一组n个噪声试验的真实值与平均值之间的相关性的平方。因此,结合方程(5)和(6),可以得出:
(7)
从方程(7)的右侧,我们可以看到我们已经删除了,但我们仍然需要删除该项,因为该项仍然包含不可测量的(即真实)量。我们通过类比应用上述相同的两个步骤,尽管这些近似可能并不总是正确的(但是,对于高斯噪声,它们是正确的):它们加在一起意味着以下内容:
(8)
方程(7)和(8)共同表示方程(4)中给出的最终估计数量。
多种动物。
对于多只动物,我们考虑方程(3)中每个目标的真实数量的平均值,在有序的动物对(,)中跨源动物,并且: 我们还跨试验引导,并有多个训练/测试拆分,在这种情况下,等式右侧的平均值也包括这些的平均值。
请注意,我们分析中的每个神经元在作为目标动物时都会有这个平均值与之相关联(),在源动物/子采样源神经元、自举试验和训练/测试分裂上取平均值。这产生了这些平均值的向量,我们可以将其取平均值(s.e.m.)的中位数和标准误差,就像我们对标准解释方差指标所做的那样。
RSA。
我们可以将上述推导扩展到其他常用的指标,以比较涉及相关性的表示。既然 ,那么方程 (4) 中的相应量类似地(通过正相关的传递性)变为:
(9)
请注意,在这种情况下,我们分析中的每只动物(而不是神经元)在成为目标动物时都会有这个单一的平均值(因为RSA是通过图像和神经元计算的),其中平均值超过源动物/子采样源神经元,引导试验和训练/测试分裂。这产生了这些平均值的向量,我们可以跨动物获取中位数和 s.e.m.
对于RSA,我们可以使用身份映射(由于RSA也是在神经元上计算的,因此源动物和目标动物之间的神经元数量可以不同,以将它们与身份映射进行比较)。由于参数不合适,我们可以选择 ,使方程 (9) 变为:
(10)
汇集源动物。
很多时候,我们可能没有足够的每只动物的神经元来确保我们数据中估计的动物间一致性与“真正的”动物间一致性非常匹配。为了解决这个问题,我们一次只保留一只动物,并将其与其余动物跨单位聚合的伪种群进行比较,而不是以成对的方式计算一致性。因此,仍然是目标持有的动物,就像成对的情况一样,但现在的平均值超过了由剩余动物的伪种群构建的唯一“汇集”源动物。
斯皮尔曼棕色校正。
Spearman-Brown 校正可以单独应用于分母中的每个项,因为它们是来自同一基础过程的一半试验的观测值与自身的每个相关性(与分子不同)。即,类比地,既然,那么我们定义
流网架构变体
我们为小鼠视觉皮层开发了较浅的多流结构,如图2A所示。我们的架构中有三个主要模块:浅层、中层和深层。浅模块和深层模块分别由一个卷积层组成,中间模块由两个卷积层的块组成。因此,计算图的最长长度(不包括读出模块)为四(即 1 + 2 + 1)。根据模型中并行流的数量,中间模块将包含多个分支(并行),每个分支从浅层模块接收输入。然后,中间模块的输出通过一个卷积操作(深度模块)。最后,每个并行分支的输出将被相加,跨通道维度连接,并用作读出模块的输入。
读出模块由一个(自适应)平均池化操作组成,该操作将输入上采样为 6 × 6 个特征图。然后将这些特征图展平,以便每个图像只有一个特征向量。然后将这些特征向量馈送到线性层(即全连接层)中进行分类或将它们嵌入到较低维空间以进行对比损失。
下表描述了三个模型变体的参数,每个变体包含一个 (N = 1)、两个 (N = 2) 或六个 (N = 6) 个平行分支。请注意,一个卷积层由元组表示:(过滤器数量、过滤器大小、步幅、填充)。第一个卷积层的最大步幅池为 2,如 AlexNet。卷积层块由元组列表表示,其中列表中的每个元组对应于单个卷积层。当元组列表后跟“×N”时,这意味着 N 个并行分支中每个分支的卷积参数相同。
神经网络训练目标
在本节中,我们简要描述了用于训练模型的监督和自监督目标。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
监督培训目标。
监督训练中使用的损失函数是交叉熵损失,定义如下:
(11)
其中 N 是批量大小,C 是数据集的类别数,是 N 张图像的模型输出(即 logits),是第 i张图像的对数,c我∈ [0, C ? 1] 是第 i个图像的类别索引(零索引),θ 是模型参数。使用具有动量的随机梯度下降(SGD)最小化方程(11)[70]。
图像网 [19]。此数据集在训练集中包含大约 1 万张图像,在验证集中包含 3,50 张图像。每个图像之前都被标记为C = 000个不同的类别。
CIFAR-10 [39]。此数据集包含训练集中的 50 000 张图像和验证集中的 10 000 张图像。每个图像之前被标记为C = 10个不同的类别。
深度预测[40]。该目标的目标是预测图像的深度图。我们使用了合成生成的图像数据集,称为PBRNet [40]。它包含大约500 000张图像及其相关的深度图。与稀疏自动编码器目标中使用的损失函数类似,我们使用均方损失来训练模型。输出(即深度图)是使用我们每个 StreamNet 变体的镜像版本生成的。为了生成深度图,我们将最后一个卷积层附加到镜像架构的输出上,以便将三个图像通道下采样为一个图像通道。在训练期间,将大小为 224 × 224 像素的随机裁剪应用于图像和深度图(随后将其大小调整为 64 × 64 像素)。此外,图像和深度图均水平翻转,概率为0.5。最后,在应用损失函数之前,对每个深度图进行归一化,使得像素之间的平均值和标准偏差分别为零和 <>。
我们的每个单流、双流和六流变体都使用 256 的批次大小进行 50 个 epoch 的训练,使用 SGD 进行训练,动量为 0.9,权重衰减为 0.0001。初始学习率设置为 10?4并在纪元 10、15 和 30 衰变了 45 倍。
自我监督的培训目标。
稀疏自动编码器 [42]。此目标的目标是从稀疏图像嵌入重建图像。为了生成图像重建,我们使用了每个StreamNet变体的镜像版本。具体来说,损失函数定义如下:
(12)
其中是图像嵌入,f 是(镜像)模型,f(x) 是图像重建,x 是 64 × 64 像素的图像,λ 是正则化系数,θ 是模型参数。
我们的单流、双流和六流变体使用 256 的批量大小训练了 100 个 epoch,使用 SGD 进行训练,动量为 0.9,权重衰减为 0.0005。单流和双流变体的初始学习率设置为 0.01,六流变体的初始学习率设置为 0.001。学习率在时期 10、30 和 60 时衰减了 90 倍。对于所有 StreamNet 变体,嵌入维度设置为 128,正则化系数设置为 0.0005。
RotNet [44]。此目标的目标是预测图像的旋转。ImageNet 数据集的每个图像都以四种方式(0°、90°、180°、270°)旋转,四个旋转角度用作“伪标签”或“类别”。交叉熵损失与这些伪标签一起使用作为训练目标(即 C = 11 的方程 (4) )。
我们的单流、双流和六流变体使用 192 的批量大小(由于每个图像的四次旋转,实际上是 192 × 4 = 768 的批次大小)训练了 50 个时期,使用 SGD 进行训练,Nesterov 动量为 0.9,权重衰减为 0.0005。初始学习率为 0.01,在时期 10、15 和 30 时衰减了 45 倍。
实例识别 [45]。此目标的目标是能够区分一个图像的增强嵌入与其他图像增强的嵌入。因此,这个目标函数是对比目标函数类的一个实例。
首先对 ImageNet 数据集的每个图像执行随机图像增强(随机调整大小的裁剪、随机灰度、颜色抖动和随机水平翻转)。设 x 是图像增强,f(?) 是由大小为 128 的单层线性多层感知器 (MLP) 组成的模型主干。然后将图像嵌入到128维单位球体上,如下所示:在整个模型训练过程中,维护一个包含训练集中每个图像嵌入的内存库(即,存储库的大小与训练集的大小相同)。嵌入 z 将与这些嵌入的子样本“比较”。具体来说,一个图像 x 的损失函数定义如下:
(13)
其中,当前存储在内存库中的图像 x 的嵌入,N 是内存库的大小,m = 4096 是使用的“负”样本的数量,是从内存库中均匀采样的负嵌入,Z 是某个归一化常数,τ = 0.07 是温度超参数,θ 是 f 的参数。从方程(13)中,我们看到我们想要最大化h(v),这对应于最大化v和z之间的相似性(回想一下,z是使用f获得的x的嵌入)。我们还可以看到,我们希望最大化 1 ? h(vj)(或最小化 h(vj)).这将对应于最小化v之间的相似性j和 z(回想一下 vj是负嵌入)。
每次训练迭代后,当前批次的嵌入都用于通过动量更新来更新内存库(在内存库中的相应位置)。具体来说,对于图像 x,它在内存库 v 中的嵌入使用其当前嵌入 z 进行更新,如下所示:其中 λ = 0.5 是动量系数。对 v 的第二个操作用于将 v 投影回 128 维单位球面。
我们的单流、双流和六流变体使用 256 的批量大小进行训练,使用 SGD 进行 200 个epoch,动量为 0.9,权重衰减为 0.0005。初始学习率为 0.03,在时期 10 和 120 衰减了 160 倍。
MoCov2 [47, 71]。该目标的目标是能够区分一个图像的增强(即,通过将它们标记为“正”)和其他图像的增强(即,通过将它们标记为“负”)。直观地说,同一图像的不同增强的嵌入应该彼此之间更“相似”,而不是其他图像的增强嵌入。因此,该算法是对比目标函数类的另一个实例,在概念上类似于实例识别。
首先通过应用随机调整大小的裁剪、颜色抖动、随机灰度、随机高斯模糊和随机水平翻转,为 ImageNet 数据集中的每个图像生成两个图像增强。设 x1和 x2是一幅图像的两个增强。让 fq(?)为查询编码器,是由维度分别为2048和128的两层非线性MLP组成的模型骨干,设fk(?) 是键编码器,其体系结构与 f 相同q.x1由 f 编码q和 x2由 f 编码k如下:在每次训练迭代期间,维护从先前迭代中获得的图像嵌入大小为 K 的字典(即字典的维度为 K × 128)。此字典中的图像嵌入用作“负”样本。批次的一个图像的损失函数定义如下:
(14)
其中 θq是 f 的参数q,τ = 0.2 是温度超参数,K = 65 536 是“负”样本的数量,并且是负样本的嵌入(即,使用 f 编码的其他图像的增强k,并存储在字典中)。从方程 (14) 中,我们看到我们想要最大化 v ? k0,这对应于最大化图像的两个增强的嵌入之间的相似性。
每次训练迭代后,负样本字典将与最近一次迭代的嵌入一起排队,而在字典中存在时间最长的嵌入将取消排队。最后,参数 θk的 fk通过动量更新进行更新,如下所示: 其中 λ = 0.999 是动量系数。请注意,只有 θ
q使用反向传播进行更新。
我们的单流、双流和六流变体使用 512 的批量大小进行 200 个周期的训练,使用 SGD 进行训练,动量为 0.9,权重衰减为 0.0005。初始学习率为 0.06,使用余弦时间表将学习率衰减到 0.0(无预热)。
SimCLR [46]。此目标的目标在概念上类似于 MoCov2,其中一个图像的增强嵌入应该与其他图像增强的嵌入区分开来。因此,SimCLR 是对比目标函数类的另一个实例。
与其他对比目标函数类似,首先为 ImageNet 数据集中的每个图像生成两个图像增强(通过使用随机裁剪、随机水平翻转、随机颜色抖动、随机灰度缩放和随机高斯模糊)。设 f(?) 为模型主干,由维度分别为 2048 和 128 的两层非线性 MLP 组成。首先将两个图像增强嵌入到 128 维空间中并进行归一化: 图像的一对增强的损失函数定义如下:
(15)
其中 τ = 0.1 是温度超参数,N 是批大小,如果 i ≠ 1,则等于 1,否则等于 0,θ 是 f 的参数。方程(15)中定义的损失是针对批处理中的每对图像(包括它们的增强)计算的,然后取平均值。
我们的单流、双流和六流变体使用分层自适应速率缩放 (LARS;[4096]),动量为200.72,重量衰减为0?6.初始学习率为4.8,并使用余弦时间表衰减到0.0。学习速率采用10个epoch的线性预热,预热比为0.0001。
西姆暹罗 [48]。此目标的目标是最大化同一图像的两个增强的嵌入之间的相似性。因此,SimSiam是对比客观函数类的另一个例子。
首先为 ImageNet 数据集中的每个图像生成两个随机图像增强(即随机调整大小裁剪、随机水平翻转、颜色抖动、随机灰度和随机高斯模糊)。设 x1和 x2是同一图像的两个增强,f(?)是模型主干,g(?)是三层非线性MLP,h(?)是两层非线性MLP。三层 MLP 的隐藏尺寸为 2048、2048 和 2048。两层MLP的隐藏尺寸分别为512和2048。设 θ 为 f、g 和 h 的参数。批次的一个图像 x 的损失函数定义如下(回想一下 x1和 x2是一个图像的两个增强):
(16)
哪里。请注意,z1和 z2在此损失函数中被视为常数(即梯度不通过 z 反向传播1和 z2).这种“停止梯度”方法是该目标函数成功的关键。
我们的单流、双流和六流变体使用 512 的批量大小进行 100 个周期的训练,使用 SGD 进行训练,动量为 0.9,权重衰减为 0.0001。初始学习率为 0.1,使用余弦时间表将学习率衰减到 0.0(无预热)。
巴洛双胞胎[49]。这种方法的灵感来自霍勒斯·巴洛(Horace Barlow)的理论,即感觉系统减少了其输入中的冗余[73]。设 x1和 x2是同一图像的两个增强(随机裁剪和颜色失真),f(?)是模型主干,设h(?)是三层非线性MLP(每个输出维度为8192)。给定 ,其中 z1 = h ° f(x1) 和 z2 = h ° f(x2),该方法提出了一个目标函数,该函数试图使从孪生嵌入计算的互相关矩阵 z1和 z2尽可能接近单位矩阵:
(17)
其中 B 索引批处理示例,i,j 索引嵌入输出维度。
我们使用推荐的超参数 λ = 64.64,权重衰减为 0 训练 AlexNet(具有 0051 × 10 个图像输入)?6,批次大小为 2048,LARS [72] 优化器在余弦时间表下采用 10 个 epoch 的学习率预热。我们发现,对于这个特定的模型架构,训练在 58 个 epoch 后稳定完成。
维克雷格[50]。设 x1和 x2是同一图像的两个增强(随机裁剪和颜色失真),f(?)是模型主干,设h(?)是三层非线性MLP(每个输出维度为8192)。给定 ,其中 z1 = h ° f(x1) 和 z2 = h ° f(x2),此方法提出了一个包含三个项的目标函数:
不变性:最小化嵌入向量之间的均方距离。
方差:通过铰链损失强制批处理中样本的嵌入向量不同,以保持每个嵌入变量的标准偏差高于给定阈值(设置为 1)。
协方差:通过将每对嵌入变量之间的协方差吸引到零,防止通过高度相关的变量发生信息崩溃。
我们训练了AlexNet(64×64个图像输入),推荐的权重衰减超参数为10?6使用 LARS [2048] 优化器在余弦时间表下采用 72 个 epoch 的学习速率预热,总共 10 个训练周期,批量大小为 1000。
前 1 名验证集性能
灵长类动物模型在 224 × 224 像素和 64 × 64 像素 ImageNet 上的表现。
在这里,我们报告了在 1 × 64 像素和 64 × 224 像素 ImageNet 上以监督方式训练的模型的前 224 验证集精度。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
StreamNet 变体在 64 × 64 像素 CIFAR-10 和 64 × 64 像素 ImageNet 上的性能。
在这里,我们报告了在 1 × 64 像素 CIFAR-64 和 ImageNet 上以监督方式训练的模型变体的前 10 验证集准确性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
StreamNet 变体在 64 × 64 像素 ImageNet 上的传输性能,线性评估下,用于使用自监督目标训练的模型。
在本小节中,我们报告了使用自监督目标训练的模型的线性评估下的前 1 名 ImageNet 验证集性能。在自监督目标上训练每个模型后,然后将模型骨干权重固定,并在固定模型骨架上训练线性读出头。在目标函数“未经训练”的情况下,模型参数被随机初始化并保持固定,同时训练线性读出头。迁移学习中使用的图像增强是随机裁剪和随机水平翻转。每个自监督模型的线性读数都使用交叉熵损失函数(即方程(11)C = 1000)训练100个epoch,使用动量为0.9的SGD最小化,权重衰减为10?9.初始学习率设置为 0.1,并在时期 10、30 和 60 时降低 90 倍。
强化学习任务
一组状态-操作-奖励-状态元组(即t、一个t, rt, sT+1))在先前的工作[53]中生成,并用于训练(以离线方式)强化学习(RL)代理。我们使用了称为批评家正则化回归的离线RL算法[56]。除了可视编码器外,RL代理的架构与Wang等人使用的架构相同[56](参见Wang等人[3]中的图56)。使用了四种基于AlexNet架构的不同视觉编码器:
对比性ImageNet:AlexNet使用ImageNet以对比方式(实例识别)进行训练。多达前四层被植入虚拟啮齿动物作为其视觉系统,因为这些层是最匹配小鼠视觉区域的层。该视觉编码器是小鼠视觉皮层的最佳模型(图2)。它的重量在RL代理的训练期间保持固定。
Supervised ImageNet:AlexNet 以监督方式使用 ImageNet 进行训练。多达前四层被植入虚拟啮齿动物作为其视觉系统,因为这些层是最匹配小鼠视觉区域的层。它的重量在RL代理的训练期间保持固定。
对比迷宫:AlexNet使用来自基于虚拟啮齿动物奖励的导航任务的以自我为中心的迷宫输入进行训练。多达前四层被植入虚拟啮齿动物作为其视觉系统,因为这些层是最匹配小鼠视觉区域的层。然后在RL代理的训练期间固定其重量。
监督迷宫:AlexNet(ShallowNet)的前四个卷积层在基于虚拟啮齿动物奖励的导航任务上进行端到端训练。
在训练代理直到策略丢失收敛 10 000 步(一次)后,对代理进行了 300 次评估。每个模型都经过两次训练(即两个不同的随机种子),因此每个模型总共在 300 × 2 = 600 集进行评估,我们报告了所有 600 集的平均奖励。
下面,我们报告了RL代理使用每个视觉骨干来执行任务时获得的平均奖励(以及600集的s.e.m.)。
评估下游视觉任务的模型性能
为了评估下游视觉任务的传输性能,我们使用了 StreamNet 变体的浅、中和深层模块输出的激活。我们还在所有变体中包括了平均池化层(全连接读出层之前的模型层)。如果特征数量超过 1000,则使用主成分分析 (PCA) 将激活的维数降低到 1000 维。如果特征数小于或等于 1000,则不使用 PCA。然后使用这些特征的线性读数来执行五个传递视觉任务。
对于前四个以对象为中心的视觉任务(对象分类、姿势估计、位置估计和大小估计),我们使用了以前用于评估灵长类视觉系统神经网络模型的刺激集[17,20,74]。刺激集由具有各种姿势(对象围绕 x、y 和 z 轴旋转)、位置(对象的垂直和水平坐标)和大小的对象组成,每个来自八个类别。然后,我们对由3张图像组成的中高变异图像子集(“Var6”和“Var75”,由Majaj等人[3840]定义)的训练分割进行了五重交叉验证,并计算了由3张图像组成的中高变异集(“Var6”和“Var1280”)的测试分割的性能(指标定义如下)。随机选择十个不同的类别平衡训练-测试拆分,并报告每个模型的最佳模型层的性能(跨训练-测试拆分的平均值)。在拟合之前,所有图像的大小都调整为64×64像素,以考虑视力调整。最后一个非以对象为中心的任务是纹理识别,使用可描述的纹理数据集[58]。
对象分类。
我们将线性支持向量分类器拟合到通过 PCA 转换的每个模型层激活。正则化参数,
(18)
通过五倍交叉验证选择。类别包括动物、船只、汽车、椅子、面孔、水果、飞机和桌子。我们报告了十个训练测试拆分的分类准确性平均值。
位置估计。
我们预测了图像中对象中心的垂直和水平位置。我们使用岭回归,其中正则化参数是从中选择的:
(19)
其中 C 是从 (18) 中定义的列表中选择的。对于每个网络,我们报告了最佳模型图层在两个位置的平均值。
姿势估计。
此任务与位置预测任务类似,不同之处在于预测目标是 z 轴(垂直轴)和 y 轴(水平轴)旋转,两者的范围都在 ?90 度到 90 度之间。(0, 0, 0) 角度是按类别定义的,并选择 (0, 0, 0) 角度以使 (55, 19, <>) 角度在不同类别中“语义上”一致。我们请读者参阅Hong等人[<>]以获取更多详细信息。我们使用岭回归,α从(<>)中的范围中选择。
尺寸估计。
预测目标是三维对象尺度,用于在渲染过程中生成图像。这个目标在0.625到1.6之间变化,这是固定规范大小1的相对度量。当对象处于规范大小时,它们在最长轴上遮挡了大约 40% 的图像。我们使用岭回归,α从(19)中的范围中选择。
纹理分类。
我们使用可描述纹理数据集 [58] 在纹理识别上训练模型层的线性读数,该数据集由 5640 张图像组成,根据 47 个类别组织,每个类别 120 张图像。我们使用了十个类别平衡的训练测试拆分,由他们的基准提供。每个分割由 3760 张训练集图像和 1880 张测试集图像组成。然后将线性支持向量分类器拟合在范围 (18) 中选择的 C。我们报告了十个训练测试拆分的分类准确性平均值。
支持信息
流网架构示意图。
显示 1/10: pcbi.1011506.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/42537756/preview/42537756/preview.jpg
1 / 10
下载
无花果分享
S1 图 流网架构示意图。
AlexNet的前四个卷积层最对应于所有鼠标视觉区域)这些卷积层被用作我们的StreamNet架构变体的基础。并行流的数量N变化为一个(单流),两个(双流)或六个(六流)。
https://doi.org/10.1371/journal.pcbi.1011506.s001
(提夫)
S2 图 使用对比目标函数训练的浅层架构产生与神经数据(钙成像数据集)的最佳匹配。
如图2所示,但用于钙成像数据集。A.使用PLS回归的中位数和s.e.m.神经预测性,跨越除RL以外的所有小鼠视觉区域的神经元。N = 16228 个单位(不包括 RL,如“神经反应数据集”部分所述)。实际的神经预测性能可以在表2中找到。“灵长类动物模型基线”表示在16 px输入上训练的受监督VGG224,用于先前的工作[14,15,36]。 除“灵长类动物模型基线”外,所有模型都在 64 像素的输入上进行训练。B. 每个模型在 ImageNet 上的表现都与每个视觉区域的所有单元的中位数神经预测率作图。插图。来自BrainScore的灵长类动物腹侧视觉流神经预测性与ImageNet分类准确性相关(改编自Schrimpf等人[17])。所有 ImageNet 性能数据都可以在表 2 中找到。配色方案如A和图2A所示。
https://doi.org/10.1371/journal.pcbi.1011506.s002
(提夫)
S3 图 使用对比目标函数训练的浅层架构可产生与神经数据 (RSA) 的最佳匹配。
A.使用RSA分别在神经像素和钙成像数据集的N = 39和N = 90动物中,中位数和s.e.m.噪声校正神经预测性(在所有视觉区域,钙成像数据集不包括RL,如“神经反应数据集”部分所述)。“灵长类动物模型基线”表示在16 px输入上训练的受监督VGG224,用于先前的工作[14,15,36])。 除“灵长类动物模型基线”外,所有模型都在 64 像素的输入上进行训练。B.我们使用RSA在ImageNet上绘制每个模型的性能与其中位数神经预测率在视觉区域。所有 ImageNet 性能数据都可以在表 2 中找到。配色方案如A和图2A所示。
https://doi.org/10.1371/journal.pcbi.1011506.s003
(提夫)
S4 图 导致神经反应预测能力提高的结构和功能因素(钙成像数据集)。
答:如图3所示,我们的双流变体(红色)和对比AlexNet(棕色)使用较低分辨率的ImageNet图像以对比方式进行训练。每张图像从 224 × 224 像素(通常用于训练灵长类动物腹流模型的图像大小)下采样到各种图像大小。在低于 224 × 224 像素的分辨率上训练模型通常会提高神经预测性。报告每个视觉区域中神经元的中位数和s.e.m.。如“神经反应数据集”部分所述,视觉区域RL已从钙成像神经预测结果中删除。每个视觉区域的N个单位参见表1。B. 如图2B所示,AlexNet要么未经训练,要么以监督方式训练(ImageNet),要么以自我监督的方式训练(实例识别)。我们观察到,前四层卷积层为所有视觉区域的神经反应提供了最佳拟合,而后三层对任何视觉区域的预测都不是很好。如“神经反应数据集”部分所述,视觉区域RL已从钙成像神经预测结果中删除。
https://doi.org/10.1371/journal.pcbi.1011506.s004
(提夫)
S5 图 动物间一致性作为不同映射变换数据集中单元数的函数。
动物间的一致性使用对数线性函数(f(n)=对数)在每个数据集中的单元数上外推10(n) + b,其中 a 和 b 通过最小二乘拟合为参数,n 是样本数量因子)。 该分析表明,神经像素数据集的动物间一致性比钙成像数据集更快地接近1.0。以样本量因子1评估的动物间一致性表示使用数据集中所有现有单位时的一致性(即图<>A中报告的动物间一致性值)。
https://doi.org/10.1371/journal.pcbi.1011506.s005
(提夫)
S6 图 动物间的一致性可以随着更多的刺激而增加。
A.在PLS回归下评估动物间一致性,在训练集(每个视觉区域的左条)和测试集(每个视觉区域的右条)上,用于神经像素和钙成像数据集。水平线是内部一致性(半分可靠性)。B.PLS回归下对训练集(虚线)和测试集(直线)的动物间一致性,跨视觉区域聚合。每个点对应于在 10 个训练测试分割中评估的动物间一致性,其中每个分割都是对应于百分比(x 轴)的自然场景图像集的样本。请注意,钙成像不包括RL,如文本中所述(“神经反应数据集”部分)。报告了两个面板的神经元的中位数和s.e.m.。每个视觉区域的N个单位参见表1。
https://doi.org/10.1371/journal.pcbi.1011506.s006
(提夫)
S7 图 仅靠数据增强并不能提高神经预测能力。
在这里,我们比较了以三种不同方式训练的AlexNet的神经预测性。对比 ImageNet 是一个 AlexNet 使用在 ImageNet 上的实例识别进行训练的 AlexNet,其增强功能是对比算法的一部分(随机裁剪、随机颜色抖动、随机灰度、随机水平翻转)。Supervised ImageNet 是一个在 ImageNet 上以监督方式训练的 AlexNet,具有较小的一组增强(随机裁剪和随机水平翻转)。Supervised ImageNet(对比增强)是一种在ImageNet上以监督方式训练的AlexNet,使用实例识别算法中使用的增强。该控制模型允许我们确定对比 ImageNet 模型(红色)的神经预测性改进是由于对比损失函数本身还是由于模型训练期间使用的更大的图像增强集。在这两个神经反应数据集中,我们可以得出结论,仅靠数据增强无助于改善与小鼠视觉区域的对应关系。
https://doi.org/10.1371/journal.pcbi.1011506.s007
(提夫)
S8 图 跨模型层的外分配任务性能。
对于在迷宫环境中的图像上训练的模型,我们将它们的传输性能绘制在一组跨模型层的分布外任务(如图 6C 的右下面板中描述)上。我们发现中间模型区域能够更好地执行转移任务,并且在任务上达到峰值性能的模型层对应于最能预测中/高级小鼠视觉区域中神经反应的模型层(见图2B)。
https://doi.org/10.1371/journal.pcbi.1011506.s008
(提夫)
S9 图 修复架构(左)和目标函数(右)时对神经像素数据集的神经预测性。
左面板中的数据显示了当架构固定为 AlexNet 时神经预测性如何变化,但目标函数在监督(对象分类)和自我监督的对比目标之间变化。右面板中的数据显示了当目标函数固定为实例识别时神经预测性如何变化,但架构是多种多样的,包括 StreamNets、MouseNets、VGG16、ResNet 和 AlexNet。
https://doi.org/10.1371/journal.pcbi.1011506.s009
(提夫)
S10 图 大脑层次结构评分。
Nonaka等人[51]的大脑层次结构得分指标是针对一组前馈CNN计算的。 自我监督,对比模型(和较浅的模型)具有更高的大脑层次结构分数,使用从模型特征到电生理反应的映射进行计算。
https://doi.org/10.1371/journal.pcbi.1011506.s010
(提夫)
确认
我们感谢Shahab Bakhtiari,Katherine L. Hermann和Akshay Jagadeesh的有益讨论,以及Eshed Margalit和Xiaoxuan Jia对手稿初稿的有益反馈。
引用
1.胡贝尔曼AD,尼尔·关于视觉的工作原理,老鼠能告诉我们什么?神经科学趋势。2011;34(9):464–473.pmid:21840069
查看文章PubMed/NCBI谷歌学术搜索
2.Glickfeld LL,Olsen SR.小鼠视觉皮层的高阶区域。视觉科学年度回顾。2017;3:251–273.pmid:28746815
查看文章PubMed/NCBI谷歌学术搜索
3.奥基夫 J, 多斯特罗夫斯基 J.海马体作为空间图:来自自由移动的大鼠单位活动的初步证据。大脑研究。1971;.pmid:5124915
查看文章PubMed/NCBI谷歌学术搜索
4.哈夫廷 T, 费恩 M, 莫尔登 S, 莫泽 MB, 莫泽 EI.内嗅皮层空间图的微观结构。自然界。2005;436(7052):801–806.密码:15965463
查看文章PubMed/NCBI谷歌学术搜索
5.克罗普夫 E, 卡迈克尔 JE, 莫泽 MB, 莫泽 EI.内嗅皮层中的加速细胞。自然界。2015;523(7561):419–424.pmid:26176924
查看文章PubMed/NCBI谷歌学术搜索
6.索尔斯塔德 T, 博卡拉 CN, 克罗普夫 E, 莫泽 MB, 莫泽 EI.内嗅皮层中几何边界的表示。科学。2008;322(5909):1865–1868.密码:19095945
查看文章PubMed/NCBI谷歌学术搜索
7.Sargolini F, Fyhn M, Hafting T, McNaughton BL, Witter MP, Moser MB, et al.内嗅皮层中位置、方向和速度的结合表示。科学。2006;312(5774):758–762.密码:16675704
查看文章PubMed/NCBI谷歌学术搜索
8.Yamins DL, Hong H, Cadieu CF, Solomon EA, Seibert D, DiCarlo JJ. 性能优化的分层模型预测高级视觉皮层中的神经反应。美国国家科学院院刊.2014;111(23):8619–8624.密码:24812127
查看文章PubMed/NCBI谷歌学术搜索
9.Khaligh-Razavi SM,Kriegeskorte N. 深度监督,但不是无监督,模型可以解释IT皮层表示。公共科学图书馆计算生物学。2014;10(11):e1003915。密码:25375136
查看文章PubMed/NCBI谷歌学术搜索
10.Gü?lü U, van Gerven MA.深度神经网络揭示了整个腹侧流中神经表征复杂性的梯度。神经科学杂志。2015;35(27):10005–10014.邮编:26157000
查看文章PubMed/NCBI谷歌学术搜索
11.Cichy RM,Khosla A,Pantazis D,Torralba A,Oliva A.深度神经网络与人类视觉对象识别的时空皮层动力学的比较揭示了分层对应关系。科学报告。2016;6(1):1–13.密码:27282108
查看文章PubMed/NCBI谷歌学术搜索
12.Cadena SA, Denfield GH, Walker EY, Gatys LA, Tolias AS, Bethge M, et al.深度卷积模型改进了猕猴V1对自然图像响应的预测。公共科学图书馆计算生物学。2019;15(4):e1006897。密码:31013278
查看文章PubMed/NCBI谷歌学术搜索
13.通过深度图像合成进行神经群体控制。科学。2019;364 (6439).pmid:31048462
查看文章PubMed/NCBI谷歌学术搜索
14.Cadena SA, Sinz FH, Muhammad T, Froudarakis E, Cobos E, Walker EY, et al.在物体识别上训练的深度神经网络对小鼠视觉系统的特征有多好?NeurIPS神经AI研讨会。2019;.
查看文章谷歌学术搜索
15.de Vries SE, Lecoq JA, Buice MA, Groblewski PA, Ocker GK, Oliver M, et al.一项大规模的标准化生理学调查揭示了小鼠视觉皮层的功能组织。自然神经科学。2020;23(1):138–151.密码:31844315
查看文章PubMed/NCBI谷歌学术搜索
16.使用目标驱动的深度学习模型来理解感觉皮层。自然神经科学。2016;19(3):356–365.pmid:26906502
查看文章PubMed/NCBI谷歌学术搜索
17.Schrimpf M, Kubilius J, Hong H, Majaj NJ, Rajalingham R, Issa EB, et al. Brain-score:哪个用于物体识别的人工神经网络最像大脑?生物Rxiv。2018;第407007页。
查看文章谷歌学术搜索
18.Conwell C,Buice M,Barbu A,Alvarez G.模型动物学和神经任务学,以更好地表征小鼠视觉皮层。ICLR桥接人工智能和认知科学(BAICS)研讨会。2020;.
查看文章谷歌学术搜索
19.邓 J, 董 W, Socher R, 李 LJ, 李 K, Fei-Fei L. Imagenet:一个大规模的分层图像数据库。在:IEEE计算机视觉和模式识别会议论文集;2009.第248–255页。
20.庄春, 严 S, 纳耶比 A, 施里普夫 M, 弗兰克 MC, 迪卡洛 JJ, 等.腹侧视觉流的无监督神经网络模型。美国国家科学院院刊.2021;118(3).密码:33431673
查看文章PubMed/NCBI谷歌学术搜索
21.哈里斯·贾,米哈拉斯·S,广川KE,怀特塞尔JD,崔H,伯纳德A等。皮质和丘脑连接的分层组织。自然界。2019;575(7781):195–202.密码:31666704
查看文章PubMed/NCBI谷歌学术搜索
22.Siegle JH, Jia X, Durand S, Gale S, Bennett C, Graddis N, et al.对小鼠视觉系统中尖峰的调查揭示了功能层次结构。自然界。2021;第1-7页。密码:33473216
查看文章PubMed/NCBI谷歌学术搜索
23.费勒曼DJ,范埃森DC。灵长类动物大脑皮层中的分布式分层处理。大脑皮质。1991;1(1):1–47.
查看文章谷歌学术搜索
24.G?m?nu? R,Shimaoka D.小鼠视觉系统中分层视觉处理的解剖学和功能连接体。大脑结构和功能。2021;第1-19页。密码:34846596
查看文章PubMed/NCBI谷歌学术搜索
25.Prusky GT,West PW,Douglas RM.小鼠和大鼠视力的行为评估。视觉研究。2000;40(16):2201–2209.密码:10878281
查看文章PubMed/NCBI谷歌学术搜索
26.Kiorpes L.使用猕猴模型了解弱视的发展。美国国家科学院院刊.2019;116(52):26217–26223.pmid:31871163
查看文章PubMed/NCBI谷歌学术搜索
27.凯尔 AJ, 亚明斯 DL, 舒克 EN, 诺曼-海涅尔 SV, 麦克德莫特 JH.任务优化的神经网络复制人类的听觉行为,预测大脑反应,并揭示皮层处理层次结构。神经元。2018;98(3):630–644.密码:29681533
查看文章PubMed/NCBI谷歌学术搜索
28.迈克尔斯 JA, 沙菲尔霍夫 S, 阿古德洛-托罗 A, 谢伯格 H.目标驱动的模块化神经网络预测抓取过程中的顶额神经动力学。美国国家科学院院刊.2020;117(50):32124–32135.密码:33257539
查看文章PubMed/NCBI谷歌学术搜索
29.Nayebi A, Sagastuy-Brena J, Bear DM, Kar K, Kubilius J, Ganguli S, et al. 灵长类动物腹侧视觉流中的循环连接介导了核心对象识别期间任务性能和网络大小之间的权衡。神经计算。2022;34:1652–1675.密码:35798321
查看文章PubMed/NCBI谷歌学术搜索
30.Kriegeskorte N, Mur M, Bandettini PA.表征相似性分析-连接系统神经科学的分支。系统神经科学前沿。2008;2:4.pmid:19104670
查看文章PubMed/NCBI谷歌学术搜索
31.Siegle JH, Ledochowitsch P, Jia X, Millman D, Ocker GK, Caldejon S, et al.调和用双光子成像和电生理学记录的神经元群的功能差异。生物Rxiv。2020;.
查看文章谷歌学术搜索
32.巴赫蒂亚里 S, 米诺特 P, 莉莉克拉普 T, 帕克 C, 理查兹 B.视觉皮层的功能特化源于具有自我监督预测学习的训练平行路径。生物Rxiv。2021;.
查看文章谷歌学术搜索
33.施 J, 布伊斯 马, 谢伊-布朗 E, 米哈拉斯 S, 特里普 B.由小鼠神经解剖数据驱动的卷积网络架构。生物Rxiv。2020;.
查看文章谷歌学术搜索
34.Harris KD,Mihalas S,Shea-Brown E.使用非负样条回归的不完整跟踪数据的高分辨率神经连接。在:神经信息处理系统的进展。第29卷;2016.
35.Knox JE, Harris KD, Graddis N, Whitesell JD, Zeng H, Harris JA, et al.鼠标连接组的高分辨率数据驱动模型。网络神经科学。2018;3(1):217–236.pmid:30793081
查看文章PubMed/NCBI谷歌学术搜索
36.Shi J, Shea-Brown E, Buice M. 与任务驱动的人工神经网络的比较揭示了小鼠视觉皮层的功能特性。神经信息处理系统的进展。2019;32:5764–5774.
查看文章谷歌学术搜索
37.Oord Avd, Li Y, Vinyals O. 使用对比预测编码进行表示学习。arXiv预印本arXiv:180703748。2018;.
38.Froudarakis E, Cohen U, Diamantaki M, Walker EY, Reimer J, Berens P, et al.跨越鼠标皮层视觉层次结构的对象流形几何。生物Rxiv。2020;.
查看文章谷歌学术搜索
39.克里热夫斯基 A, 辛顿 G, 等.从微小的图像中学习多层特征。2009;.
查看文章谷歌学术搜索
40.张毅, 宋 S, 尤默 E, 萨瓦 M, 李建英, 金华, 等.基于物理的渲染,用于使用卷积神经网络理解室内场景。在:IEEE计算机视觉和模式识别会议论文集;2017.第5287–5295页。
41.庄 C, Kubilius J, Hartmann MJ, Yamins D. 面向啮齿动物晶须-三叉神经系统的目标驱动神经网络模型。神经信息处理系统的进展。2017;2017:2556–2566.
查看文章谷歌学术搜索
42.奥尔斯豪森 BA,现场 DJ。通过学习自然图像的稀疏代码出现简单细胞感受野特性。自然界。1996;381(6583):607–609.pmid:8637596
查看文章PubMed/NCBI谷歌学术搜索
43.猫视觉皮层中的感受野、双眼相互作用和功能结构。生理学杂志。1962;160(1):106–154.pmid:14449617
查看文章PubMed/NCBI谷歌学术搜索
44.Gidaris S,Singh P,Komodakis N.通过预测图像旋转进行无监督表示学习。在:学习表征国际会议;2018.
45.吴志, 熊毅, 于思兴, 林德. 基于非参数实例判别的无监督特征学习.在:IEEE计算机视觉和模式识别会议论文集;2018.第3733–3742页。
46.陈 T, 科恩布利斯 S, 诺鲁兹 M, 辛顿 G.用于视觉表示对比学习的简单框架。在:机器学习国际会议;2020.第1597–1607页。
47.陈 X, 范 H, 吉尔希克 R, 何 K. 用动量对比学习改进基线.arXiv预印本arXiv:200304297。2020;.
48.陈旭, 何科. 探索简单的暹罗表示学习.arXiv预印本arXiv:201110566。2020;.
49.Zbontar J,Jing L,Misra I,LeCun Y,Deny S. Barlow双胞胎:通过冗余减少进行自我监督学习。在:机器学习国际会议。PMLR;2021.第12310–12320页。
50.Bardes A,Ponce J,LeCun Y. Vicreg:用于自我监督学习的方差-不变性-协方差正则化。arXiv预印本arXiv:210504906。2021;.
51.Nonaka S, Majima K, Aoki SC, Kamitani Y. 大脑层次结构评分:哪些深度神经网络在层次结构上类似于大脑?是。2021;24(9).密码:34522856
查看文章PubMed/NCBI谷歌学术搜索
52.庄杰, 吴林, 威廉姆斯 D, 瓦利 M, 李 Y, 加勒特 M, 等.小鼠皮层的扩展视网膜图。elife.2017;6:e18372。密码:28059700
查看文章PubMed/NCBI谷歌学术搜索
53.Merel J, Aldarondo D, Marshall J, Tassa Y, Wayne G, ?lveczky B. 虚拟啮齿动物的深层神经行为学。学习表征国际会议。2020;.
54.Lindsay GW,Merel J,Mrsic-Flogel T,Sahani M.行为学视觉输入的不同表示来自监督,无监督和强化学习。arXiv预印本arXiv:211202027。2021;.
55.洪 H, 亚明斯 DL, 马贾吉 NJ, 迪卡洛 JJ. 类别正交物体属性的显式信息沿腹流增加。自然神经科学。2016;19(4):613.密码:26900926
查看文章PubMed/NCBI谷歌学术搜索
56.王Z, 诺维科夫 A, 佐尔纳 K, 梅雷尔 JS, 斯普林根伯格 JT, 里德 SE, 等.批评家正则化回归。神经信息处理系统的进展。2020;33:7768–7778.
查看文章谷歌学术搜索
57.Gulcehre C, Wang Z, Novikov A, Paine T, Gómez S, Zolna K, et al. RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning.在:神经信息处理系统的进展。第33卷;2020.第7248–7259页。
58.Cimpoi M, Maji S, Kokkinos I, Mohamed S, Vedaldi A. 描述野外纹理。在:IEEE 计算机视觉和模式识别会议 (CVPR) 会议记录;2014.
59.Nayebi A, Bear DM, Kubilius J, Kar K, Ganguli S, Sussillo D, et al. 视觉系统的任务驱动卷积循环模型。神经信息处理系统的进展。2018;31:5295–5306.
查看文章谷歌学术搜索
60.Kubilius J, Schrimpf M, Kar K, Rajalingham R, Hong H, Majaj N, et al. 具有高性能浅层递归人工神经网络的类脑物体识别。神经信息处理系统的进展。2019;32:12805–12816.
查看文章谷歌学术搜索
61.Mrowca D, 庄 C, 王 E, Haber N, Fei-Fei L, Tenenbaum JB, et al.用于物理预测的灵活神经表示。在:第32届神经信息处理系统国际会议论文集;2018.第8813–8824页。
62.哈伯 N, 姆罗卡 D, 王 S, 菲菲 L, 亚明斯 DL.学习与内在动机,自我意识的代理一起玩。在:第32届神经信息处理系统国际会议论文集;2018.第8398–8409页。
63.林格尔巴赫 M, 姆罗卡 D, 哈伯 N, 菲菲 L, 亚明斯 DL.面向好奇心驱动的物理动力学学习。ICLR桥接人工智能和认知科学(BAICS)研讨会。2020;.
64.Dapello J, Marques T, Schrimpf M, Geiger F, Cox D, DiCarlo JJ. 模拟CNN前端的初级视觉皮层提高了对图像扰动的鲁棒性。神经信息处理系统的进展。2020;33:13073–13087.
查看文章谷歌学术搜索
65.Cao J, Bao C, Hao Q, Cheng Y, Chen C. LPNet: Retina Inspired Neural Network for Objects Detection and Recognition.电子学。2021;10(22):2883.
查看文章谷歌学术搜索
66.Steinmetz NA, Aydin C, Lebedeva A, Okun M, Pachitariu M, Bauza M, et al. Neuropixel 2.0:一种用于稳定、长期大脑记录的小型化高密度探针。科学。2021;372 (6539).密码:33859006
查看文章PubMed/NCBI谷歌学术搜索
67.Collins J, Sohl-Dickstein J, Sussillo D. 递归神经网络中的容量和可训练性。在:ICLR;2017.
68.Bergstra J, Komer B, Eliasmith C, Yamins D, Cox DD. Hyperopt:一个用于模型选择和超参数优化的Python库。计算科学与发现。2015;8(1).
查看文章谷歌学术搜索
69.Ritchie JB,Bracci S,Op de Beeck H.在表征相似性分析中避免虚幻效应:对角线做什么(不)。神经影像。2017;148:197–200.pmid:28069538
查看文章PubMed/NCBI谷歌学术搜索
70.Bottou L. 具有随机梯度下降的大规模机阿器学习。在:COMPSTAT'2010论文集。斯普林格;2010.第177–186页。
71.何K,范H,吴Y,谢S,吉尔希克R.无监督视觉表示学习的动量对比。在:IEEE计算机视觉和模式识别会议论文集;2020.第9729–9738页。
72.You Y, Gitman I, Ginsburg B. 卷积网络的大批量训练。arXiv预印本arXiv:170803888。2017;.
73.巴洛HB等.感官信息转换的可能原理。感官交流。1961;1(01):217–233.
查看文章谷歌学术搜索
74.Rajalingham R, Issa EB, Bashivan P, Kar K, Schmidt K, DiCarlo JJ. 人类、猴子和最先进的深度人工神经网络的核心视觉对象识别行为的大规模高分辨率比较。神经科学杂志。2018;38(33):7255–7269.密码:30006365
查看文章PubMed/NCBI谷歌学术搜索
75.Majaj NJ, Hong H, Solomon EA, DiCarlo JJ. 简单学习的下颞神经元放电率的加权和准确预测人类核心物体识别性能。神经科学杂志。2015;35(39):13402–13418.pmid:26424887
查看文章PubMed/NCBI谷歌学术搜索