无监督学习揭示了半透明感知的可解释潜在表征
廖晨曦 ,泽山正孝,肖蓓
发布时间:8 年 2023 月
抽象
人类不断评估材料的外观以计划行动,例如踩在结冰的道路上而不会打滑。材质的视觉推理很重要,但具有挑战性,因为给定的材质在各种场景中可能看起来非常不同。这个问题对于半透明材质尤其突出,其外观在很大程度上取决于照明、几何形状和视点。尽管如此,人类仍然可以区分不同的材料,如何系统地从自然图像中发现与材料推断相关的视觉特征仍未解决。在这里,我们开发了一个基于无监督风格的图像生成模型,以识别照片中半透明材料外观的感知相关维度。我们发现我们的模型,通过其逐层的潜在表示,可以合成各种逼真的材料的图像。重要的是,在没有监督的情况下,人类可理解的场景属性,包括物体的形状、材料和身体颜色,会以特定于尺度的方式自发地出现在模型的逐层潜在空间中。通过将图像嵌入到学习的潜在空间中,我们可以操作特定层的潜在代码来修改图像中对象的外观。具体来说,我们发现早期层的操纵(粗略的空间尺度)改变了物体的形状,而后期层的操纵(精细的空间尺度)改变了它的身体颜色。潜在空间的中间层选择性地编码半透明特征,并且对这些层的操作连贯地修改半透明外观,而不会改变物体的形状或身体颜色。此外,我们发现潜在空间的中间层可以成功预测人类的半透明等级,表明半透明印象是在中低空间尺度特征中建立的。这种逐层的潜在表示使我们能够系统地发现与人类半透明感知相关的图像特征。总之,我们的研究结果表明,学习自然图像的特定尺度统计结构对于人类有效地表示不同背景下的材料属性可能至关重要。
作者摘要
半透明是一种重要的视觉现象,有助于我们与环境的互动。半透明材料(即透光材料)的感知具有挑战性,因为它们在不同场景中的外观具有很高的感知变异性。我们提出了第一个图像可计算模型,该模型可以基于半透明物体自然照片的无监督学习来预测人类半透明性判断。我们训练了一个深度图像生成网络,以从未标记的数据中合成逼真的半透明外观,并学习一种逐层潜在表示,该表示在多个空间尺度上捕获图像的统计结构。通过操纵特定的潜在表示层,我们可以独立修改生成对象的某些视觉属性,例如其形状、材料和颜色,而不会影响其他属性。特别是,我们发现潜在空间的中间层,代表中低空间尺度特征,可以预测人类的感知。相比之下,来自降维方法(例如t-SNE)的基于像素的嵌入与感知无关。我们的研究结果表明,视觉信息的特定尺度表示对于人类感知材料可能至关重要。我们提供了一个系统的框架,用于从自然刺激中发现感知相关的图像特征,用于感知推理任务,因此对人类和计算机视觉都很有价值。
引文: 廖C, 泽山M, 肖B(2023)无监督学习揭示了半透明感知的可解释潜在表示。公共科学图书馆计算生物学19(2): e1010878. https://doi.org/10.1371/journal.pcbi.1010878
编辑 器: 罗兰·弗莱明, 德国吉森大学
收到: 16月 2022, 18;接受: 2023月 8, 2023;发表: <>月 <>, <>
版权所有: ? 2023 廖等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 人类和模型数据、数据分析代码、刺激、训练数据和训练网络可在 Github (https://github.com/cl3789/Translucency-stylegan) 和 Figshare https://doi.org/10.6084/m9.figshare.21905463.v1 上找到。
资金: 作者没有为这项工作获得具体资金。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
人类每天评估材料的外观,以识别物体并计划行动,例如评估水果的成熟度或踩在结冰的道路上而不打滑。视觉感知材料是预测多感官体验的第一步[1-3]。然而,尽管物质感知在将感知与行动联系起来方面具有生物学意义和重要性[4,5],但在人类认知和人工智能中对物质感知知之甚少。材料可以制成任何颜色和形状的物体,在照明、视点和其他外部因素的共同作用下,它们的外观可能会发生深刻的变化[6-10],但人类仍然可以毫不费力地识别和区分材料在不同的背景下[11-13]。人类如何在各种不同的环境中推断内在物质属性仍未解决。
材料感知的挑战对于半透明材料(如皮肤、水果、蜡和肥皂)尤其突出。我们遇到的几乎所有材料都允许光在某种程度上进入表面,这涉及光传输的物理过程,即次表面散射(参见补充S2图的插图)[14,15]。 这产生了基本的“半透明”外观,例如皮肤的活力。感知半透明性不仅在物质辨别和识别中起着至关重要的作用,例如区分生食和即食食品,而且还使我们能够欣赏珠宝、雕塑和静物画等审美对象的美感[16,17]。从本质上讲,半透明性受材料光学特性的影响,包括吸收和散射系数、相位函数和折射率[18-20]。从本质上讲,物体的形状、表面几何形状和照明方向也具有惊人的效果[7,8,21-26]。半透明的生成过程涉及各种内在和外在因素之间的复杂相互作用,导致在不同背景下出现各种各样的外观。
研究半透明有两个主要困难。首先,鉴于半透明外观在不同材料和场景因素之间差异很大,人类很难提供明确的标签来描述材料属性。例如,标签“肥皂”可以指各种半透明的外观,与此同时,人类可能缺乏对两种材料之间微妙的视觉差异的精确描述,即使他们可以在视觉上区分它们。这使得使用真实世界的刺激测量人类半透明感知并获取基于感知的标记图像数据集变得困难,这与物体和场景不同[27]。目前可用的半透明图像数据集主要使用由物理参数而不是人类感知标记的渲染图像[28]。其次,由于许多因素会影响半透明物体的外观,如何系统地发现与材料感知相关的视觉特征仍然没有答案。
对于第二个困难,许多以前的研究试图使用分析方法找到材料的诊断图像特征。例如,研究人员使用控制良好的图像来分析目标材料的物理 - 图像关系,提取基本图像特征,并测试它们是否对人类感知具有诊断意义[9,29-37]。这种方法已被用于研究各种材料质量,包括表面光泽[26,29,30,34,38-52],表面粗糙度[53,54],液体粘度[55-58],物体[59-62]和布料[63]的刚度,表面湿度[64],透明度[65,66]和半透明性[7, 20, 21, 23, 67–72]。但是,当材质在场景中出现不同时,从物理图像分析中查找图像特征可能具有挑战性,从而导致发现的特征特定于特定的场景因素。这个问题在半透明性中尤其突出(评论见[9,37])。最近,数据驱动的方法试图通过捕获许多图像样本中材料外观的统计结构来学习材料表示[10,32,35,73-78]。这些方法已被用于模拟人类感知。例如,Storrs等人(2021)在各种照明和几何形状下渲染不透明的光泽和哑光图像,在没有物理属性监督的情况下通过图像训练变分自动编码器(VAE)模型,并阐明与人类光泽感知相关的潜在图像特征[35,79,80].他们的工作显示了无监督学习在没有物理图像分析的情况下解开场景因素的能力。感知系统中的一些最新工作也利用了这种无监督的方法[77,81-87]。然而,解码半透明性仍然具有挑战性,因为VAE中使用的简单编码器-解码器网络无法在没有物理参数监督的情况下,由于材料复杂性而解开半透明外观的影响因素[28]。
在这里,我们的目标是在无监督的情况下学习一种包含半透明材料视觉特征的紧凑潜在表示,并探索这种潜在表示是否为感知提供信息。我们开发了一个半透明外观生成(TAG)模型,该模型在我们自己的半透明物体自然照片(TID)的大规模数据集上进行训练。我们专注于日常生活中常见的典型半透明物体类别,肥皂。肥皂可以由不同的材料制成,并且可以制成各种形状和颜色,是研究各种半透明外观的绝佳媒介。TAG包含两个模块:基于风格的生成对抗网络(StyleGAN)[88-90]和pixel2style2pixel(pSp)编码器[91](图1A)。StyleGAN学会利用其潜在空间合成感知上令人信服的半透明材料的图像。与传统的深度生成模型(例如,GAN [92]和DCGAN [93])不同,StyleGAN利用逐层潜在空间对数据的高维分布进行建模,从而在图像域中呈现的不同抽象级别上实现视觉属性的无监督分离[88,94,95].更具体地说,我们使用StyleGAN2-ADA,这是StyleGAN的变体,具有自适应鉴别器增强(ADA),它固有地应用数据增强,允许使用我们相对较小的数据集进行稳定的训练[90]。同时,我们使用pSp编码器在学习的StyleGAN的潜在空间中导航,并有效地探索其在半透明表现力中的代表性意义(图1B)。我们的框架为缓解研究半透明感知的两个困难提供了途径。首先,在没有显式标签的情况下,我们的模型通过找到类似于半透明物体自然图像对应的分布的特征的候选分布来学习表示材料。学习过程基于一个简单的目标,即生成与真实样本无法区分的样本。其次,我们从高维图像数据中获得材料属性的紧凑表示。利用StyleGAN的表征能力,我们发现了一个逐层的潜在空间,该空间自发地解开了半透明相关的属性,并捕获了表征半透明外观变化的内部维度,并提供了一种系统的方法来解决材料感知的感知相关图像特征。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 半透明外观生成 (TAG) 模型。
(A)给定自然图像的输入,基于StyleGAN2-ADA生成器和pSp编码器架构的TAG框架学习合成半透明物体的感知上令人信服的图像。该模型将半透明物体的照片映射到 W+ 潜在空间。W+可以解开场景属性(例如,形状,材料和身体颜色)的影响,并预测人类对半透明的感知。(B)将照片嵌入StyleGAN的W+潜在空间的详细过程。这使我们能够在潜在空间中的特定位置生成图像。(C)层层潜空间中人类可理解的新兴场景属性。在没有监督的情况下,W+自发地解开了三个突出的场景属性:材质、形状/方向和车身颜色。在每一行中,原始生成的图像(左)通过修改其特定层的潜在向量来逐渐操作。早期层(w1到 W6) 操作 W+ 可变换对象的形状和方向。中间层(w7到 W9) 操作可修改材质外观。后层(w10到 W18) 操作更改主体颜色(表面反射的漫反射分量的颜色)。
https://doi.org/10.1371/journal.pcbi.1010878.g001
我们证明了TAG可以创造感知上令人信服和多样化的半透明外观(图1A)。至关重要的是,我们表明人类可理解的场景属性出现在我们模型的学习潜在空间中(图1C)。在没有物理因素监督的情况下,与半透明感知相关的特定于尺度的场景属性可以在逐层潜在空间中单独表示:材料、形状/方向和身体颜色。更重要的是,我们发现潜在空间的中间层选择性地编码半透明特征,并且可以预测人类的半透明判断,而基于像素的降维方法(例如,t-SNE,MDS)的表示则不能。通过利用学习的逐层潜在空间的表征特性,我们确定了诊断半透明性的关键图像特征,例如特定于尺度的定向彩色核。我们的研究结果表明,无监督生成框架可能会发现材料的有效表征空间,并揭示视觉系统可能用于估计材料属性的图像规律。
结果
无监督学习框架:半透明外观生成(TAG)模型
我们的主要目标是探索模型的学习潜在空间。TAG由两部分组成,如图1A和1B所示:StyleGAN2-ADA发生器[90]和pSp编码器网络[91]。我们首先训练了一个 StyleGAN2-ADA 生成器,其中包含来自我们定制的半透明图像数据集 (TID) 的未标记图像,其中包含 8085 张各种肥皂的照片。StyleGAN2-ADA处理相对较小的数据,因为它利用了一组多样化的增强和自适应控制方案来鼓励网络找到正确的数据分布。它展示了在各种图像数据集中捕获图像统计结构的能力,包括人脸艺术品(MetFaces),动物面部照片(AFHQ CAT,DOG,WILD)和乳腺癌组织病理学图像(BreCaHAD)[90]。在这里,TAG的生成器网络旨在合成与肥皂真实照片无法区分的新图像,而无需了解半透明的物理过程。训练生成器后,我们可以使用它通过从学习的 StyleGAN 的潜在空间中采样来合成大量半透明物体的新图像。
除了生成肥皂的随机图像之外,我们还有兴趣探索自然图像中材料的各种视觉属性如何在潜在空间中表示。在获得经过训练的 StyleGAN2-ADA 发生器后,我们单独训练了一个 pSp 编码器网络,该网络可以将一张真实的肥皂照片嵌入到 StyleGAN 的扩展中间潜在空间 W+ 中。将真实照片映射到逐层潜在空间W+中,可以获得准确的重建质量和输入的表现力[96-98]。给定真实图像,pSp编码器提取W+(w1到 W18),然后将其插入到训练好的 StyleGAN2-ADA 生成器与其空间尺度相对应的卷积层中,以重建输入(图 1B)。图1A显示了使用这些方法的模型生成的肥皂图像的示例。上述步骤使我们能够有效地检查逐层潜在空间是否可以解开场景属性对图像外观的影响,并进一步探索这种潜在表示是否告知人类感知(图1C)。
TAG生成令人信服的感知材料
在研究学习的潜在空间之前,我们首先从两个方面评估了生成图像的感知质量。在实验1中,我们评估了生成图像的整体图像质量和真实度。在实验2中,我们进一步研究了生成的对象的材质属性在感知上是否令人信服,并且能否以与真实图像相同的方式传达材质属性。
在实验1中,300名观察者完成了一项真实与生成的区分任务,其中他们被指示区分图像是肥皂照片还是从TAG模型生成的。我们向观察者展示了2张肥皂图像,其中一半是真实照片,另一半是生成的图像。图2A显示了刺激的示例。每个刺激呈现一秒钟,然后观察者做出真实与生成的判断(图300B)。<>个刺激是预先随机化的,每个刺激被判断两次。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 实验1:真实与产生的歧视。
(A)肥皂的真实照片和模型合成图像的例子。通过使用pSp编码器将真实照片嵌入训练的StyleGAN2-ADA的W+潜在空间中,合成了“生成的”肥皂。我们使用 150 张真实照片和 150 张生成的图像作为实验 1 和 2 的刺激。(B) 实验1的程序。(C)判断真实图像和生成图像的总体正确率和错误率。50%的错误率表示纯粹的猜测。(D)被观察者误判的真实图像和生成图像的百分比分布。x 轴表示观察者误判图像的百分比,y 轴表示被误判的图像百分比。灰色代表真实图像的数据,绿色代表生成图像的数据。
https://doi.org/10.1371/journal.pcbi.1010878.g002
如果观察者能够完美地将生成的图像与真实图像区分开来,那么他们的误判率为0%。另一方面,如果他们无法区分真实图像和生成的图像,他们将纯粹是猜测和误判,有 50% 的机会。我们的结果表明,在所有观察者和试验中,观察者误判了28%的生成图像和25%的真实照片(图2C)。同时,图2D显示,在两个重复中,观察者误判的分布在真实条件和生成条件下都非常相似。具体来说,在两次重复中,大约40%的生成图像被至少30%的观察者错误地判断为“真实”(参见补充S1图中的示例)。所有观察者仅正确识别了生成的图像中的10%。对于大量图像,观察者无法将生成的图像与真实图像区分开来。我们的结果与最近对StyleGAN生成的高分辨率人脸图像进行人类评估的结果相当,其中判断生成的图像的错误率也是28%[99]。总体而言,结果表明,我们的模型可以成功生成大量令人信服的图像,欺骗观察者判断它们是真实的。
在实验2中,我们评估了生成的肥皂图像是否可以传达感知上具有说服力的材料品质。具体来说,实验1的1名观察者以7分制(3表示低,12表示高)对三个与半透明相关的属性进行了评分:半透明性、透视性和发光(图0A),在之前的研究中发现这些属性在半透明物体的语义判断中具有描述性[1]。每个观察点的材料属性评级被归一化为 3 到 3 的范围。对于每张影像,对观察者进行归一化属性评级的平均值,随后的数据分析基于这些值。图12B显示,观察者从生成的图像中感知到不同程度的半透明性、透视性和发光,其评级分布与真实照片相似。这表明观察者可以从生成的图像中感知到各种半透明的材料属性。同时,观察者感知到的材料属性对于真实照片和生成的肥皂图像彼此高度正相关(图3C)。这些属性之间的相关性与我们之前的实证发现一致[<>]。图<>D显示了真实和生成的图像的示例,这些图像被判断为具有与真实照片相似的不同程度的半透明性。总之,我们的结果表明,TAG学会了合成各种令人信服的半透明外观,并传达了类似于真实照片的材料属性。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 实验2:材料属性评级。
(A)实验2的用户界面。(B) 观察者之间平均归一化属性评级的分布。对于每个观察者,我们将他们的属性评级标准化为 0 到 1 的范围。x 轴表示在 20 个观察点上平均的属性的归一化评级,y 轴表示图像的百分比。(C) 一对材料属性之间的评级散点图,皮尔逊相关性显示在顶部。在置信水平为 95% 时,所有相关系数均具有统计学显著性 (p < 0.001)。在(B)和(C)中,灰色和绿色分别表示真实图像和生成图像的结果。(D)被判定为具有不同半透明水平的真实图像和生成的图像的示例。我们根据平均归一化半透明等级对图像进行分组:高(0.6至1),中(0.2至0.6)和低(0至0.2)。
https://doi.org/10.1371/journal.pcbi.1010878.g003
同时,我们研究了使用另一种GAN框架深度生成对抗网络(DCGAN)学习生成各种半透明外观的合理性。与 StyleGAN 中使用的多尺度潜在表示不同,DCGAN 在其生成过程中使用单个输入潜在空间和分数步进卷积。尽管DCGAN在相对粗糙的图像分辨率下捕捉到了一些粗略的视觉印象,暗示了半透明性,但它在合成更细微的细节以获得令人信服的半透明品质方面受到限制。然而,DCGAN在64像素×64像素分辨率下的生成结果已经显示出一些半透明特征,这提供了经验证据,证明半透明印象可以以更压缩的形式传达(见方法和补充S8图)。
学习潜在空间中感知有意义的场景属性的出现
是什么让生成的图像传达了具有感知说服力的材料外观?我们假设TAG的W+潜在空间有义务学习观测数据结构背后的解释因素。为了验证我们的假设,我们系统地操作了潜在代码的不同层,并检查了这些操作如何影响输出图像的视觉属性。具体来说,我们在一对图像(源和目标)的潜在代码之间应用了变形,这些图像的形状、固有材料、照明环境和身体颜色各不相同(图4A)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 实验3:逐层潜在空间中出现场景属性的感知评估。
(A)实验3中使用的变形图像序列示例,通过在源的潜在代码之间线性插值生成(w一个) 和目标 (wB) 在早期(w1到 W6)、中间 (W7到 W9)和后层(w10到 W18).λ 是线性插值中源图像的插值步骤。根据肥皂的材料特性,在三种条件下选择源-目标对:不透明-半透明 (OT)、不透明-不透明 (OO) 和半透明-半透明 (TT)。(B)实验3的用户界面。(C) 不同图层如何对应于场景属性的感知结果。每个像元中的数字表示观察者选择视觉属性作为最突出属性的平均时间百分比,该属性在相应图层操作生成的图像序列中发生变化。括号中显示了观察点之间的标准差。热图的每一行占 50 个图像序列。(D)潜在空间中照明的表现。顶部面板:早期图层(第 4 层至第 6 层)的操作也会改变照明方向。从左到右,照明方向顺时针旋转。底板:中间层(第 7 层至第 9 层)的操作会改变照明环境。从左到右,背光的强度逐渐降低。
https://doi.org/10.1371/journal.pcbi.1010878.g004
给定两个生成的图像 A(源)和 B(目标)及其相应的 W+ 潜在代码,w一个和 wB(18 × 512 维潜在代码),可以具有任意视觉特征,变形可以应用于其潜在代码的特定层,以创建一系列生成的图像,其视觉外观位于源和目标之间。变形的潜在向量是通过源 () 和目标 () 之间的一组特定层的线性插值生成的,同时保持源图像中的其他层不变:
(1)
其中 λ 是插值步骤,是图层集的结果潜在向量。然后,生成器使用来自源图像的剩余未更改潜在矢量的组合来生成新图像(例如,图4A所示图像序列中的中间图像之一)。例如,当我们在源和目标之间的第 7、8 和 9 层的潜在向量上应用变形时,生成的潜在向量遵循 。当 λ = 0 时,输出是源图像的原始潜在向量。当λ = 1时,源图像第7层、第8层和第9层上的潜在向量被目标图像的潜在向量替换(图4A中间面板)。
图1C显示了W+潜在空间中逐层操作的示例。当我们在不同层进行图像变形时,我们观察到出现了三个显着属性:早期层(第 1 层到 6 层)决定了肥皂的形状和方向,中间层(第 7 层到 9 层)有效地改变了材料(例如,从甘油转变为乳白色肥皂,反之亦然),后期层(第 10 层到 18 层)主要改变了物体的身体颜色。这表明 StyleGAN 的深度生成表示在没有外部监督的情况下机械地解开了场景属性。
对出现的场景属性进行感知评估
为了研究天真的观察者如何解释W+空间的逐层表示中出现的场景属性,我们通过在三组不同层(早期,中间,后期)上的选定图像对之间进行变形来创建图像序列。对于每个层操作(方程1),我们在三种材料条件下选择了源-目标图像对:不透明-半透明(OT)、不透明-不透明(OO)和半透明-半透明(TT)。我们一起采样了450个图像序列(参见方法)。图4A显示了在三种源-目标材料条件下,从三种层处理方法(用于早期层操作的顶图,用于中间层操作的中面板,用于后层操作的底板)生成的图像序列示例。对于每个图像序列,观察者被要求选择“从左到右变化的一个最突出的视觉属性”(图4B)。图 4C 说明了观察者选择哪些属性作为每个层操作的主要更改。热图显示,观察者一致认为,早期层的操作改变了物体的形状(约97%),与目标和源图像的材料条件无关。观察者还一致认为,中间层的操作主要改变了不透明半透明对物体的半透明外观(约75%)。当光源和目标具有相似的材质(OO和TT对)时,中间层操作导致材质外观变化不太明显(约35%),观察者也根据场景选择照明或颜色作为主要变化因素。例如,当我们变形两种半透明肥皂时,观察者可以将材料或照明视为主要变化(图4A,中间面板,第三行)。最后,观察者大多同意,对后层的操纵改变了物体在不同物质条件下的体色(约73%)。我们对行为数据进行了贝叶斯多级多项式逻辑回归,分析结果与我们的观察结果一致[100]。所有三种图层操作方法都是用于估计最突出场景属性的可靠参数。我们还研究了层操作的条件效应。对于早期层操作,在所有三种类型的源-目标对中选择“形状/方向”的估计概率接近 1。对于应用于OT对的中间层操作,选择“材料”的估计概率为77.9%(95%最高密度区间,[69.5%,84.5%])(补充S3图)。这些结果表明,在潜在空间中解开的场景属性具有感知意义,并且可以在不同层的潜在向量中单独控制每个属性。
我们还观察到一些参与者选择照明作为对相似目标和源材料的中间层操作导致的主要变化,这表明潜在空间的中间层也可以在一定程度上代表照明。照明的效果可能有两个方面:照明的方向和环境。照明方向(通过投射阴影的位置和形状在图像中表示)是在早期图层(图层 4、5 和 6)的子集中捕获的。图4D中的顶部面板显示了操纵这些层传达了顺时针旋转光源的印象。另一方面,照明环境(例如,晴天与阴天)会影响图像中物体的颜色分布。这种效果体现在中间层(第 7 层至第 9 层)。图4D中的底板显示,操纵这些层会产生改变背光强度的印象。这一观察结果与先前的发现一致,即照明环境会影响半透明材料感知,因为强背光下的物体往往看起来更半透明[7,21]。
潜在空间的中间层捕捉人类的半透明感知
我们的下一个目标是研究潜在空间的中间层是否可以捕捉到人类的半透明感知。为了从模型中得出定量的半透明预测,我们训练了一个线性支持向量机(SVM)分类器,以找到图像潜在代码的每一层的决策边界,以最好地区分半透明肥皂和不透明肥皂。我们根据肥皂列出的成分手动将肥皂分为两类:乳白色和甘油。我们从TID数据集中抽样了1000张真实照片。一半是甘油肥皂,另一半是乳白色肥皂。形状、照明条件和身体颜色在不同实例中差异很大。通过pSp编码器获得真实照片嵌入的相应W+潜码后,提取了18层中每层的隐向量,以训练线性SVM分类器。因此,我们有18个不同的决策边界。图5A说明了经过训练的决策边界(d我) 使用 W+ 的第 i 层。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. W+潜在空间的中间层可以有效调节生成图像的半透明性,预测人类感知。
(A) 用于乳白色与甘油皂区分的经过训练的特定于层的支持向量机 (SVM) 分类器的图示。(B) 散点图显示了实验 2 中每个生成图像的模型预测值与人类平均归一化属性评级的关系。绿色、蓝色和橙色分别表示半透明度、透视性和发光的数据。(C)相关系数的调谐曲线(模型预测与人类感知评级之间的相关性,r慧聪) 在 W+ 潜在空间中的所有层上。使用中间层的决策边界(d7, d8和 d9) 与人类属性评级密切相关。“*”表示该层的相关性在 95% 置信水平下在统计意义上不显著。(D)半透明调制序列的例子。上图:沿学习决策边界的法线操纵原始图像(左端)的第 9 层潜在向量对物体的半透明材料外观具有连贯的影响。左:移动到决策边界法线的正方向会使肥皂看起来更不透明。右:移动到决策边界法线的负方向会使肥皂看起来更半透明。下图:沿着学习决策边界的法线操纵原始图像的第 12 层潜在向量不会从根本上改变半透明外观。
https://doi.org/10.1371/journal.pcbi.1010878.g005
接下来,我们计算了SVM模型预测,并将其与实验2中测量的人类属性评级进行了比较。具体来说,我们从实验 18 中使用的 150 张生成图像的每个层的潜在向量中获得了 2 个不同的模型预测值。对于具有第 i 层潜在向量的给定图像,我们测量了它与学习决策边界 d 的距离我(标准化为 0 到 1 范围)。例如,如图 5B 中的中间列所示,使用图像的第 9 层潜在向量,我们可以分别将其模型预测值与半透明性、透视性和发光的平均归一化人类属性评级绘制。模型预测与感知评级之间的皮尔逊相关性(r慧聪) 为每个属性计算。数据显示,来自中间层(例如,第 9 层)的预测与人类材料属性评级密切相关,而来自早期层(例如第 6 层)和后一层(例如第 12 层)的预测与感知的相关性相对较弱。通过对每一层重复此步骤,我们获得了每层的模型预测与感知评级之间的相关系数(详见补充S2表中)。图5C显示了各层相关系数的调谐曲线。相关性 r慧聪在中间层(第 7、8 和 9 层)达到峰值,这意味着这些层可以最有效地编码观察者用于半透明感知的视觉信息。
经过训练的 SVM 用作材质外观编辑的一般指南。中间层的决策边界反映了潜在空间中固有材料的线性可分离性。决策边界的法线成为捕获材料外观变化的可解释方向。如图 5D 的顶行所示,沿法线到 d 的正方向操纵给定图像(左端)的第 9 层潜在向量9令人信服地使材料更加乳白色和不透明,而不会改变物体的形状。相反,向负方向移动会使不透明的肥皂更加半透明。相反,沿着发现的决策边界的法线操纵早期或后期层(例如,第12层)的单个潜在向量不会导致材料外观的有效修改(图5D底部)。所有层的操作都可以在补充 S4 和 S5 图中找到。
作为对照,我们通过应用降维方法计算半透明物体的原始图像(即来自 R、G、B 通道的像素值)的嵌入:t 分布随机邻居嵌入 (t-SNE) 和多维缩放 (MDS)。我们没有在 W+ 空间中使用图像的潜在代码,而是使用从原始图像中获得的嵌入空间来训练用于乳白色与甘油分类的 SVM 模型。对于每种方法,我们创建了一个 512 维嵌入,其中包含用于训练 1000 个逐层 SVM 分类器的相同 18 张“乳白色”或“甘油”肥皂的真实照片,以及实验 150 中使用的 2 张 TAG 生成的图像。接下来,在相应的基于像素的 1000 张照片嵌入上训练 SVM 分类器后,我们将与训练决策边界的归一化距离计算为 150 张 TAG 生成的图像中每张图像的模型预测值,相关性 r慧聪具有人类感知评级。与中间层(图5B)相反,t-SNE和MDS的预测与人类心理物理学(p > 0.1)均不显着相关(见补充中的S9图)。
半透明特征在中低空间尺度上建立
为了分解如何在最终输出中创建半透明外观,我们检查了在StyleGAN2-ADA合成网络的中间阶段生成的特征图[88,101]。生成器从大小为 4 × 4 × 512 的学习常量输入开始,并通过仿射变换层逐渐扩展空间分辨率。在每个分辨率下,从8×8到1024×1024,额外的单个卷积层(tRGB层)将特征图转换为RGB图像。如图6所示,我们可视化了生成具有相应W+潜在代码的肥皂图像的中间步骤。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 网络生成过程的可视化。
半透明的印象出现在图像合成过程的早期阶段,而在后期阶段则增加了外观的更多细节。每一行对应于 StyleGAN2-ADA 生成网络中不同空间分辨率的 tRGB 层序列的中间生成输出。半透明相关特征早在 32 像素× 32 像素(第 7 层和第 8 层)和 64 像素× 64 像素(第 9 层)时就已建立。表面反射属性(如镜面反射高光)仅在 128 像素× 128 像素(图层 11 到 12)处清晰可见。肥皂的主体颜色以 1024 像素× 1024 像素(第 17 至 18 层)的分辨率最终确定。
https://doi.org/10.1371/journal.pcbi.1010878.g006
与潜在空间中出现的场景属性的发现一致,早期层(w1到 W6),包括8×8至16×16分辨率,形成了物体的总体形状和轮廓。中间层,包括第 7 层和第 8 层 (w7和 w8) 在 32 × 32 分辨率和层 9 (W9) 在 64 × 64 分辨率下,确定了半透明性的关键特征。在64×64分辨率的图像中,肥皂体积的图像对比度和颜色变化给人以“发光”的印象,这对于区分半透明材料和不透明材料很有用。在 128 × 128 分辨率(第 11 层和第 12 层)下,进一步指定了表面反射属性,例如镜面高光和焦散。后面的层(w13到 W18),从 256 × 256 到 1024 × 1024 分辨率,丰富了照明环境和配色方案的细节,提供了更具吸引力的材料外观。这表明相对粗糙的空间尺度下的潜在图像特征足以捕捉半透明材料的视觉印象。
半透明诊断图像特征
为了了解中间生成表示编码的信息,我们探索了tRGB层具有中间空间尺度表示的图像描述符,该尺度对半透明性敏感(图7)。受理解自然图像中使用的稀疏编码[102-105]的启发,我们对中间tRGB图像的局部区域应用了独立成分分析(ICA)[106],以研究半透明外观的有效表示。具体来说,基于实验2的结果,我们创建了一组新的高半透明生成图像,并提取了64像素×64像素的中间tRGB图像,其层对半透明性出现敏感。在通过 StyleGAN 的卷积过程保持相对内核大小不变的同时,我们应用 FastICA 来学习 64 个基本函数 [106]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 半透明特征的可视化。
(A) 来自高半透明性数据集的图像的中间生成结果(以 64 像素× 64 像素分辨率输出的 tRGB 层)。图像的大小调整为 128 像素× 128 像素以进行显示。(B)通过训练64个基函数的系统获得的中间层ICA内核,×从(A)中的图像中提取的24像素图像补丁。内核的大小为 24 × 24。(C)在半透明肥皂的真实照片上应用(B)中单个ICA内核的三维卷积的可视化。(D)所得的四种不同肥皂的过滤图像,具有选定的彩色内核。中低空间频率色核可以捕获半透明特征,例如“色焦散”(第 24 行,第 2 列)、“发光边缘”(第 1 行,第 1 列)和“从内部发光”(第 4 行,第 1、1 和 3 列)。最后一行的无方向核揭示了颜色在相对粗糙的空间尺度上的变化,这也是半透明的诊断。
https://doi.org/10.1371/journal.pcbi.1010878.g007
在学习的表示(图7B)中,激活特征是具有各种方向的彩色或消色差的。图7C展示了将64个内核中的每一个的三维卷积应用于半透明肥皂的真实照片的结果。亮度核提供对象轮廓、阴影边界和镜面反射率的信息,而色度核则揭示指示半透明的细微图像特征,例如边缘和角落周围的颜色渐变。图7D显示了对一些半透明和不透明物体的过滤结果的示例。例如,在透明肥皂(第 1 列和第 4 列)上应用定向色核(卷积结果矩阵中的第 1-3 行)激活焦散上的颜色变化模式,这在更不透明的肥皂中不存在(第 1 行和第 2 行,第 2 列)。接下来,红绿色色仁还检测到半透明肥皂的内部“发光”。例如,黄色乳白色半透明肥皂(第 4 列)上的卷积结果显示了边缘附近的饱和度空间梯度(第 1 行,第 4 列)。同时,生成的图像还显示了同一块肥皂上的“发光边缘”(第 1 行,第 4 列)。值得注意的是,无方向的彩色内核揭示了整个物体相对粗糙的空间尺度上的颜色变化,这可能是半透明的诊断(第 5 行,第 4 列)。此外,这些与半透明相关的特征无法通过从较粗的中间表示中提取的基函数获得(补充S7图)。总之,我们的结果表明,具有中低空间频率的定向色核可以诊断半透明外观。
讨论
我们提出了一个用自然照片训练的深度图像生成模型,以获得一个紧凑的逐层潜在空间,可以捕捉人类对半透明的感知。我们的研究表明,学习的潜在空间自发地解开了突出的视觉属性,并捕捉了半透明外观的潜在维度。值得注意的是,我们发现所表示的场景属性是特定于比例的,其中早期图层表示形状,中间图层表示半透明,后期图层表示身体颜色。潜在空间的中间层可以成功预测人类对各种生成图像中半透明的感知。我们的研究结果表明,人类可能会使用特定于尺度的结构来表征来自视网膜图像的视觉信息,从而促进材料在各种情况下估计其属性的表示。我们的框架可以作为一种有效的方法,在材料的高度感知可变性中发现广义的图像特征。
我们模型的图像生成过程(图6)类似于艺术家通过结构描绘观察到的视觉属性来绘制半透明对象的策略。因此,模型学习的表征系统可能类似于绘画的心理过程。17世纪的荷兰艺术家能够通过描绘触发半透明属性视觉印象的关键图像特征,在画布上绘制生动的半透明物体,而无需严格遵守物理定律[17,107]。 想象一位艺术家在餐桌上画一颗葡萄(例如,《牡蛎和葡萄静物》,扬·戴维斯·德·希姆,1653年)。作为第一步,在精美地添加任何细节之前,艺术家通常首先雕刻出物体的轮廓。设置一般形状后,逐渐填充颜色以模仿阴影和阴影,以产生 3D 形状的第一印象并反映场景中的照明条件。添加了更多细节以描绘表面反射和焦散。艺术家可以通过添加精细的细节来不断完善绘画,以提供更令人信服的材料质量。绘画中多个层次的细节组合有助于形成半透明的外观。我们的TAG模型以类似的比例特定方式生成逼真的半透明外观。相比之下,缺乏多尺度表征能力的生成模型(例如DCGAN)可能无法完美地表示半透明的复杂视觉现象,尽管它学习了一些粗略的视觉印象。鉴于先前的研究也表明,尺度特异性过程在材料感知中起作用[108-110],以尺度特定的方式发现和制定视觉信息的结构可能有助于重新编码材料外观的复杂性以获得有效的表示。
在我们的研究中,我们使用肥皂作为媒介来说明学习材料自然图像的语义有意义的表示的可能性。尽管潜在空间所表示的确切含义在训练数据集中可能有所不同,但相应的潜在空间仍将与特定于尺度的图像特征产生的各种抽象级别解开场景属性。我们希望中间层(中等粗糙度)能够表示体积材质外观,即使模型是使用其他材质的图像数据集训练的。对于我们的数据集,我们证明了特定尺度的图像特征可以单独控制。半透明外观(即,与中分辨率特征相关联)和身体颜色(即,与精细分辨率特征相关联)可以直接操作,而无需改变物体的形状(即,与粗分辨率特征相关联)。我们的发现的观察结果也与之前对StyleGAN在其逐层潜在空间中的代表性能力的研究一致。在人脸图像的生成中,粗略空间分辨率(2至4个周期/图像)的“样式”对应于姿势和脸型等高级方面,中等分辨率(8至16个周期/图像)的“样式”控制较小的面部特征和发型,精细分辨率的“样式”(32至512个周期/图像)有助于微观结构和配色方案[88].同样,在室内场景合成中,潜在空间可以分别控制房间的空间布局(粗略)、场景中的分类对象(中间)和配色方案(精细)[94]。受当前训练样本的几何形状和材料外观多样性的限制,我们的TAG模型可能无法直接用于合成具有更多不规则几何形状的另一种材料(例如晶体)的图像。然而,了解肥皂是在现实世界中捕捉基本半透明外观的起点。因此,在未来的工作中,可以使用迁移学习等技术扩展我们的模型,以学习跨广泛类别材料的图像数据表示。
我们的研究打破了使用控制良好的计算机渲染图像研究材料感知的悠久历史。我们发现关键的图像特征可以通过在半透明物体的自然照片的大规模数据集上应用无监督学习方案来诊断不同几何形状和照明的半透明性,而无需特别受限的物理环境。我们发现的一些图像特征可能是半透明材料的可靠指标,它们证实了先前的经验发现。例如,已经发现半透明物体的边缘强度分布与不透明物体的边缘强度分布不同[111]。我们的ICA分析表明,定向彩色内核可以检测沿半透明边缘的复杂图案(见图7D行2,第4列)。此外,这种色核还捕获了“发光”的效果,这是表征半透明材料颜色空间分布的重要特征[12,21]。此外,我们的结果表明,焦散图案的存在可能是半透明感知的重要线索[112]。
我们还发现了颜色在半透明外观中的复杂作用。以前的大多数工作都通过操纵材料图像的颜色/亮度分布来探索颜色对材料感知和识别的影响[12,21,64,71,113,114]。 例如,将彩色半透明图像转换为灰度图像会降低感知的半透明性[12,21,64,72]。然而,目前尚不清楚视觉系统如何在功能上处理颜色信息以进行材料感知。我们的研究结果基于数据驱动的方法,表明颜色半透明处理有两个功能方面:体色和空间色彩过程。体色代表表面反射率的哑光成分的颜色,通常由用于制造肥皂的染料的颜色决定。我们模型中的潜在空间可以独立于材料外观来表示肥皂的体色。通过操纵潜在代码的中间层,我们可以创建具有不同类型的半透明外观但身体颜色相似的对象图像。这表明该模型可以在不改变身体颜色的情况下建立半透明印象。另一方面是物体体积和表面上颜色的空间变化(例如,由于光散射和吸收而导致的物体内的颜色梯度)。这种“空间颜色”对于在中间层提供半透明外观至关重要(图1C,上图),并且可以由具有中低刻度的彩色内核检测到(图7D)。值得注意的是,这种颜色过程是特定于尺度的,即较粗的核无法检测到半透明的空间颜色变化(补充S7图)。此外,空间颜色可以独立于白平衡过程,因为我们模型中的中间层不会固定场景中的白点(图6)。这一发现表明,基于白点的饱和度和色调处理对于这种空间色彩过程可能不是必需的。由于这种空间色彩过程在色觉文献中很少被理解[115,116],我们的工作可能为探索色彩在大脑中材料感知和其他高级视觉处理中的作用提供新的方向。
深度生成网络(StyleGAN)并非旨在模拟生物视觉系统,尽管基本功能机制(例如卷积,非线性)受到生物大脑的启发[117-120]。因此,我们并不认为StyleGAN的学习过程一定是人类物质感知的机制。在这里,我们利用StyleGAN的代表能力来模拟不同材料外观的特征空间,将其与心理物理学进行比较,并发现人类可能用来估计自然场景中材料属性的潜在图像特征。我们还承认,我们在模型中学到的图像特征仍然被认为是早期到中级的视觉信息。未来的模型需要开发,以解决自上而下的影响,如上下文、对象身份和个人经验,对物质感知的作用。然而,生成模型,如StyleGAN,可以被认为是一种有效模拟形态可控材料图像的设备,作为提供材料真实图像数据的压缩副本的附加数据源[121]。
当前工作的一个延伸是使用我们的刺激来测量大脑对半透明材料特性的反应。探测材料感知的神经相关性的一大障碍是缺乏一种有效的方法来操纵刺激,这些刺激隔离了各种外部因素对材料外观的影响,同时保持图像的外观自然和逼真。我们通过潜在空间进行的材料操作展示了一种新颖而有效的方法,该方法可以有条件地创建由场景属性的特定组合产生的具有半透明外观的刺激。此外,发现的潜在表征对于脑成像研究中的编码/解码研究很有价值,以探测3D形状,颜色和材料的神经表征之间的相互作用,从而为发现材料感知的神经相关性提供有效的工具。更一般地说,我们在这里采用的方法 - 使用StyleGAN导出半透明感知的潜在表示 - 广泛适用于发现处理复杂物理刺激的各种视觉推理任务的感知相关特征。
方法
道德声明
所有心理物理实验均按照《赫尔辛基宣言》进行,并事先获得美国大学的批准。所有涉及人类参与者的实验设计都得到了美利坚大学机构审查委员会的批准。
半透明图像数据集 (TID)
我们定制的半透明物体图像数据集有 8085 张肥皂照片。该数据集是通过在自然背景下拍摄各种真实世界的肥皂而创建的。我们收集了 60 种独特的肥皂,包括不同的材料、几何形状、表面浮雕和颜色。我们使用 iPhone v12 mini 智能手机在相对固定的距离拍摄了我们在各种照明环境和视点下收集的肥皂,并构建了高分辨率图像(1024 像素× 1024 像素 JPEG 图像)数据集。在每张照片中,物体在图像中居中。我们没有有意/精确地平衡数据集在形状、体色、照明环境和视点的分布上。我们的数据集大致涵盖了各种照明方向:背光(约44%),部分正面照明(约8%),侧面照明(约40%)和漫射(昏暗)照明(约8%)。据我们所知,这是第一个半透明材料的大规模自然图像数据集,也是为数不多的真实世界材料图像数据集之一。
无监督学习框架:半透明外观生成(TAG)模型
深度生成网络StyleGAN2-ADA。
我们在TID数据集上使用 https://github.com/NVlabs/stylegan2-ada 可用的模型的TensorFlow实现训练了StyleGAN2-ADA。StyleGAN2-ADA由两个通过竞争过程训练的网络组成:基于风格的生成器和鉴别器。生成器创建“假”图像,目的是合成肥皂的逼真图像。鉴别器接收“假”和真实图像,并旨在区分它们。随着训练的进行,生成器和鉴别器都会改进,直到“假”图像与真实图像无法区分。基于风格的生成器的训练涉及两个潜在空间。存在一个正态分布的输入潜在空间 Z。因此,八个全连接层的序列将Z转换为中间潜在空间W。Z 和 W 空间的维度均为 512。对于 1024 像素× 1024 像素输出,生成器从大小为 4 × 4 × 512 的恒定输入开始,并根据潜在向量逐渐调整 18 个卷积层中每个卷积层的图像“样式”[88]。对于每个主要分辨率(从 4 像素× 4 像素到 1024 像素× 1024 像素的每个分辨率),有两个卷积层用于特征图合成和一个将输出转换为 RGB 图像的单个卷积层(即 tRGB 层)。权重调制和解调应用于除输出tRGB层以外的所有卷积层[89]。在每个卷积层 i 上,生成器通过“style”接收输入,这是从 512 维潜在向量 w ∈ W 学习的仿射变换。更明确地说,当从W空间生成图像时,所有卷积层都使用相同的向量w。
使用StyleGAN2的网络架构,StyleGAN2-ADA固有地对输入数据应用广泛的增强,以防止鉴别器过度拟合,同时确保没有任何增强泄漏到生成的图像。在训练过程中,每个图像以固定的顺序通过一系列变换进行处理,每个变换以概率p∈[0,1]随机应用,并自适应调整以抵消过拟合的影响。这种变体被命名为自适应鉴别器增强(ADA)[90]。在实践中,我们允许以下一组转换:像素块传输(x 翻转、90 度旋转、整数平移)、一般几何变换(各向同性缩放、各向异性缩放、分数平移)和颜色转换(亮度、亮度翻转、色相、饱和度)。StyleGAN2-ADA 的总训练长度由“真实图像的总数”定义,因为转换的随机化是针对小批量中的每个图像单独完成的。我们在一台Tesla V100 GPU上训练了该模型,总长度为3,836,000张图像,使用推荐的学习速率0.002和R110 [90] 的正则化用于生成 1024 像素× 1024 像素分辨率输出。训练模型的 FID(弗雷谢起始距离)、KID(核起始距离)和召回率分别为 13.07、0.0038 和 0.330。
pixel2style2pixel (pSp) 编码器。
在训练 StyleGAN2-ADA 后,我们在 TID 数据集中 80% 的随机采样图像上分别训练了一个 pSp 编码器,并在其余图像上进行了验证。我们基于 https://github.com/eladrich/pixel2style2pixel [91] 发布的代码实现了 pSp 编码器。pSp编码器旨在将真实照片有效地嵌入到StyleGAN的扩展中间潜在空间W+中[96]。与 W 空间不同,W+ 是 18 个不同的 512 维向量 (w1到 W18),每个卷积层对应一个 StyleGAN2-ADA 生成器。给定一个真实图像,我们可以将其映射到潜在空间 W+,并通过将获得的潜在代码馈送到我们预先训练的 StyleGAN2-ADA 生成器来创建其重建图像。
pSp编码器建立在特征金字塔网络[122]上,以生成三个级别的特征图(粗图,中图和精细图)[88],使用小型全卷积网络(map18style)从中提取2个W+的潜在向量。潜在向量 w1和 w2由小特征图生成,W3到 W6从中等特征图生成,并且 w7到 W18从大型特征图生成。然后将潜在向量注入与其空间尺度相对应的预训练的 StyleGAN2-ADA 生成器中,以合成重建的图像。特征金字塔网络和map2style网络通过反向传播进行更新,以学习生成潜在向量,这些潜在向量映射到与输入真实图像在感知上相似的重建图像。该架构如图 1B 所示。
整个框架在一组损失函数上进行了训练,以鼓励真实照片的准确重建:像素级损失(L2)、LPIPS 损失 (LLPIPS)和正则化损失(L注册).对于输入图像 x,总损耗定义为:L(x) = λ1L2(x) + λ2LLPIPS(x) + λ3L注册(x),其中 λ1, λ2和 λ3是定义损失权重的常量。在这里,我们设置 λ1= 1, λ2= 0.8, λ3= 0.005。最大训练步骤数设置为 10000,并且导致最小总损失的模型不断更新。我们用一个 Tesla V100 GPU 训练模型 2 天,在训练步骤 9000 优化的模型用于研究的其余部分。总损失为0.181。
使用 DCGAN 生成图像
我们还探索了学习使用非基于样式的生成对抗模型DCGAN合成半透明物体图像的可行性,DCGAN的生成器仅从均匀噪声分布Z(即输入潜在空间)获取输入,并逐渐应用一系列分数步幅卷积来获得上采样的特征图。DCGAN已经证明了从具有32至64分辨率图像的各种数据集中生成合理结果的能力,例如室内卧室和人脸[93]。我们使用Radford等人(2015)提出的DCGAN架构来训练生成64像素×64像素的肥皂图像。DCGAN在TID数据集上进行训练,图像大小调整为64像素×64像素。该模型训练了 800 个 epoch,具有以下超参数:输入潜在空间 Z 的维度 (100 × 1),学习率为 0.0002,批量大小为 128,Adam 优化器的动量为 0.5。尽管DCGAN捕获了一定程度的半透明性变化,但它无法准确描绘物体的形状。通常,与StyleGAN相比,生成的结果具有较差的感知质量(见补充S8图)。
心理物理实验
参与者。
同一组1名参与者完成了实验2和20(N = 20,中位年龄,18;年龄范围,27-12,8名女性,3名男性)。他们在一个基于实验室的会话中完成了实验。另一组20名参与者完成了实验21(N = 18;中位年龄,27;年龄范围,10-10;69名女性,80名男性)。五人参加了所有实验。观察者没有收到有关实验假设的信息。没有使用统计方法来预先确定样本量,但我们的样本量与先前在实验室中测量的材料感知出版物中报告的样本量一致[87,16,<>]。所有观察者的视力正常或矫正至正常,色觉正常。参与者主要是来自美利坚大学的本科生。观察员得到书面知情同意,并获得美国大学的研究课程学分或每小时<>美元的补偿。
心理物理程序。
心理物理实验是在昏暗的实验室中进行的。观察者坐在离显示器大约7英寸的地方,没有收到固定说明。刺激呈现在带有27英寸Retina显示屏的Apple iMac计算机上,分辨率为5120像素×2880像素,刷新率为60 Hz。 PsychoPy v.2021.1.2用于呈现刺激并收集数据[123]。在每个实验开始时,观察者都会得到特定于实验的说明和演示。
实验1:真实与生成的歧视。
刺激。
为了避免使用与模型训练过程中相同的图像,我们拍摄了300张新肥皂照片。然后,我们将这些照片平均分为两组(A和B),它们同样捕捉了各种材料,照明场和视点。将A组的150张真实照片和B组生成的150张图像用作实验1的刺激。具体来说,B组的照片首先通过pSp编码器编码到W+潜在空间中,然后通过我们训练的StyleGAN2-ADA生成器重建。通过这种方式,我们获得了生成的图像,这些图像涵盖了数据集中肥皂外观的各种样本。刺激的示例如图2A所示。所有图像均以 1024 像素× 1024 像素的大小呈现。
实验程序。
我们首先向每个观察者简要介绍了肥皂的真实照片和生成的图像是如何创建的。观察者被告知,“肥皂的真实照片(真实)是使用智能手机相机拍摄的,生成的图像是由计算机算法(生成)生成的。生成的图像将尝试类似于真实照片中物体的视觉外观。之后,观察者被呈现一系列图像,并被要求判断刺激是真实的还是生成的。每个图像都短暂显示一秒钟,然后观察者通过按键做出判断。观察者事先知道50%的刺激是真实的。我们进行了两次重复的实验。在重复1中,观察者在两个300个试验的块中以预随机顺序判断150张真实和生成的图像。然后,他们完成了相同的300张图像的另一次重复,但具有不同的预随机顺序。实验过程如图2B所示。
实验2:材料属性评级。
刺激。
实验2的刺激是与实验300相同的1张真实照片图像和模型生成的肥皂图像。
实验程序。
在实验开始之前,我们通过向观察者展示地下散射过程的简化图(补充S2图)向观察者介绍了半透明的概念。在实验2中,观察者被要求对图像的材料属性进行评分。在每次试验中,观察者通过调整滑块(图7A)使用七分制(1表示高,3表示低)对每个属性进行评分。他们有无限的时间来做出判断。将300张图像平均分成两个块,并以预随机顺序呈现。该实验仅重复进行一次。
向观察员提供了材料属性的定义如下:
半透明性:物体看起来半透明的程度。
透视性:物体允许光线穿透的程度。
发光:物体从内部发光的程度。
虽然“透视性”是一个视觉术语,观察者之间可能有更多的共识,但判断“半透明性”可能更多地取决于个人解释,并提供对材料质量的额外/补充见解。因此,在这个实验中测量了这两个属性。
实验3:对出现的场景属性进行感知评估。
刺激。
我们通过在源图像 A (w一个) 和目标图像 B (wB) 使用等式 1。变形分别应用于潜在空间的三组层:早期层(第 1 至 6 层)、中间层(第 7 至 9 层)和后期层(第 10 至 18 层),具有相等的插值步骤。为了生成图像序列,插值步骤(λ)设置为具有四个值:0,0.33,0.67和1(见图4A)。
我们从TID数据集中挑选了24个肥皂;一半是不透明的乳白色肥皂(通常具有低半透明度,即不透明),一半是半透明的甘油肥皂(通常具有高半透明度,即半透明)。使用这些肥皂图像,在三种条件下形成源-目标图像对:不透明-半透明(OT)、不透明-不透明(OO)和半透明-半透明(TT)。对于源-目标对的每个条件,我们分别基于早期、中间和后期层的变形创建图像序列,然后随机采样 50 个序列作为刺激。这导致了总共3个图像序列的3(源目标对的条件)×50(层操作方法)×(图4A)。图像序列中的所有单个图像都调整为 256 像素× 256 像素以进行显示。
实验程序。
在实验开始时,我们向观察者展示了一些不同材料、形状和身体颜色的真实肥皂样本,目的是说明这些场景属性对材料外观的影响。
观察者查看了450个图像序列。对于每个图像序列,观察者从以下选项之一中选择“从左到右更改的最突出的视觉属性”:形状/方向,颜色,材料(例如,半透明)和照明。将图像序列平均分成三个块,并以预随机顺序呈现。观察者有无限的时间来完成他们对每个审判的判断(图4B)。该实验是重复进行的。
从潜在代码计算半透明决策边界
我们根据潜空间 W+ 的每一层的潜在向量训练了二进制 SVM,将 TAG 生成的图像中的肥皂材料分类为“乳白色”或“甘油”。然后使用经过训练的 SVM 分类器在连续规模上生成模型预测。我们随机抽取了 500 张来自 TID 的“乳白色”肥皂的真实照片和另外 500 张“甘油”肥皂的照片来训练 SVM。首先将 1000 张照片嵌入到 W+ 潜在空间中,通过我们训练× pSp 编码器获得相应的 18 512 维潜伏码。由于潜在空间包含 18 层,因此我们根据嵌入图像的每一层潜在向量训练了 18 个 SVM 模型。换句话说,有 18 个不同的特征矩阵,每个矩阵的维度为 n × 512 ,其中 n 是训练样本的数量。我们从scikit-learn实现了SVM,并进行了模型拟合的嵌套交叉验证,并使用了相对较强的正则化(C ∈ [0.001, 0.1])来减少过度拟合[124]。因此,我们得到了线性决策边界d我对于第 i 层的潜在向量。然后,我们计算了实验 150 中使用的 2 张生成图像的模型预测值。使用生成图像的w ∈ W+潜码,我们提取了其第i层的潜在向量并测量了其与d+我.对于每一层,模型预测值,即与 d 的归一化距离我,与实验2中的人类感知评级数据进行比较。
来自降维方法的基于像素的图像嵌入:t-SNE 和 MDS
我们通过应用降维方法计算了半透明材料原始图像的嵌入。T-SNE是一种非线性算法,旨在从高维空间中找到数据点的忠实低维嵌入,同时尽可能保留数据的结构[125]。MDS 旨在将高维数据投影到低维空间中,以保留数据点之间的成对距离。
我们使用 Python 中的 scikit-learn 包实现了 t-SNE 和 MDS。对于这两种方法,我们将嵌入空间的维度设置为 512,将最大迭代次数设置为 300。对于t-SNE,我们在5,15和25处进行了困惑实验。对于MDS,我们使用欧几里得距离作为数据点之间差异的度量。人体半透明属性评级的模型预测结果见补充材料中的S9图。
中间生成表示的独立成分分析 (ICA)
根据实验2的结果,我们选择了40张具有最高半透明等级(高半透明)的生成图像。同时,我们选择了另外40张具有不同形状,方向和照明环境的肥皂图像。然后,我们将这 80 张图像(源)与 40 张高半透明图像(目标)完全配对。为了创建新的“高”半透明图像,我们将源图像的中间层(第 7 层到 9 层)潜在向量替换为目标图像,并使用生成的潜伏代码通过生成器生成相应的图像。然后,我们从64像素对应的tRGB层中提取中间生成的结果×64像素空间尺度,建立了半透明性。我们重复此步骤,以3160像素×64像素的分辨率获得64张“高”半透明图像(图7A)。对于“高”半透明性数据集中的每个图像,我们首先将其调整为512像素×512像素分辨率,并从随机位置采样10个24像素×24像素的图像块。然后将FastICA应用于3160×10个图像补丁,以学习64个基本函数(即中间层ICA内核)[106]。为了学习中间层 ICA 内核,我们还对包含 64 个和 100 个组件的图像补丁进行了不同的采样 FastICA(补充 S6 图)。
统计分析
我们使用贝叶斯多级多项式逻辑回归来模拟实验3的心理物理结果[100,126]。目标是检查观察者判断的突出场景属性是否可以通过图层操作方法进行预测。我们实现了 R 中支持的 brms 库进行分析。模型的因变量是场景属性(即形状/方向、颜色、材质和照明)。预测因子包括层操作方法(即早期层操作、中间层操作和后期层操作)、源-目标对的类型(即不透明-不透明 (OO)、不透明-半透明 (OT) 和半透明-半透明 (TT))以及这两个因素之间的相互作用,同时将单个观察者视为分组变量。参数后验分布估计使用8000条马尔可夫链,马尔可夫链蒙特卡罗(MCMC)算法每条链迭代3次。我们假设参数的先验分布均匀。分析的完整结果可以在补充 S1 图、S1 表和 S<> 文本中找到。
支持信息
支持信息中每个图形和表格的说明性文本。
显示 1/12: pcbi.1010878.s001.pdf
跳到无花果共享导航
支持信息(S1 文本)实验1:真实与产生的歧视为了进一步说明图2D在主论文中的结果,S1图显示了真实与生成的判断达成一致的示例由大多数观察者(至少50%的观察者)。实验2:材料属性评级S2 图显示了我们呈现给观察者的不透明和半透明物体的光传输过程的图示在实验说明中。实验3:新兴场景属性的感知评估补充 S1 表总结了贝叶斯多级多项式逻辑回归模型的结果。我们设定基线变量的以下方式:“照明”表示场景属性,“后期层操作”表示图层操作方法,以及源-目标对类型的“不透明-不透明 (OO)”。该模型最突出的输出是早期层操作的后验分布的平均值。相对的当图层操作方法从后层操作到早期层操作的估计平均后验为 2644.90(95% 最高密度区间(人类发展指数),[1106.94,6783.08])。我们可以决定是否接受或拒绝基于参数的空值人类发展指数与实际等效区域(ROPE)之间的关系。为每个参数设置 ROPE 的范围为 0.1使用非指数模型约为 0。如果参数分布的 95% HDI 都不属于 ROPE,我们可以拒绝空值。如果参数分布的 95% HDI 完全落入 ROPE,我们接受 null 作为可信的价值。否则,该决定仍未决定。由于参数分布的 95% HDI 的百分比为 <>早期层操作落在 ROPE 内部,我们可以拒绝 null 值。因此,早期层操作是可信的参数,并且它增加了观察者选择“形状/方向”作为图像序列,与材质的源-目标对无关。其次,在选择“材料”中的相对风险比与图层操作方法从后层操作切换到中间层操作时选择“照明”的比较操作的估计平均后验值为 2.11(95% HDI, [1.58, 2.80])。中间层操作也是可信的参数(Inside.ROPE = 0),它增加了观察者选择“材料”作为最突出视觉对象的概率与选择“照明”相比,属性已更改。同样重要的是要注意,应用于不透明-半透明对增加了观察者选择“材料”作为最突出的视觉属性的可能性已更改(平均 Est = 11.61, 95% HDI, [7.34, 18.39], Inside.ROPE = 0)。最后,后期操作最有可能导致到所有源-目标对条件中“颜色”的变化。S3 图说明了图层操作对所选最突出场景属性预测的条件影响由观察员。对于早期层操作,在所有三个选项中选择“形状”的估计概率接近 1源-目标对的类型。对于后一层操作,选择“颜色”的估计概率约为
OT对为77.4%(95%HDI,[71.4%,82.5%]),OO对为68.7%(95%HDI,[61.4%,75.1%]),80.0%(95%HDI,[73.9%, 85.0%])对于 TT 对。对于中间层操作,选择“材料”的估计概率为 77.9%(95% HDI, [69.5%, 84.5%]) 为 OT 对,高于 OO 或 TT 条件。基于乳酸与甘油皂分类的学习决策边界的层操作效果可视化阳离子作为本文中图5D的扩展,我们展示了基于学习的SVM决策的图像处理结果18 层中每一层的边界W+潜在空间。S4 和 S5 图展示了沿正和学习决策边界的正态的负方向。S2 表显示了每层的 SVM 模型预测与材料属性评级之间的相关系数从实验2中获得。中间生成表示的独立成分分析 (ICA)我们使用 FastICA 来自scikit-learn用于从中间体中提取的图像块的独立成分分析生成过程的结果是我们训练有素的生成器。对于来自 64 的中间生成结果×64 tRGB 层,我们使用 64 和 100 个组件进行分析,发现相似的稀疏特征集(即中间层 ICA内核)被提取。更多细节可以在主要论文的结果部分找到。我们还根据早期层的中间生成结果进行了类似的对照分析。对于 3160“高”半透明图像用于获得中间层ICA内核,我们提取了它们相应的中间生成结果来自 16×16 tRGB 层(S7A 图)。由于大量的 16×从相同的早期潜在向量,我们随机抽样了其中的1000个以减少冗余。对于每个图像,我们首先调整大小它到 512 像素×512像素分辨率,然后采样10个96像素的图像块×随机位置的 96 像素。然后,我们在 1000 上应用 FastICA×10个图像补丁学习64个基础函数(即早期层ICA内核)(S7B图)。卷积这 96 的影响×S96C图中显示了带有半透明肥皂真实照片的7粒。相比从中层核中提取的信息,早期层彩色核检测边缘的粗略信息,并且无法捕捉到指示半透明材质的“发光”效果的细微空间颜色变化。使用 DCGAN 生成图像我们使用Radford等人(2015)提出的DCGAN来训练生成64像素。×64像素的肥皂图像。S8 无花果显示了训练数据集中的真实照片示例和 DCGAN 生成的结果。使用降维方法计算图像嵌入我们使用从降维方法t-SNE和MDS获得的嵌入来计算SVM模型预测值(请参阅方法)。S9 图显示了 t-SNE 嵌入在不同困惑级别(5、15 和 25),以及来自 MDS 嵌入。这些嵌入均未显示统计显著性与实验 150 中 2 张 TAG 生成的图像的人类感知评级的相关性。2/2
1 / 12
下载
无花果分享
S1 文本。 支持信息中每个图形和表格的说明性文本。
https://doi.org/10.1371/journal.pcbi.1010878.s001
(英文)
S1 图 大多数观察者同意的真实与生成的歧视实验的示例刺激。
每个图像都会调整大小以进行显示。
https://doi.org/10.1371/journal.pcbi.1010878.s002
(提夫)
S2 图 简化的光传输过程的图示。
左:不透明物体的光传输过程。右:半透明物体的次表面散射。
https://doi.org/10.1371/journal.pcbi.1010878.s003
(提夫)
S3 图 基于贝叶斯多级多项式logistic回归模型的图层操纵方法对场景属性预测的条件效应.
x 轴是图层操作方法,y 轴是某个场景属性被选为图像序列中已更改的最突出属性的估计概率。误差线指示置信水平为 95% 的估计值的上限和下限。面板显示了三种源-目标对条件的预测结果:不透明-半透明 (OT)、不透明-不透明 (OO) 和半透明-半透明 (TT)。
https://doi.org/10.1371/journal.pcbi.1010878.s004
(提夫)
S4 图 沿学习的半透明决策边界法线的正方向(d我).
中间层(第 7 层至第 9 层)的位移主要影响半透明外观。
https://doi.org/10.1371/journal.pcbi.1010878.s005
(提夫)
S5 图 沿学习的半透明决策边界法线的负方向(d我).
中间层(第 7 层至第 9 层)的位移主要影响半透明外观。
https://doi.org/10.1371/journal.pcbi.1010878.s006
(提夫)
S6 图 从高半透明图像的中间激活中提取的中间层ICA内核(见主论文图7)。
顶行和底行分别显示使用 64 个和 100 个组件的 FastICA 结果。在每一行中,每个面板都显示从图像补丁的不同随机采样中学习的内核。内核为 24 × 24,并调整大小以显示。
https://doi.org/10.1371/journal.pcbi.1010878.s007
(提夫)
S7 图 在学习的潜在空间的早期层中捕获的特征的可视化。
(A) 来自高半透明性数据集的图像的中间生成结果(以 16 像素× 16 像素分辨率输出 tRGB 层)。调整图像大小以进行显示。(B)通过训练64个基函数的系统获得的早期层ICA内核,该系统在96像素×从(A)中的图像中提取的96像素图像补丁上。内核的大小为 96 × 96。(C)在半透明肥皂的真实照片上应用(B)中单个早期层ICA内核的三维卷积的可视化。(D)所得的四种不同肥皂的过滤图像,具有选定的彩色和消色内核。
https://doi.org/10.1371/journal.pcbi.1010878.s008
(提夫)
S8 图 DCGAN生成的结果示例。
(A) 来自训练数据集的示例,即来自 TID 数据集的图像,调整为 64 像素× 64 像素。(B)经过800个时期的训练后DCGAN生成的肥皂的例子。
https://doi.org/10.1371/journal.pcbi.1010878.s009
(提夫)
S9 图 通过对原始图像应用降维方法获得的图像嵌入无法预测人类对半透明相关属性的评级。
散点图显示了使用降维方法从图像嵌入计算得出的模型预测值,相关系数(模型预测与人类感知评级之间的相关性,r慧聪) 和相应的 p 值。绿色、蓝色和橙色分别表示半透明度、透视度和发光度的数据。
https://doi.org/10.1371/journal.pcbi.1010878.s010
(提夫)
S1 表。 贝叶斯多级多项式逻辑回归模型输出摘要。
最左侧的列显示参数的名称。响应变量和预测变量的名称用“_”分隔。第二到第五列是每个参数的后验分布的 95% 可信区间的指数平均值 (Mean Est)、标准误差 (Est.Error) 以及下限(HDI 下限)和上限(HDI 上限)。最后一列是参数分布的 95% HDI 中落在实际等价 (ROPE) 区域内的百分比。
https://doi.org/10.1371/journal.pcbi.1010878.s011
(提夫)
S2 表。 相关系数(r慧聪) 在每个层的模型预测和感知评级之间。
该表显示了模型预测与实验 2(第 2 列至第 4 列)中的平均归一化属性评级之间的 Pearson 相关性及其相应的 p 值。
https://doi.org/10.1371/journal.pcbi.1010878.s012
(提夫)
确认
我们感谢 Eric Schuler 对这项工作的统计分析进行的宝贵讨论,感谢 Alex Godwin 对数据可视化的讨论。
引用
1.阿德尔森 EH。关于看东西:人类和机器对材料的感知。在:人类视觉和电子成像VI。卷 4299.间谍;2001.第1–12页。
2.绑在WMB。对材料特性的实际感知。视觉研究。2010;50(24):2775–2782.密码:20937297
查看文章PubMed/NCBI谷歌学术搜索
3.肖 B, 毕 W, 贾 X, 魏 H, 阿德尔森 EH.你能看到你的感受吗?颜色和折叠特性会影响织物的视觉触觉材料辨别力。视觉杂志。2016;16(3):34–34.pmid:26913626
查看文章PubMed/NCBI谷歌学术搜索
4.小松H,Goda N.物质感知的神经机制:对Shitsukan的探索。神经。2018;392:329–347.密码:30213767
查看文章PubMed/NCBI谷歌学术搜索
5.Schmid AC,Doerschner K.代表人脑中的东西。行为科学的当前观点。2019;30:178–185.
查看文章谷歌学术搜索
6.奥尔科宁 M, 布雷纳德 DH.照明几何形状和物体形状在表面反射率感知中的联合效应。i-感知。2011;2(9):1014–1034.pmid:23145259
查看文章PubMed/NCBI谷歌学术搜索
7.小B,沃尔特B,Gkioulekas I,Zickler T,Adelson E,Bala K.逆光观察:半透明的感知如何取决于照明方向。视觉杂志。2014;14(3):(17):1–22.pmid:24627457
查看文章PubMed/NCBI谷歌学术搜索
8.Marlow PJ, Kim J, Anderson BL. 表面不透明度的感知和误解。美国国家科学院院刊.2017;114(52):13840–13845.pmid:29229812
查看文章PubMed/NCBI谷歌学术搜索
9.弗莱明 RW。材料感知。视觉科学年度回顾。2017;3:365–388.密码:28697677
查看文章PubMed/NCBI谷歌学术搜索
10.拉古纳斯 M, 塞拉诺 A, 古铁雷斯 D, 马西亚 B.几何和照明在材料识别中的联合作用。视觉杂志。2021;21(2):2–2.pmid:33533879
查看文章PubMed/NCBI谷歌学术搜索
11.Sharan L, Rosenholtz R, Adelson E. 物质感知:你能在简短的一瞥中看到什么?视觉杂志。2009;9(8):784–784.
查看文章谷歌学术搜索
12.廖C,泽山M,肖B.水晶还是果冻?颜色对带有真实世界物体照片的半透明材料感知的影响。视觉杂志。2022;22(2):6–6.pmid:35138326
查看文章PubMed/NCBI谷歌学术搜索
13.塞拉诺 A, 古铁雷斯 D, 梅什科夫斯基 K, 塞德尔 HP, 玛西亚 B.直观的材料外观控制空间。2016;35(6).
查看文章谷歌学术搜索
14.Hanrahan P,Krueger W.由于次表面散射而来自分层表面的反射。在:第20届计算机图形学与交互技术年会论文集;1993.第165–174页。
15.詹森 HW, 马什纳 SR, 勒沃伊 M, 汉拉汉 P.地下光传输的实用模型。在:第28届计算机图形学与交互技术年会论文集;2001.第511–518页。
16.贝克 J, 伊夫里·关于形象组织感知透明度的作用。感知与心理物理学。1988;44(6):585–594.密码:3200676
查看文章PubMed/NCBI谷歌学术搜索
17.Di Cicco F, Wiersma L, Wijntjes M, Pont S. 令人信服的葡萄的材料特性和图像线索:Willem Beurs 的 17 世纪绘画食谱的诀窍。艺术与感知。2020;8(3-4):337–362.
查看文章谷歌学术搜索
18.Gkioulekas I, Xiao B, Zhao S, Adelson EH, Zickler T, Bala K. 了解相函数在半透明外观中的作用。ACM 图形事务 (TOG)。2013;32(5):1–19.
查看文章谷歌学术搜索
19.钱德拉塞卡 S. 辐射转移。快递公司;2013.
查看文章谷歌学术搜索
20.吉吉拉什维利 D, 施 W, 王 Z, 佩德森 M, 哈德伯格 JY, 拉什迈尔 H.次表面散射在光泽度感知中的作用。ACM Transactions on Applied Perception (TAP)。2021;18(3):1–26.
查看文章谷歌学术搜索
21.弗莱明 RW, 布尔索夫 HH.半透明材料感知中的低级图像线索。2005;2(3):346–382.
查看文章谷歌学术搜索
22.Chowdhury NS, Marlow PJ, Kim J. 半透明性和形状感知。视觉杂志。2017;17(3):17–17.密码:28355629
查看文章PubMed/NCBI谷歌学术搜索
23.马洛PJ,安德森BL。透光材料的形状和材料特性的协同规范。美国国家科学院院刊.2021;118(14):e2024798118.pmid:33811143
查看文章PubMed/NCBI谷歌学术搜索
24.马洛PJ,格根富特纳KR,安德森BL。颜色在三维形状感知中的作用。当前生物学。2022;32(6):1387–1394.pmid:35139361
查看文章PubMed/NCBI谷歌学术搜索
25.Gigilashvili D, Urban P, Thomas JB, Hardeberg JY, Pedersen M. 形状对表观半透明差异的影响。在:色彩和成像会议。卷. 2019.影像科学与技术学会;2019.第132–137页。
26.泽山 M, 道桥 Y, 冈部 M, 细川 K, 小村 T, 萨雷拉 TP, 等.光学材料特性的视觉辨别:一项大规模研究。视觉杂志。2022;22(2):17–17.pmid:35195670
查看文章PubMed/NCBI谷歌学术搜索
27.Hebart MN, Dickter AH, Kidder A, Kwok WY, Corriveau A, Van Wicklin C, et al. THINGS:包含1,854个对象概念和超过26,000个自然主义对象图像的数据库。公共图书馆一号。2019;14(10):e0223792.密码:31613926
查看文章PubMed/NCBI谷歌学术搜索
28.Che C, Luan F, Zhao S, Bala K, Gkioulekas I. 走向基于学习的逆次表面散射。在:2020年IEEE计算摄影国际会议(ICCP)。IEEE;2020.第1–12页。
29.Nishida S,Shinya M.在表面反射特性判断中使用基于图像的信息。美国光学学会杂志 A. 1998;15(12):2951–2965.pmid:9857525
查看文章PubMed/NCBI谷歌学术搜索
30.元吉一世,西田S,莎兰L,阿德尔森EH。图像统计和表面质量感知。自然界。2007;447(7141):206–209.密码:17443193
查看文章PubMed/NCBI谷歌学术搜索
31.Doerschner K,Fleming RW,Yilmaz O,Schrater PR,Hartung B,Kersten D.视觉运动和表面材料的感知。当前生物学。2011;21(23):2010–2016.pmid:22119529
查看文章PubMed/NCBI谷歌学术搜索
32.弗莱明 RW。材料及其特性的视觉感知。视觉研究。2014;94:62–75.pmid:24291494
查看文章PubMed/NCBI谷歌学术搜索
33.布雷纳德,科塔里斯,拉东吉奇·自然主义任务中对颜色和材料的感知。接口焦点。2018;8(4):20180012.密码:29951192
查看文章PubMed/NCBI谷歌学术搜索
34.Nishida S. 材料感知的图像统计。行为科学的当前观点。2019;30:94–99.
查看文章谷歌学术搜索
35.Fleming RW, Storrs KR. 学习看东西。行为科学的当前观点。2019;30:100–108.密码:31886321
查看文章PubMed/NCBI谷歌学术搜索
36.材料和表面的视觉感知。当前生物学。2011;21(24):R978–R983.密码:22192826
查看文章PubMed/NCBI谷歌学术搜索
37.Gigilashvili D, Thomas JB, Hardeberg JY, Pedersen M. 半透明感知:综述。视觉杂志。2021;21(8):(4):1–41.pmid:34342646
查看文章PubMed/NCBI谷歌学术搜索
38.弗莱明 RW, 卓尔罗, 阿德尔森 EH.真实世界的照明和表面反射特性的感知。视觉杂志。2003;3(5):3–3.邮编:12875632
查看文章PubMed/NCBI谷歌学术搜索
39.金 J, 马洛 P, 安德森 BL.光泽度的感知取决于高光与表面阴影的一致性。视觉杂志。2011;11(9):4–4.密码:21841140
查看文章PubMed/NCBI谷歌学术搜索
40.马洛 P, 金 J, 安德森 BL.亮度和方向一致性在表面光泽感知中的作用。视觉杂志。2011;11(9):16–16.密码:21873616
查看文章PubMed/NCBI谷歌学术搜索
41.马洛 PJ, 金 J, 安德森 BL.镜面反射率的感知和误知。当前生物学。2012;22(20):1909–1913.密码:22959347
查看文章PubMed/NCBI谷歌学术搜索
42.金 J, 马洛 PJ, 安德森 BL.光泽的阴暗面。自然神经科学。2012;15(11):1590–1595.密码:23001059
查看文章PubMed/NCBI谷歌学术搜索
43.Nishio A,Goda N,Komatsu H.猴下颞叶皮层中光泽的神经选择性和表示。神经科学杂志。2012;32(31):10780–10793.pmid:22855825
查看文章PubMed/NCBI谷歌学术搜索
44.Sun HC, Di Luca M, Fleming R, Muryy A, Ban H, Welchman A. 使用2D和3D深度线索对光泽信息的大脑处理。视觉杂志。2015;15(12):818–818.
查看文章谷歌学术搜索
45.Toscani M, Valsecchi M, Gegenfurtner KR. 哑光和光泽复杂形状的亮度感知。视觉研究。2017;131:82–95.pmid:28025053
查看文章PubMed/NCBI谷歌学术搜索
46.Miyakawa N,Banno T,Abe H,Tani T,Suzuki W,Ichinohe N.普通狨猴腹上颞沟区域中光泽材料表面的表示。神经回路前沿。2017;11:17.密码:28367117
查看文章PubMed/NCBI谷歌学术搜索
47.Tsuda H, Saiki J. 真实世界照明下光泽度的视觉工作记忆的恒定性.视觉杂志。2018;18(8):14–14.pmid:30167672
查看文章PubMed/NCBI谷歌学术搜索
48.Sawayama M,Nishida S.基于两种强度梯度信息的材料和形状感知。公共科学图书馆计算生物学。2018;14(4):e1006061.密码:29702644
查看文章PubMed/NCBI谷歌学术搜索
49.哈维,史密森何。低级视觉特征支持在判断金属量时强大的材料感知。科学报告。2021;11(1):1–15.密码:34385496
查看文章PubMed/NCBI谷歌学术搜索
50.小芝士曼,费韦达,梅尔FJ,弗莱明RW。感知光泽的缩放和可辨别性。美国光学学会杂志 A. 2021;38(2):203–210.pmid:33690530
查看文章PubMed/NCBI谷歌学术搜索
51.Schmid AC,Barla P,Doerschner K.从镜面反射图像结构计算的视觉对象的材料类别。生物Rxiv。2021;第 2019–12 页。
查看文章谷歌学术搜索
52.佩拉西尼F,费韦达JA,格林伯格DP。面向基于心理物理的图像合成光反射模型。在:第27届计算机图形学和交互技术年会论文集。SIGGRAPH'00.美国:ACM出版社/艾迪生-韦斯利出版公司;2000.第55–64页。可用: https://doi.org/10.1145/344779.344812.
53.何永兴、兰迪、马洛尼·照明方向如何影响视觉感知的表面粗糙度。视觉杂志。2006;6(5):8–8.密码:16881794
查看文章PubMed/NCBI谷歌学术搜索
54.Pont SC,Koenderink JJ.形状,表面粗糙度和人类感知。在:纹理分析手册。世界科学;2008.第197–222页。
查看文章谷歌学术搜索
55.Kawabe T, Maruya K, Fleming RW, Nishida S. 从视觉运动中看到液体。视觉研究。2015;109:125–138.密码:25102388
查看文章PubMed/NCBI谷歌学术搜索
56.保伦VC,川边T,西田S,弗莱明RW。从静态快照中查看液体。视觉研究。2015;115:163–174.密码:25676882
查看文章PubMed/NCBI谷歌学术搜索
57.范阿森JJR,巴拉P,弗莱明RW。液体感知中的视觉特征。当前生物学。2018;28(3):452–458.密码:29395924
查看文章PubMed/NCBI谷歌学术搜索
58.范阿森JJR,西田S,弗莱明RW。液体的视觉感知:来自深度神经网络的见解。公共科学图书馆计算生物学。2020;16(8):e1008018.密码:32813688
查看文章PubMed/NCBI谷歌学术搜索
59.保伦VC,施密特F,范阿森JJR,弗莱明RW。弹性物体刚度的形状、运动和光学提示。视觉杂志。2017;17(1):20–20.密码:28114494
查看文章PubMed/NCBI谷歌学术搜索
60.施密特F,保伦VC,范阿森JJR,弗莱明RW。从光学、形状和运动线索推断不熟悉物体的刚度。视觉杂志。2017;17(3):18–18.密码:28355630
查看文章PubMed/NCBI谷歌学术搜索
61.Schmid AC,Doerschner K. 破碎和飞溅:机械和光学性能对软断裂和硬断裂材料感知的贡献。视觉杂志。2018;18(1):14–14.pmid:29362807
查看文章PubMed/NCBI谷歌学术搜索
62.Alley LM, Schmid AC, Doerschner K. 期望会影响对材料特性的感知。视觉杂志。2020;20(12):1–1.pmid:33137175
查看文章PubMed/NCBI谷歌学术搜索
63.毕文, 金平, 年堡H, 肖B. 操纵动态变形的图案会引发具有不同刚度的布料的印象。视觉杂志。2019;19(5):18–18.密码:31112239
查看文章PubMed/NCBI谷歌学术搜索
64.Sawayama M, Adelson EH, Nishida S. 基于图像颜色统计的视觉湿度感知。视觉杂志。2017;17(5):7–7.密码:28505665
查看文章PubMed/NCBI谷歌学术搜索
65.Fleming RW, J?kel F, Maloney LT. 厚透明材料的视觉感知。心理科学。2011;22(6):812–820.密码:21597102
查看文章PubMed/NCBI谷歌学术搜索
66.Kawabe T, Maruya K, Nishida S. 图像变形的感知透明度。美国国家科学院院刊.2015;112(33):E4620–E4627.密码:26240313
查看文章PubMed/NCBI谷歌学术搜索
67.Motoyoshi I.突出显示阴影关系作为半透明和透明材料感知的线索。视觉杂志。2010;10(9):(6):1–11.密码:20884604
查看文章PubMed/NCBI谷歌学术搜索
68.Nagai T,Ono Y,Tani Y,Koida K,Kitazaki M,Nakauchi S.有助于感知半透明的图像区域:心理物理反向相关研究。i-感知。2013;4(6):407–428.密码:24349699
查看文章PubMed/NCBI谷歌学术搜索
69.肖 B, 赵 S, Gkioulekas I, Bi W, Bala K. 几何清晰度对半透明材料感知的影响.视觉杂志。2020;20(7):(10):1–17.密码:32663255
查看文章PubMed/NCBI谷歌学术搜索
70.Todo H, Yatagawa T, Sawayama M, Dobashi Y, Kakimoto M. 基于图像的半透明性转移通过多尺度空间颜色分布的相关分析。可视计算机。2019;35(6):811–822.
查看文章谷歌学术搜索
71.查德威克AC,考克斯G,史密森HE,肯特里奇RW。超越散射和吸收:半透明液体的感知解混。视觉杂志。2018;18(11):18–18.密码:30372728
查看文章PubMed/NCBI谷歌学术搜索
72.Chadwick A,Heywood C,Smithson H,Kentridge R.半透明感知不依赖于对处理颜色或纹理至关重要的皮质区域。神经心理学。2019;128:209–214.密码:29154901
查看文章PubMed/NCBI谷歌学术搜索
73.Bengio Y,Courville A,Vincent P.表征学习:回顾和新视角。IEEE Transactions on Pattern Analysis and Machine Intelligence.2013;35(8):1798–1828.pmid:23787338
查看文章PubMed/NCBI谷歌学术搜索
74.Kriegeskorte N. Deep neural Networks:用于模拟生物视觉和大脑信息处理的新框架。比奥克西夫。2015;第029876页。密码:28532370
查看文章PubMed/NCBI谷歌学术搜索
75.奥图尔AJ,卡斯蒂略CD。人类和机器的人脸识别:深度学习的三个基本进步。视觉科学年度回顾。2021;7:543–570.密码:34348035
查看文章PubMed/NCBI谷歌学术搜索
76.范祖伦 MJ, 林 H, 巴拉 K, 庞特 SC, 维恩特耶斯 MW.绘画材料(MIP):感知,艺术史和计算机视觉的跨学科数据集。公共图书馆一号。2021;16(8):e0255109.pmid:34437544
查看文章PubMed/NCBI谷歌学术搜索
77.普罗科特·柯,田村·光泽感知:寻找一个表现得像人类的深度神经网络。视觉杂志。2021;21(12):14–14.pmid:34817568
查看文章PubMed/NCBI谷歌学术搜索
78.田村 H, 普罗科特 KE, 弗莱明 RW.区分镜子和玻璃:材料感知的“大数据”方法。视觉杂志。2022;22(4):4–4.密码:35266961
查看文章PubMed/NCBI谷歌学术搜索
79.Gulrajani I, Kumar K, Ahmed F, Taiga AA, Visin F, Vazquez D, et al. Pixelvae: 自然图像的潜在变量模型。arXiv预印本arXiv:161105013。2016;.
80.斯托尔斯 KR, 安德森 BL, 弗莱明 RW.无监督学习预测人类对光泽的感知和误解。自然人类行为。2021;5(10):1402–1417.密码:33958744
查看文章PubMed/NCBI谷歌学术搜索
81.Testolin A, Stoianov I, Zorzi M. 字母感知源于无监督的深度学习和自然图像特征的回收。自然人类行为。2017;1(9):657–664.密码:31024135
查看文章PubMed/NCBI谷歌学术搜索
82.苏乔JW,彼得森JC,格里菲斯TL。学习人脸空间进行人类身份实验。arXiv预印本arXiv:180507653。2018;.
83.Storrs KR, Kietzmann TC, Walther A, Mehrer J, Kriegeskorte N. 不同的深度神经网络在训练和拟合后都能很好地预测人类下颞叶皮层。认知神经科学杂志。2021;33(10):2044–2064.密码:34272948
查看文章PubMed/NCBI谷歌学术搜索
84.笠原S,家永N,清水K,高田K,杉本M.人类潜在指标:感知和认知反应对应于GAN潜在空间中的距离。2022;.
查看文章谷歌学术搜索
85.庄春, 严 S, 纳耶比 A, 施里普夫 M, 弗兰克 MC, 迪卡洛 JJ, 等.腹侧视觉流的无监督神经网络模型。美国国家科学院院刊.2021;118(3):e2014196118.密码:33431673
查看文章PubMed/NCBI谷歌学术搜索
86.希金斯一世, 常 L, 兰斯顿五世, 哈萨比斯 D, 萨默菲尔德 C, 曹 D, 等.无监督深度学习可识别单个下颞面贴片神经元中的语义解缠。自然通讯.2021;12(1):1–14.密码:34753913
查看文章PubMed/NCBI谷歌学术搜索
87.Metzger A,Toscani M.触觉材料属性的无监督学习。生活。2022;11:e64876.pmid:35195520
查看文章PubMed/NCBI谷歌学术搜索
88.卡拉斯 T, 莱恩 S, 艾拉 T.用于生成对抗网络的基于风格的生成器架构。IEEE Transactions on Pattern Analysis and Machine Intelligence.2021;43(12):4217–4228.邮编:32012000
查看文章PubMed/NCBI谷歌学术搜索
89.Karras T, Laine S, Aittala M, Hellsten J, Lehtinen J, Aila T. 分析和改进 stylegan 的图像质量.在:IEEE/CVF计算机视觉和模式识别会议论文集;2020.第8110–8119页。
90.Karras T, Aittala M, Hellsten J, Laine S, Lehtinen J, Aila T. 用有限的数据训练生成对抗网络。神经信息处理系统的进展。2020;33:12104–12114.
查看文章谷歌学术搜索
91.理查森 E, 阿拉鲁夫 Y, 帕塔什尼克 O, 尼赞 Y, 阿扎尔 Y, 夏皮罗 S, 等.样式编码:用于图像到图像转换的样式编码器。在:IEEE/CVF计算机视觉和模式识别会议论文集;2021.第2287–2296页。
92.Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. 生成对抗网.神经信息处理系统的进展。2014;27.
查看文章谷歌学术搜索
93.Radford A, Metz L, Chintala S. 使用深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:151106434。2015;.
94.语义层次出现在场景合成的深层生成表示中。国际计算机视觉杂志。2021;129(5):1451–1466.
查看文章谷歌学术搜索
95.沈毅, 杨 C, 唐 X, 周 B. InterFaceGAN: 解释 GAN 学习的解开人脸表示.IEEE Transactions on Pattern Analysis and Machine Intelligence.2020.
查看文章谷歌学术搜索
96.Abdal R, Qin Y, Wonka P. Image2StyleGAN: 如何将图像嵌入到StyleGAN潜在空间中?在:IEEE/CVF计算机视觉国际会议论文集。IEEE;2019.第4432–4441页。
97.Wu Z, Lischinski D, Shechtman E. StyleSpace analysis: Disntangled controls for StyleGAN image generation.在:IEEE/CVF计算机视觉和模式识别会议论文集;2021.第12863–12872页。
98.Tov O, Alaluf Y, Nitzan Y, Patashnik O, Cohen-Or D. 设计用于 StyleGAN 图像处理的编码器。ACM 图形事务 (TOG)。2021;40(4):1–14.
查看文章谷歌学术搜索
99.Zhou S, Gordon M, Krishna R, Narcomey A, Fei-Fei LF, Bernstein M. Hype:生成模型的人眼感知评估基准。神经信息处理系统的进展。2019;32.
查看文章谷歌学术搜索
100.克鲁施克 JK.拒绝或接受贝叶斯估计中的参数值。心理科学方法与实践进展.2018;1(2):270–280.
查看文章谷歌学术搜索
101.Abdal R, Zhu P, Mitra NJ, Wonka P. Labels4Free: Unsupervised segmentation using StyleGAN.在:IEEE/CVF计算机视觉国际会议论文集;2021.第13970–13979页。
102.巴洛HB等.感官信息转换的可能原理。感官交流。1961;1(01).
查看文章谷歌学术搜索
103.奥尔斯豪森 BA,现场 DJ。通过学习自然图像的稀疏代码出现简单细胞感受野特性。自然界。1996;381(6583):607–609.pmid:8637596
查看文章PubMed/NCBI谷歌学术搜索
104.Simoncelli EP,Olshausen B.自然图像统计和神经表示。神经科学年度评论。2001;24(1):1193–1216.pmid:11520932
查看文章PubMed/NCBI谷歌学术搜索
105.史密斯EC,Lewicki MS.高效的听觉编码。自然界。2006;439(7079):978–982.密码:16495999
查看文章PubMed/NCBI谷歌学术搜索
106.Hyv?rinen A, Oja E. 独立成分分析:算法和应用。神经网络。2000;13(4-5):411–430.密码:10946390
查看文章PubMed/NCBI谷歌学术搜索
107.Wijntjes M, Spoiala C, De Ridder H. Thurstonian缩放和绘画半透明感的感知。艺术与感知。2020;8(3-4):363–386.
查看文章谷歌学术搜索
108.Giesel M,Zaidi Q.基于频率的材料感知启发式方法。视觉杂志。2013;13(14):7–7.密码:24317425
查看文章PubMed/NCBI谷歌学术搜索
109.Sawayama M, Kimura E. 纹理上的污渍:对纹理背景上边缘模糊的黑点的感知。视觉研究。2015;109:209–220.密码:25542275
查看文章PubMed/NCBI谷歌学术搜索
110.Cheeseman JR,Fleming RW,Schmidt F.材料识别中的尺度歧义。科学。2022;25(3):103970.密码:35281732
查看文章PubMed/NCBI谷歌学术搜索
111.吉乌莱卡斯一世, 沃尔特 B, 阿德尔森 EH, 巴拉 K, 齐克勒 T.关于半透明边缘的外观。在:IEEE计算机视觉和模式识别会议论文集;2015.第5528–5536页。
112.Gigilashvili D, Dubouchet L, Hardeberg JY, Pedersen M. 焦散和半透明感知。电子成像。2020;2020(5):33–1.
查看文章谷歌学术搜索
113.熟悉物体的颜色外观:物体形状、纹理和照明变化的影响。视觉杂志。2008;8(5):13–13.密码:18842084
查看文章PubMed/NCBI谷歌学术搜索
114.尤内西·颜色在识别材料变化中的作用。眼科和生理光学。2010;30(5):626–631.密码:20883347
查看文章PubMed/NCBI谷歌学术搜索
115.用于对象识别的颜色:卷积神经网络深层特征中的色相和色度灵敏度。视觉研究。2021;182:89–100.pmid:33611127
查看文章PubMed/NCBI谷歌学术搜索
116.康威·颞下皮层的组织和运作。视觉科学年度回顾。2018;4:381.pmid:30059648
查看文章PubMed/NCBI谷歌学术搜索
117.Glorot X, Bordes A, Bengio Y. Deep 稀疏整流器神经网络.在:第十四届人工智能与统计国际会议论文集。JMLR讲习班和会议记录;2011.第315–323页。
118.勒昆 Y, 本吉奥 Y, 等.用于图像、语音和时间序列的卷积网络。大脑理论和神经网络手册。1995;3361(10):1995.
查看文章谷歌学术搜索
119.Goodfellow I, Bengio Y, Courville A. 深度学习.麻省理工学院出版社;2016.
120.Geirhos R, Temme CR, Rauber J, Schütt HH, Bethge M, Wichmann FA. 人类和深度神经网络的泛化。神经信息处理系统的进展。2018;31.
查看文章谷歌学术搜索
121.Jahanian A, Puig X, Tian Y, Isola P. 生成模型作为多视图表示学习的数据源。arXiv预印本arXiv:210605258。2021;.
122.Lin TY, Dollár P, Girshick R, He K, Hariharan B, Belongie S. 用于对象检测的特征金字塔网络。在:IEEE计算机视觉和模式识别会议论文集;2017.第2117–2125页。
123.皮尔斯·PsychoPy——Python 中的心理物理学软件。神经科学方法杂志。2007;162(1-2):8–13.密码:17254636
查看文章PubMed/NCBI谷歌学术搜索
124.Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;12:2825–2830.
查看文章谷歌学术搜索
125.Van der Maaten L, Hinton G. 使用t-SNE可视化数据。机器学习研究杂志。2008;9(11).
查看文章谷歌学术搜索
126.伯克纳电脑。brms:使用 Stan 的贝叶斯多级模型的 R 包。统计软件学报.2017;80:1–28.
查看文章谷歌学术搜索