免费医学论文发表-使用 AIMS 表征免疫库的集成方法:自动免疫分子分离器
抽象
适应性免疫系统采用一系列受体,旨在对宿主生物体面临的病原体或分子畸变做出高特异性反应。这些受体与分子片段(统称为抗原)结合会引发免疫反应。这些抗原靶标在病原体表面的天然状态下被抗体识别,而T细胞受体(TCR)将加工过的抗原识别为短肽,呈递在主要组织相容性复合体(MHC)分子上。最近的研究导致了大量的免疫库数据,这些数据是询问这些分子相互作用性质的关键。然而,用于分析这些大型数据集的现有工具通常侧重于单一类型的分子集,迫使研究人员单独分析相互作用分子的强耦合序列。在这里,我们介绍了一个用于免疫库数据综合分析的软件包,能够识别分离的TCR,MHC,肽,抗体和抗原序列数据中明显的生物物理差异。这种集成分析方法允许直接比较免疫库亚群,并为鉴定互补受体-抗原对中的关键相互作用热点提供了起点。该软件(AIMS—自动免疫分子分离器)以GUI或命令行形式作为开放访问包免费提供。
作者摘要
在过去的十年中,免疫疗法的成功加上测序成本的下降,刺激了用于对抗疾病和失调的新型T细胞受体,肽和抗体序列的鉴定近乎指数级的增长。随着研究人员免费获得这些新数据集,已经为标准化数据分析创建了大量分析工具。然而,这些工具在很大程度上是碎片化的,只能处理单一的分子物种,同样产生对复杂适应性免疫环境的碎片化解释。在本手稿中,我们概述了一种新的分析工具AIMS:自动免疫分子分离器软件的功能,该软件旨在对所有适应性免疫分子进行统一分析。AIMS使用氨基酸序列编码方法实现这种跨受体兼容性,该方法无需明确的实验结构数据即可捕获关键的生物物理特性。该软件可以扩展到非免疫分子,使AIMS成为更广泛分析蛋白质 - 蛋白质相互作用的广泛适用平台。
数字
Fig 4Fig 5Fig 6图1图2图3Fig 4Fig 5Fig 6Fig 1Fig 2Fig 3
引文: Boughter CT,Meier-Schellersheim M (2023) 使用 AIMS 表征免疫库的综合方法:自动免疫分子分离器。公共科学图书馆计算生物学19(10): e1011577. https://doi.org/10.1371/journal.pcbi.1011577
编辑 器: 安德烈亚斯·梅耶, 英国伦敦大学学院
收到: 12月 19, 2022;接受: 2023 年 10 月 6 日;发表: 10月 20, 2023
这是一篇开放获取的文章,没有任何版权,任何人都可以出于任何合法目的自由复制、分发、传输、修改、建立或以其他方式使用。该作品在知识共享CC0公有领域奉献下提供。
数据可用性: 本手稿中用于分析的所有数据和代码均可在线免费获得,没有任何限制。重新创建分析所需的所有输入 FASTA 序列和代码都可以通过 AIMS GitHub 页面找到:github.com/ctboughter/AIMS。
资金: 这项工作得到了NIH国家过敏和传染病研究所(NIAID)的校内计划的支持,通过赠款ZIA AI001076-16(C.T.B,M.M.S)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
为了控制感染和疾病,高等生物的适应性免疫系统利用一系列复杂的受体和信号通路,专门针对每个个体的免疫学挑战量身定制[1-4]。在过去的十年中,研究人员越来越多地利用这些受体,特别是抗体和T细胞受体(TCR)来产生新的治疗方法[5-11]。通常,自然免疫反应或疗法的成功在很大程度上取决于这些受体识别和适当应对致病威胁的能力。然而,病原体的识别对免疫系统来说是一个动态挑战,因为其受体的产生取决于病原体的身份,并且病原体本身经常能够产生代偿突变,而这些突变反过来又需要适应免疫反应。
这场比赛的双方都要进行平衡;成功的病原体必须发生突变并产生变异,这些变异会降低宿主免疫系统的检测,但又能保持足够的生物适应性水平,而成功的免疫应答必须招募或产生与给定病原体具有高亲和力和特异性结合的受体,但理想情况下必须保持足够的广度以快速适应这些致病变异[12-14].这种生物来回被氨基酸序列封装,氨基酸序列决定了参与适应性免疫识别的分子参与者之间的相互作用强度。确定免疫受体的这些氨基酸序列的成本一直在迅速下降[15],从而提供了对数据集的访问,其大小呈指数级增长[16-20]。同样,目前的测序技术使我们能够跟踪病毒的进化,并在全球范围内实时识别值得关注的变体[21]。MHC呈递的肽(也称为免疫肽圆)的表征依赖于基于质谱的鉴定。虽然这种方法严重限制了每个实验的覆盖范围,但单次免疫肽测定可以产生数千种已鉴定的致病肽或自身肽[22]。随着这些序列数据库的不断扩展,分析其大型数据集的方法必须跟上步伐,帮助研究人员确定在任何给定免疫学生态位中鉴定的序列的关键区别特征。
现有的优秀软件可用于分析TCR序列[23-28]、抗体[25,29-32]和肽[33-35]。相反,病毒序列的分析在很大程度上取决于多序列比对、系统发育分析或特定病毒子领域研究人员的定制管道。虽然这些方法中的每一种都是各自领域的强大工具,但它们使得跨免疫库的比较变得困难。例如,比较肽和TCR库的软件通常会对绑定问题给出简单的二进制“是”或“否”,从而消除了决定这些相互作用的潜在生物物理背景。此外,大多数分析是为非常具体的任务而开发的,例如预测肽与特定MHC等位基因的结合或鉴定给定抗体序列的进化轨迹。给定免疫库的一般表征通常通过内部分析完成,重点是简化的数量,例如序列的净生物物理特性,以及它们的长度或保守性。
为了便于对氨基酸序列进行更彻底的分析和比较,我们开发了AIMS(自动免疫分子分离器)软件,以考虑其基本生物物理特性,以表征,区分和鉴定免疫库中的簇。虽然对于免疫库的每个不同分子类别,序列进入AIMS的初始输入和编码是不同的,但下游分析是相同的,并且允许跨受体比较和识别相互作用分子的相应趋势中的模式。AIMS在特定生物系统靶向研究中的应用已有前文报道[36-38]。在这里,我们概述了该软件在每个免疫库类别中的应用,特别关注该软件用于交叉库分析的集成分析功能。
结果
编码氨基酸序列及其生物物理特性
尽管理想的库分析将建立在实验确定或计算预测的复杂结构之上,但前一种方法本质上是低通量的,而后者是不可靠的,即使对于迄今为止最先进的结构预测软件[28,39]。 相反,AIMS软件利用免疫分子固有的结构保守性,仅选择相互作用界面中涉及的区域。这些在序列水平上高度可变的保守相互作用区域,然后使用伪结构方法以基质形式进行比对,该方法在每个分子物种的可用分析模式下变化。通过结合一般结构特征,而不是明确的接触预测,AIMS通过最大限度地减少对结构精度假设的依赖来减少分析的偏差。
在TCR-肽-MHC复合物中,相互作用界面惊人地相似,晶体结构始终在两者之间找到几乎相同的对接角[37,40-44]。TCR通过其六个互补决定区(CDR)环接触肽和MHC α螺旋,而这些环又通过茎区域连接到其保守良好的框架区域。这些与CDR环相邻的茎区域在抗原的5 ?内从未发现[26],并且很容易被高度保守的氨基酸识别,从而可以从分析中排除框架区域。在大多数结构中,假设保守的茎区域被定义为终点,CDR3环的中心4-5个残基接触肽的中心残基[26](图1A和1B)。从这些一般结构规则中,我们可以告知TCR序列编码到AIMS,将“中心”比对方案作为标准。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 用于分析TCR-肽相互作用的AIMS编码示例。
(A)特定的TCR-pMHC相互作用(PDB ID:1OGA)的渲染,TCRα以蓝色显示,TCRβ以橙色显示,MHC以白色显示。(B)插图显示了此TCR肽界面的放大,MHC现在是半透明的。具有代表性的AIMS编码单个TCR CDR3β序列(C,中心编码)或图A中的肽序列(D,凸出编码).在这些单一编码下方是完整的TCR库(C)或免疫肽多姆(D)AIMS编码矩阵的示例。结构中的每个氨基酸、单个编码序列和基质都用独特的颜色表示。
https://doi.org/10.1371/journal.pcbi.1011577.g001
在中心对齐方案中,我们将每个序列与每个CDR环路的中心残基对齐。虽然大多数分析工具按长度分离TCR序列,从而人为地分割数据,但AIMS的中心比对方案允许同时分析所有长度的受体,同时关注受体的关键区域。由于给定数据集中TCR序列的长度差异,来自CDR干区域的信号将被平均,从而优先考虑来自CDR环路中心的信号。我们可以可视化来自VDJ数据库[16]的配对TCRα和TCRβ序列的测试数据集的这种编码示例(图1C)。在这个矩阵中,我们可以看到每个氨基酸在矩阵 1 到 21 中被编码为唯一的数字,或者在图中被编码为唯一的颜色,在图中用空格表示的 CDR 环之间填充零。为了控制这种方法引入的潜在伪影,可以通过序列的“左”或“右”对齐重复分析,分别与给定序列的N端或C端对齐(S1图)。
编码肽的标准AIMS与这种中心TCR比对方案略有不同。对于I类MHC,结合肽的侧翼区域经常被“埋藏”为与MHC平台结合的高度保守的锚定残基(图1A和1B)。大多数TCR接触是与肽的中心区域进行的,在较长的肽的情况下,这些区域从MHC结合槽中凸出[45]。然而,这种范式的例外情况可能并不少见,TCR能够接触经常埋藏的肽N端残基[46]和可能从MHC口袋延伸出来的C端残基[47]。尽管如此,I类MHC呈现的肽的长度分布很窄[33],颠覆了TCR分析中存在的一些序列长度问题。因此,AIMS中的肽编码采用“凸起”方案。凸起方案将N端和C端残基与基质的任一边缘对齐,以及用户定义的附加侧翼残基数量。在这些侧翼区域之间填充零点,其余残基像TCR序列一样居中对齐,再次采用相同的数字氨基酸编码方案(图1D)。我们可以清楚地看到,对于从免疫表位数据库(IEDB)[48]中获取的HLA-A2呈现的流感肽子集,与肽序列中心的变异性相比,锚定位置2处的相对保守性。重要的是,这种凸起比对也可以应用于TCR和抗体序列,更多地关注其保守的茎区域。
AIMS能够分析具有保守结构特征和局部界面异质性的其他分子,包括抗体[36],MHC和MHC样分子[37],以及更一般地说,可以使用现有的多序列比对软件成功比对的任何分子亚群[38](S2图)).广义AIMS编码方案允许任何分子生物学家或生物信息学家利用AIMS的下游生物物理表征工具进行感兴趣的应用。所有下游库表征都遵循此初始编码,并且无论考虑的免疫库如何,都采用相同的路径(S3图)。在以下各节中,我们将概述不同的AIMS模块,将它们应用于最能证明我们执行的分析效用的数据,而不是选择对单个数据集进行连续分析。本手稿随附的支持信息中提供了对AIMS输入和输出选项的更广泛描述。
从未排序数据集中对 TCR 曲目进行无监督聚类。
为了说明降维和聚类模块在AIMS中的实现,我们从VDJdb [16]派生的配对链数据中生成了新的分析。这些序列包含有关其表位特异性、MHC 等位基因呈递以及每个受体分离的个体的单倍型(如果它是自然衍生的)的元数据。正如直觉和最近的定量工作所表明的那样[49],与单链测序相比,配对链TCR序列数据大大增加了给定库测序实验的信息内容。使用降维和聚类模块,我们可以精确地确定包含CDR3α序列后分析变化的强度(图2)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 使用成对链(左)或单链CDR3B(右)数据比较受体聚集的纯度。
使用UMAP进行降维,然后进行基于密度的光学聚类,将数据细分为生物物理上相似的配对链(A)和单链(B)受体。然后,这些簇中的前十个在其AIMS编码矩阵中重新可视化,黑线标记不同的簇(C,D)。然后通过百分比(E,F)量化每个簇的抗原特异性,颜色对应于特定肽,如密钥所示。
https://doi.org/10.1371/journal.pcbi.1011577.g002
我们首先为配对链数据集和CDR3仅β数据集生成序列编码和生物物理属性矩阵(有关属性列表,请参阅S1表)。从这个生物物理性质矩阵中,使用均匀流形近似和投影(UMAP)降维算法[50]将序列投影到三维空间上,随后使用基于密度的光学(识别聚类结构的排序点)算法[51]进行聚类(图2A和2B).重要的是要注意,为了提高清晰度,此处显示的投影删除了四个异常值序列,其中CDR3α中的脯氨酸和CDR3β,这是TCR CDR环中非常罕见的氨基酸(参见S4图与异常值的投影)。从图2A和2B的UMAP投影和光学聚类中,我们可以看到成对链数据集中不同异常值群体的数量增加,这表明识别了更多数量的生物物理不同序列。
仅将集群的一个子集可视化为编码矩阵(图2C和2D),我们看到这可能是由于配对链数据的聚类在CDR3α和CDR3β中都发现了独特的基序,这表明这些强异常值可能来自任一链。然后,可以根据每个TCR识别的抗原,将这些簇与其原始数据集标识符进行比较,分析这些簇的成员资格(图2E和2F)。重要的是,簇纯度可以相对于所选的元数据进行测量,例如抗原物种来源、呈递MHC的等位基因、生物体单倍型或几乎任何其他可编码为样品元数据的可识别特征(S5图)。
每个簇的抗原识别可视化(图2E和2F)突出了配对链和单链数据集之间的细微差异。我们看到,尽管识别出的簇数量几乎相等,但配对链数据的平均簇纯度更高,为 0.50 ± 0.28,而单链数据的平均簇纯度为 0.37 ± 0.24,尽管不是显着的。然而,我们注意到少数纯或接近纯的簇来自相同的两种抗原NLVPMVATV和LLWNGPMAV,主要是因为这些抗原分别占总数据集的43%和23%。总体而言,这些结果表明,虽然独特的CDR3α基序对于抗原识别和理解受体多样性的全部广度至关重要,但仅从CDR3β序列中仍然可以生成相当准确的序列多样性和相似性图片。
超越受体聚类和基序分析。
本节和下一节中的生物物理分析可以使用来自非结构化数据的单个序列簇进行,如上一节所述,或来自抗原性明确定义的群体(参见S6 Fig或Boughter等人[36]的例子)。为了突出生物物理特性分析的特点,我们从成对链和单链数据集中选择两个抗原纯度最高的图2簇,对NLVPMVATV和LLWNGPMAV抗原具有特异性(图3A和3B)。从这些簇子集中,我们可以了解到,尽管每个簇中具有几乎相同的抗原纯度,但配对的链簇令人惊讶地显示出增加的CDR3β多样性。虽然我们能够为这些簇中的不同基序生成序列徽标(S7A和S7B图),但AIMS分析管道允许对这些簇进行更彻底的生物物理表征。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 单个序列簇的分离以及随后对这些序列的位置敏感生物物理表征突出了AIMS分析提供的细节。
图2中确定的集群子集被隔离出来,并显示为配对链(A)和单链(B)数据集的AIMS矩阵编码。根据这些编码,我们可以计算每个簇(C,D)的位置敏感生物物理特性。带有点的不透明线表示每个聚类的平均值,而以这些线为中心的更宽的半透明区域则给出了通过自举过程(方法)计算的方差。统计上显著性的差异(p < 0.05,通过非参数置换检验计算)用星号表示,实线上的星号表示统计显著差异的扩展区域。
https://doi.org/10.1371/journal.pcbi.1011577.g003
具体来说,从这些簇的高维生物物理性质矩阵中,我们可以分离出单个属性掩码(S7C 和 S7D 图),这些掩码可以跨曲目(图 3C 和 3D)或跨库和位置(S7E 和 S7F 图)进行平均,为感兴趣的分子子集生成位置敏感或净平均生物物理特性。这些生物物理属性可视化可用于更仔细地比较和对比从配对链和单链数据集生成的聚类。从位置敏感生物物理性质平均值可以看出,CDR3β的物理性质在成对链和单链簇中是匹配的,尽管该区域的多样性存在显着差异。在两个数据集中都可以看到识别LLWNGPMAV肽的TCR中CDR3β带正电片段,而在识别NLVPMVATV肽的TCR的CDR3β中发现了相应的负电段。
鉴于肽中缺乏带电残基,这些纯团簇中的电荷守恒有些令人惊讶。相反,CDR3β链的水肿评分在成对链簇中的可变性要大得多,尽管与单链数据相比,再次遵循相同的总体趋势,水病中有两个不同的峰和一个既不缺乏也不富含疏水残基的区域。这是AIMS中序列聚类的常见特征,可能反映了所用疏水性指标的性质,或者可能暗示TCR-pMHC复合物形成的关键决定因素。虽然界面中的电荷必须巧妙排列以形成界面相互作用并抵消脱溶剂化的重要能量损失,但更多的疏水残留物可以自由有效地“填补空白”并尽可能地包装。虽然本节仅重点介绍位置敏感电荷和水肿,但61个标准AIMS属性中的任何一个都可以可视化为跨受体的位置敏感平均值,或作为位置和序列空间的净平均值。
生成库多样性和氨基酸模式的定量指标。
虽然免疫库的生物物理表征可以帮助回答有关免疫识别机制的问题,但补充分析可以帮助将这些发现置于上下文中,将生物物理特性与分子来源(例如人类,小鼠或病毒)或其他外部影响(例如选择或亲和力成熟)产生的数据模式联系起来。在AIMS中,我们可以进一步量化整个库,聚类分子子集,或使用一系列统计和信息理论方法定义抗原基团。信息论是为分析输入和输出序列而建立的[52]。在这里,这些输入和输出是构成我们免疫库的氨基酸,通过观察到的这些序列的概率分布进行量化。在电信中,输入和输出的量化决定了可以通过给定信道发送的信息,而在免疫受体的研究中,同样的量化决定了给定免疫系统可以识别的致病靶标的范围。为了说明这一点,我们从VDJdb示例切换到IEDB分离肽的两个子集:分别由HLA-A*02:01和HLA-B*15:01呈现的甲型流感和埃博拉病毒衍生肽[48]。重要的是,此分析在没有初始聚类步骤的情况下进行,并且数据集之间的直接差异按原样查询。
我们的方法利用编码信息的固有位置灵敏度为这些肽输入建立位点特异性概率分布(图4A)。从这些位置敏感概率分布中可以看出,P2和C端位置(或S8图AIMS编码中的P1和P14)的预期锚点具有最强的氨基酸偏好,正如这些位置所预期的那样[53,54]。 我们在比较这两个数据集时看到,只有P2亮氨酸(20%富集)和P2天冬酰胺(16%富集)分别显示为HLA-A*02和HLA-B*15的不同锚点,因为其他强锚点在这两个等位基因之间共享。由于C端锚的重叠有限,我们看到对含有PΩ酪氨酸和PΩ苯丙氨酸的HLA-B*15肽的强烈偏好(15%和22%富集),以及对HLA-A*02的PΩ异亮氨酸和PΩ缬氨酸锚的类似偏好(21%和20%富集)。然而,虽然传统的序列标志图可以产生类似的推论,尽管通过更间接的比较,但我们的分析将这些概率分布更进一步。首先,从位置敏感概率分布中,我们可以计算香农熵和互信息等信息论指标,以量化这些库的肽偏好之间的多样性和关系。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 甲型流感和埃博拉病毒衍生肽的统计和信息理论AIMS分析。
(A)两个肽数据集之间的位置敏感氨基酸频率差异。(B)两个肽数据集的位置敏感香农熵定量和编码覆盖率。熵的统计学显著差异(p < 0.05,通过非参数置换检验计算)用星号表示。覆盖范围适用于所有位置敏感指标,并强调位置 5 和 9 的熵和互信息的差异主要是由于覆盖范围的差异。(C)定位两个肽数据集之间的敏感互信息差异。(D)计算两个肽数据集之间的二克氨基酸频率差。在所有差异图中,较深的紫色阴影表示HLA-A*02呈现的甲型流感肽数据集的数量较高,而较深的橙色阴影表示HLA-B*15呈现的埃博拉病毒肽数据集的数量较高。每个数据集的原始分布(S9图)和统计显著区域的标识(S10图)可以在支持信息中找到。
https://doi.org/10.1371/journal.pcbi.1011577.g004
我们显示了这两个定义的肽群的位置敏感熵以及凸起编码方案产生的序列覆盖率(图4B)。我们立即看到与锚点位置(AIMS P1和P14)相对应的高覆盖区域的熵下降。此外,我们看到,即使使用来自单个病毒分支的肽,肽中心的多样性也几乎是最大的,即所有20个氨基酸以几乎相等的概率出现。鉴于T细胞中交叉反应性的必要性[55]的论点,来自单一数据集的这种巨大多样性也许不足为奇。
互信息是已知条件导致的不确定性降低的量化。在氨基酸的情况下,它量化序列不同区域中氨基酸相关性之间的关系。从甲型流感和埃博拉病毒衍生肽之间的相互信息差异来看,我们看到埃博拉病毒衍生肽的N端和C端之间信息增加的强烈趋势(图4C)。我们进一步看到,尽管只有甲型流感衍生的肽具有不同的长度分布,导致中心熵峰更宽,但这些长肽中存在明确的信号,表明肽中氨基酸使用的特定子集往往更长。通常在免疫库分析中,互信息可能代表共同进化或受体串扰的实例,正如在多反应性抗体序列分析中所讨论的那样[36]。这种信息理论分析的目标是确定增加多样性、保护或串扰的关键区域。
作为最后一步,我们可以尝试通过分析二克氨基酸概率来识别短程互信息中模式的来源。去除每个数据集中肽的位置灵敏度,我们可以使用滑动窗口计算每个肽的原始出现概率,为每个氨基酸对建立概率分布,其中出现顺序很重要(图4D)。有趣的是,尽管每个数据集的原始氨基酸出现概率存在很大差异(S8图),但二元差异通常集中在特定区域。例如,虽然缬氨酸和异亮氨酸在甲型流感数据集中更常见,但缬氨酸-异亮氨酸二元在埃博拉病毒数据集中更为常见。除了此处概述的标准分析管道外,还可以扩展分析以包括 N 元语法基序,从而有可能识别具有某些三元语法或高阶基序倾向的区域。然而,在使用这些N-gram配方时必须小心,因为扩展到极端,例如在肽数据集的9克基序分析中,将识别具有统计学意义但不是特别有意义的数据。
与现有软件的比较
虽然AIMS分析管道的开发不仅仅是为了解决TCR库分析和聚类问题,但它与现有软件(如GLIPH [26]和TCRdist [24,56])共享一些功能。这些软件包旨在鉴定富集在背景群体之上的TCR序列或聚类具有相似氨基酸基序的序列,采用不同的方法,但产生与上述AIMS聚类相当的结果。对于GLIPH,我们使用标准AIMS分析比较我们识别不同基序的能力,而与TCRdist相比,我们更定量地将TCRdist“距离”指标与TCR之间的相应AIMS距离进行比较。
作为代表性的基序比较,我们检查了Glanville等人[26]的GLIPH输出应用于HLA-A * 02:01呈递的流感抗原M1(图5)。除了对每个软件的结果进行基准测试外,我们还可以比较和对比这些结果的不同路径。AIMS和GLIPH之间的一个区别是,不需要“参考总体”作为AIMS的输入。AIMS采用已识别的M1反应序列(图5A),生成先前讨论的生物物理性质矩阵,并在这些生物物理特性的投影空间中识别生物物理上不同的簇(图5B)。与图2中通过分析广泛的输入库而产生的更多样化的簇不同,这种对四聚体分类序列的更有针对性的分析导致更均匀的聚类序列(图5C)。从这些簇中,我们可以识别每个簇的关键序列基序,并将其与GLIPH结果进行比较(图5D)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. AIMS TCR聚类分析与GLIPH结果的比较。
(A)Glanville等人[26]鉴定的流感反应性TCRs使用凸起编码编码到AIMS矩阵中。(B)然后使用标准AIMS流水线处理每个序列,然后使用UMAP投影到两个维度上,并使用DBSCAN算法进行聚类。(C) 然后将这些集群重新可视化为AIMS矩阵。(D)最后,GLIPH识别的基序可以通过图C中的聚类直接与AIMS识别的基序进行比较.基序中每个氨基酸的生物物理特性根据键着色,AIMS基序中的“X”代表“具有这种生物物理性质的任何氨基酸”,即橙色“X”可以代表S, T、G 或 A。
https://doi.org/10.1371/journal.pcbi.1011577.g005
AIMS确定了13个生物物理上不同的簇,其中三个完全概括了GLIPH的结果。我们注意到,虽然GLIPH将基序SIRS,IRS和SIR识别为不同的,但AIMS在单个簇SXRS中识别这些序列。此外,通过描述最基本的氨基酸性质来着色序列表明,许多不同的GLIPH基序是生物物理退化的。虽然GLIPH结果似乎表明精氨酸是识别高度疏水性肽GILGFVFTL的必要条件,但我们看到AIMS结果中建议精氨酸富集有所放松,而是表明需要较小的氨基酸(S,T,G,A)或非极性残基。重要的是,很明显,亲水性氨基酸具有良好的耐受性或实际上是识别所必需的,因为七个突出显示的AIMS簇中有六个在CDR3β中具有如此保守的残基。
此外,我们可以定量地将AIMS分析与TCRdist进行比较,TCRdist是一种分析软件,可根据相似性对大型TCR曲目的输入进行聚类和注释。对TCRdist管道至关重要的“距离”指标为我们的AIMS分析提供了一个有用的定量比较点。重要的是,这个距离度量基本上是基于BLOSUM62替换矩阵[57]。BLOSUM62替代矩阵隐式编码氨基酸之间的生物物理异同,而AIMS编码在单个高维矩阵中明确编码所有这些生物物理特性。因此,在使用TCRdist和AIMS计算TCR距离时,我们应该期望相似但不一定相同的结果。
使用Dash等人[24]的鼠标TCR库数据,我们首先为测序TCR的CDR3环路(图6A)或这些相同TCR的所有六个CDR环路(图6B)生成AIMS编码,目的是匹配TCRdist中的两个主要距离输出选项。接下来,我们为每个AIMS编码的矩阵生成了高维生物物理属性矩阵,如前所述对每个特征进行了归一化,并从每个矩阵中删除了高度相关的向量。虽然标准AIMS分析管道的下一步是减少这些高维矩阵,但UMAP和PCA投影并不能保持点之间的距离。因此,我们改为计算高维空间中的原始欧几里得距离,并直接将其与 TCRdist 值进行比较。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. AIMS和TCRdist中使用的距离度量的定量比较。
Dash等人[24]的仅CDR3序列(A)和全CDR序列(B)都被编码到AIMS矩阵中。然后直接比较通过TCRdist和AIMS计算的序列距离,这些仅CDR3序列(C)或TCRα链和β链的全CDR序列(D)。对于完整的序列集和由垂直虚线描绘的密切相关的序列,将报告这些距离指标之间的相关系数。
https://doi.org/10.1371/journal.pcbi.1011577.g006
从这些面板中,我们看到仅CDR3距离的相关性很强(图6C,ρα= 0.73 和 ρβ= 0.72)和完整的CDR循环计算的相关性更强(图6D,ρα= 0.83 和 ρβ= 0.75)。在这两个数据集中,我们看到,随着TCR变得越来越不同,即使TCRdist指标继续变大,AIMS距离似乎趋于平稳。这可能部分是由于在高维空间中计算距离度量时众所周知的问题[58],但在标准AIMS分析中可能不是关注点,因为集群是在投影空间(即在UMAP或PCA投影中)生成的。在TCRdist [56]的最新应用中,距离截止值20已被用于定义TCR的类似CDR3环路。 使用相同的定义,然后对所有六个CDR环路距离的距离截止为60,我们看到对于更相似的TCR,相关系数有所改善,α链的CDR3(所有CDR)相关系数为0.85(0.86),β链的相关系数为0.85(0.82)。与Mayer-Blackwell等人[56]的更广泛的抗原进行比较显示出类似的一致性(S11图)。
这些直接受TCRdist启发的新AIMSdist指标可用于更定量地评估AIMS和GLIPH之间的比较(S12图),强调AIMS能够概括这些结果,并为更具生物物理差异的序列簇提供更多见解。因此,在高维生物物理空间中寻找与GLIPH和TCRdist相同的不同曲目集群时,AIMS不仅提供了这些集群的识别,而且还提供了这些集群内的生物物理相似性;有效地解释了为什么序列被分组到相同的集群中。此外,可以在比基元尺度更深的级别上对集群甚至单独的数据集进行比较。在强调AIMS的功能和独特优势时,我们着手表明TCRdist和GLIPH的先前结果可以重现,并且这些结果随后可以通过新的分析进行扩展。
讨论
免疫分子及其所保护的病原体代表了生物信息学分析方法的独特案例研究。人类中TCR,抗体和MHC分子的多态性区域集中在这些蛋白质的特定区域,特别是在其关键的分子间相互作用位点,而其余的三维结构则非常保守。这种结构保守和局部变异性似乎指向分子建模作为关键工具,但现代计算方法要么成本太高,即缓慢且效率低下,要么太不准确,无法得出有关特定氨基酸接近性的详细结论[28,39,59]。许多性能最佳的机器学习方法是“黑匣子”算法,不允许用户确定如何或为什么进行某些分类。虽然更具可解释性的结构建模方法能够在pMHC表面上近似放置TCR蛋白骨架,但即使是最好的结构预测软件也难以将受体侧链放置在抗原表面上的适当位置[28,39]。 这些侧链的正确放置,达到埃级精度,是正确推断受体与其同源抗原之间相互作用强度的关键。
AIMS是专门为免疫库分析的可解释工具而开发的,能够利用免疫分子的保守结构特征提供的信息进行独特的分析方法,同时减少因结构预测提供的分辨率不足而导致错误的可能性。AIMS分析管道的通用性允许同时表征所有适应性免疫分子,包括肽、保守病毒结构、抗体[36]、MHC分子[37]、T细胞受体以及广泛任何具有结构保守特征和局部多样性的蛋白质亚群[38].目前,标准的AIMS管道单独分析这些分子亚群中的每一个,随后允许用户比较和对比配对TCR-pMHC或抗体 - 抗原相互作用的生物物理特征。最近开发的功能和进一步正在进行的工作旨在整合管道初始化中的混合曲目分析。这些特征将提供对参与适应性免疫反应的所有分子参与者的复杂性和相互关系的见解。
在可用于分析适应性免疫分子亚群的现有软件包中,T细胞受体库分析是最成熟的领域,因此是AIMS的主要比较点。尽管没有明确开发用于T细胞受体分析,但我们发现AIMS可以重现为TCR分析开发的两个最流行的程序的结果,即GLIPH和TCRdist [24,26,56]。 GLIPH 和 TCRdist 都利用基于距离的指标来识别 TCR 曲目数据集中的独特基序。AIMS将序列分析扩展到聚类之外,量化已识别序列簇之间的生物物理差异,以确定TCR为识别单个抗原靶标而采用的各种方法。在大型实验数据集的分析中,用户可以选择使用GLIPH或TCRdist进行聚类,然后将这些序列导入AIMS进行下游分析,从而提供了从其他方法得出结论的地方扩展分析的机会。
本手稿中未讨论的一个关键AIMS方法是更具针对性的监督学习方法,该方法也可用于识别不同库数据集中的特定差异。这种监督学习方法利用基于线性判别分析 (LDA) 的分类器同时将各个序列分类到各自的类别中,并确定描绘不同曲目的关键特征。虽然其他算法在对曲目数据进行分类方面可能表现更好,但 LDA 的优势在于其可解释性。与其他机器学习方法不同,区分不同曲目最重要的向量及其相关的线性权重作为输出包含在内。有关线性判别分析的更多详细信息,请参见扩展方法。在这种有针对性的监督方法中,用户可以立即识别其数据集之间关键的位置敏感差异。
AIMS从根本上说是围绕生物物理上不同的分子亚群的识别而建立的。独立于所用实验方法中的任何偏差,AIMS旨在找到最强烈跨越输入数据集生物物理空间的受体亚集。虽然仍然容易受到一些困扰强欠采样状态下所有分析的问题的影响,但通过关注那些生物物理上最独特的受体,而不是那些根据各种距离指标最相似的受体,我们可以确定分子识别的局限性。这可能低估了免疫反应中某些基序趋同的重要性,但它增强了我们对适应性免疫系统为解决相同的致病识别问题所采取的不同路径的理解。
必须指出的是,AIMS提供的分析工具最好既可以用作识别数据集之间差异的手段,也可以用作探索性工具。在分析的每个阶段做出的许多决策都会改变下游解释,因此鼓励用户测试不同的对齐、投影方法、聚类算法和聚类选项。虽然对齐选择不会强烈改变输入数据集的底层结构(S12 图和 S2 表),但它们可以对不同的特征产生不同的强调。此外,如 S4 图所示,包含或排除某些序列可能会扭曲用于序列聚类的投影空间。彻底的调查应包括多次迭代分析,测试单个或成对链数据如何改变输出,以及在给定AIMS运行中包含混合或单一抗原特异性如何提供新的和令人兴奋的见解。重要的是,AIMS可以通过添加具有所需附加功能的代码来轻松扩展,并构建软件中已经存在的算法。
材料和方法
本节可作为参考,用于复制用于创建本手稿中图表的分析。有关更具概念性的概述,请参阅扩展方法部分的读者。对于使用图形用户界面(GUI)或Jupyter笔记本和命令行界面(CLI)进行更高级用户的AIMS实现的更实际的讨论,我们指导读者通过GitHub下载代码[https://github.com/ctboughter/AIMS]并按照[https://aims-doc.readthedocs.io/en/latest/]中提供的演练进行操作。
AIMS编码
所有测序数据首先被处理成AIMS可读格式,一个简单的逗号分隔值文件,每列对应于每个结构特征(TCR的CDR环路,MHC的α螺旋和β链,或多序列比对的特定感兴趣区域)。然后将这些文件读入AIMS,解析出缺少残基,字符不正确或感兴趣的结构特征少于用户定义的序列。然后根据用户输入对齐序列。对于具有多个结构要素的数据集,将在每个要素上独立执行对齐。只有“中心”和“凸起”比对策略需要特别考虑,因为两者都处理与序列中心的比对。具有偶数个氨基酸的序列的“中心”被选择为序列中间点之前的氨基酸。“凸起”比对需要额外的输入,指定在中央对齐区域两侧“填充”的氨基酸总数。图4的肽分析使用焊盘长度为6(N端和C端的3 AA),而图5的焊盘长度为8(N端和C端的4 AA)。
生成生物物理性质矩阵
初始AIMS编码用作所有下游分析的模板。如果序列编码矩阵使用凸起方案,则所有结果位置敏感图形都采用相同的对齐方式。这是通过一个简单的字典完成的,其中每个氨基酸与 62 个其他值(1 个值用于位置编码可视化,61 个值用于生物物理特性)相关联,以生成 i x j x k 属性矩阵。重要的是,Z 分数归一化会转换我们字典中的每个生物物理属性,而不是给定的数据集。可以选择使用 S3 表的成对交互得分对生物物理相互作用的倾向进行评分。在本手稿的分析中,与另一个向量的相关系数高于 0.75 的向量,以及所有空向量(即对应于位置矩阵中的空格的向量)从生物物理性质矩阵中删除。生物物理性质测量(如位置敏感电荷、净疏水性等)利用完整的、未解析的矩阵,而所有投影和聚类都是在这些解析的矩阵上完成的。
降维和无监督聚类
使用主成分分析(PCA)或均匀流形近似和投影(UMAP)折叠高维生物物理性质矩阵的降维模块使用SciKit-learn[60]和UMAP [50]Python软件包。上一节中讨论的解析生物物理属性矩阵首先进行降维,对于 UMAP 和 PCA,指定参数为 n_components = 3,对于 PCA,svd_solver = full,对于 UMAP,n_neighbors = 25。这些参数是AIMS中的默认值,但用户可以更改。为了重现性,本手稿中所有投影的 UMAP 随机种子设置为 617。有关使用UMAP时的可重复性的讨论可以在AIMS和UMAP阅读文档页面中找到。所有其他参数都是SciKit-Learn的默认值。
然后将这些投影算法的输出馈送到OPTICS(用于识别聚类结构的排序点)[51]或DBSCAN(基于密度的噪声应用空间聚类)[61]算法中。对于本手稿中的所有聚类,使用默认的AIMS指定参数;光学元件的最小样本数 = 10,DBSCAN 的 eps = 0.15。所有其他参数都是SciKit-Learn的默认值。需要注意的是,这两个参数通常是AIMS应用中变化最大的参数,在不同的投影算法和输入数据集中,“正确”设置差异很大。
信息论计算
信息论是一种经典应用于跨噪声信道通信的理论,其应用用途非常广泛,在免疫学中具有进一步应用的巨大潜力[52,62-66]。 在AIMS中,我们利用了信息论中的两个强大概念,即香农熵和互信息。
香农熵,以其最简单的形式,可以用作给定输入总体中多样性的代理。这个熵,记作H,具有一般形式:
(1)
其中 p(x) 是给定事件的发生概率,X 是所有事件的集合。然后,我们可以在AIMS编码矩阵的每个位置计算此熵,其中X是所有氨基酸的集合,p(x)是在给定位置看到特定氨基酸的概率。换句话说,对于AIMS矩阵中的给定站点,我们希望确定存在多少多样性(或熵)。鉴于天然衍生序列中仅使用20个氨基酸,我们可以计算出4.32位的理论最大熵,它假设每个氨基酸以相等的概率出现在给定位置。
重要的是,从这个熵中,我们可以计算出数据集的一个同样有趣的属性,即互信息。互信息与相关性相似,但不完全相同。虽然相关性必须是线性的,但如果两个氨基酸以任何链接的方式变化,这将反映为相互信息的增加。
在AIMS中,互信息I(X;Y) 是通过从条件香农熵 H(X|Y) 在方程 2 和 3 中所示的每个给定位置:
(2)
(3)
将这些方程用语言表达出来,我们实际上是在询问一个位点的氨基酸身份知识如何改变另一个位点的熵。如果“测试位点”处的熵为零,即H(X)= 0,那么无论我们对另一个位点的氨基酸恒等性了解多少,测试点的熵变化仍将为零,因此互信息将为零。同样,如果尽管知道另一个位点的氨基酸身份,但该测试站点的熵保持不变,则互信息将再次为零。只有当给定氨基酸的知识减少了测试站点的熵时,测试站点和给定氨基酸站点之间才存在有意义的相互信息。互信息不能是负的,因此不会发生相反的情况,即在给定位点了解氨基酸身份的情况下多样性增加。
大西洋、印度洋、地中海和南海中的统计考虑因素
特别是AIMS中的位置敏感平均值对于比较来自不同来源或库子集的库至关重要,并且能够识别这些分子的不同识别模式。重要的是,这些平均值很难直接进行统计比较,因为由于组成蛋白质序列的20个氨基酸的离散性质,它们不是正态分布的。因此,绘制这些库属性的AIMS标准是引导受体平均值的正态分布,并将自举平均值和自举标准差绘制在最终图中。默认情况下,引导分布被采样 1000 次。然后使用“引导方法及其应用”中概述的双侧非参数学生化自举或双侧非参数排列测试计算AIMS中的统计学显着性[67]。
在本手稿中,双侧非参数置换检验专门用于计算统计显著性。在这里,检验统计量 z 设置为简单的均值差,我们将数据随机排列到两个箱中。然后,我们计算随机排列检验统计量大于或等于经验检验统计量的排列数。然后,p 值计算如下:
(4)
其中 z 是置换检验统计量,z 是置换检验统计量0是经验检验统计量。R 是测试排列的数量,此处为 1000,并且是排列的排列计数,其中排列检验统计量的平方大于经验检验统计量的平方。在整个手稿的图例中报告了各种 p 值截止值。
生成模拟 TCR 数据集
为了对AIMS分析的不同实现与现有软件(如GLIPH和TCRdist)之间的定量比较进行基准测试,我们创建了一个新的AIMS模块,用于生成模拟TCR数据集。这些比较的结果可以在 S2 表中找到。这些模拟数据集是通过随机选择人类V和J基因片段生成的,然后从这些选定的片段中随机删除0-2个氨基酸。从那里,用户输入确定随机添加的氨基酸的数量以及这些氨基酸的概率分布。需要注意的是,V基因和J基因选择概率、缺失概率和添加的氨基酸概率是伪随机生成的,并不意味着与生物频率相匹配。
我们的测试模拟数据集由 15,000 个总受体组成,来自三个离散的模拟数据集,其中包含 5,000 个受体,长度从 11-14 个氨基酸不等。这三个数据集以它们提取的氨基酸插入分布命名,所有三个数据集都从分布中排除了半胱氨酸和脯氨酸。“随机”数据集将插入所有其他氨基酸的概率设置为 1/18。“KRQN”数据集将带正电荷的氨基酸K和R的插入概率设置为20倍,亲水性氨基酸Q和N的插入概率增加10倍.同样,“DEHY”数据集将带负电荷的氨基酸D和E的插入概率设置为20倍,两亲性氨基酸H和Y的插入概率增加10倍。这种强烈的趋势应该使用任何聚类方法产生相对干净的分离。
来自这三个生成的数据集的 15,000 个单链序列列表用作每次分析的输入。在AIMS分析中,“标准”方法使用中心编码方案,矢量归一化和生物物理性质矩阵的熵重新加权。然后将该矩阵投影到 3 个 UMAP 维度上,并使用 DBSCAN 算法进行聚类。S2 表中的其余条目与此标准有偏差,分析名称突出显示了更改的步骤。因此,“AIMS左”利用左对齐方案,而“AIMS PCA-Kmeans”利用PCA进行数据投影,Kmeans用于聚类。TCRdist 和 AIMSdist 聚类使用分层聚类方法确定,截止值为 30 个 TCRdist 单元和 4 个 AIMSdist 单元。GLIPH 聚类由已识别的具有统计显著性的基序定义,每个基序的长度为 3 个或更多,每个基序有 10 个或更多序列,因为聚类算法在连续计算 48 小时后没有收敛。
应该指出的是,“聚类成功”的真实指标很难定量确定。因此,我们为每个分析报告一系列统计数据。例如,虽然TCRdist和AIMSdist指标的分层聚类提供了几乎100%的簇纯度,但大量的簇(AIMSdist接近400个,TCRdist超过500个)可能会使这些结果难以解析。此外,每个数据集的聚类数权重不均匀。我们注意到,虽然AIMS标准分析簇纯度似乎很低(75%),但大多数“污染物”来自随机生成的数据集,其中可能包括富含正电荷或负电荷的序列。在某种程度上,在分析特别是TCR时可能需要这种“杂质”,因为交叉反应性可能使来自不同数据集的TCR可能具有相似的生物物理特性。最后,GLIPH在几乎所有分析中表现最差,仅对28%的序列进行聚类,单个序列属于多个聚类。这可能是因为GLIPH不是用于分析模拟数据,这使得这种比较本质上是不公平的。
扩展方法
降维和无监督聚类
在分析免疫库和广泛的氨基酸序列时,对这些序列进行彻底表征需要生成由各种描述性组成的高维空间。为了系统地分析这种高维数据空间,AIMS采用了线性和非线性降维技术,在向用户应用这些技术方面具有广泛的灵活性。
通常,我们建议从线性降维、主成分分析 (PCA) 开始。PCA 是一种高度可解释的降维技术,它将数据投影到对应于数据中最高方差维度的正交向量的输入向量的线性组合上。PCA是用于分析高维数据集的强大且可解释的工具,因为已识别的主成分是矩阵的基本线性代数性质。由于PCA的线性性质,用于创建主成分的精确生物物理特性很容易从数据中推断出来。不幸的是,在免疫库分析中,最高方差的轴并不总是那些最能区分给定数据集中关键生物物理特征的轴。特别是在抗体和TCR数据中,数据中方差最大的载体通常位于CDR3环的中心。虽然这通常也意味着CDR3将是给定抗体或TCR序列中最显着的特征,但情况并非总是如此。
如果需要,用户可以转向非线性降维技术,特别是t随机邻域嵌入(t-SNE)和均匀流形近似投影(UMAP)。从根本上说,这些非线性算法试图降低维数,同时保持原始输入空间中数据点集群之间和内部的距离。用户应该通过阅读相关文献来熟悉每种算法,但此处将讨论某些关键功能。也许最重要的是,在python中实现的t-SNE和UMAP本质上都是随机算法。这意味着,如果用户想要可重现的分析,则必须注意首先指定随机算法将从中开始的特定种子。此外,作为非线性算法,结果预测不容易解释,使得识别局部数据点集群中的生物物理差异变得困难。然而,值得注意的是,AIMS中的一些下游分析工具可以帮助克服这一缺点。
将数据投影到低维空间后,用户必须定义他们选择的聚类算法。默认的 Kmeans 聚类分析在概念上是最直接的,它将数据分解为 N 个聚类,其中 N 由用户定义。如果用户应该先验地期望在其数据中出现一些特定数量的聚类,则 Kmeans 聚类特别有用。在使用AIMS进行更具探索性研究时,建议使用光学或DBSCAN算法进行基于密度的聚类。这些算法不受用户定义的聚类数的偏差,而是根据数据点的局部集中度来识别聚类。每种算法都有自己的优点和缺点,因此再次鼓励用户进一步阅读这些算法以告知他们的分析。在本手稿的正文中,UMAP用于降低维度,而光学算法用于对数据进行聚类。
线性判别分析
正如正文中简要讨论的那样,线性判别分析(LDA)在Boughter等人[36]和Nandigrami等人[38]中有更详细的描述。简而言之,LDA 有两个不同的目的,即生成用于未来应用程序的分类器,以及识别区分两个明确定义的数据集的关键特征。重要的是,这两个应用程序都需要大量定义明确的数据才能对结果充满信心,并且需要可以应用于这些数据的离散数量的标签。与此处用作示例的大部分数据不同,这些数据更具异构性或由混合数据群体组成。尽管如此,我们在这里简要定义线性判别分析在AIMS中的工作原理。
LDA 在概念上类似于 PCA,因为数据被投影到通过输入向量的线性组合生成的轴上。然而,在LDA中,每个序列所属的类被添加为输入,并且识别的轴是那些既最小化类内距离又最大化类之间距离的轴。此外,与PCA不同,用户必须意识到过度拟合的可能性。为了避免这种情况,AIMS在LDA计算之前包括多个预处理步骤,包括去除生物物理性质矩阵中高度相关的载体以及用于选择关键载体子集的一系列算法。完成LDA计算后,AIMS中使用的关键输出是每个输入向量的线性权重。然后可以按量级对这些权重进行排序,以确定最能区分输入数据集的关键属性。然后可以使用标准的生物物理特性分析在AIMS中可视化这些特性。对于使用 LDA 生成可解释分类器,建议使用更高级的机器学习知识。
支持信息
AIMS中的替代数字编码对齐方案使用与图1C相同的库数据。
显示 1/16: pcbi.1011577.s001.tiff
跳到无花果共享导航
https://ndownloader.figstatic.com/files/42816033/preview/42816033/preview.jpg
1 / 16
下载
无花果分享
S1 图 AIMS中的替代数字编码对齐方案使用与图1C相同的库数据。
这些方案中的每一个都通过对齐(A)N端氨基酸,(B)C端氨基酸或(C)“凸起”编码,独立地应用于各个关键结构特征,如正文中描述的肽分析中所述。这里凸起填充设置为6,即填充N-和C-末端的3个氨基酸被分离以进行对齐,其余氨基酸被中心对齐。
https://doi.org/10.1371/journal.pcbi.1011577.s001
(蒂夫)
S2 图 AIMS中可用的输入灵活性示例,左侧是分子结构,右侧是这些结构子集的AIMS编码。
(A)所有六个CDR环的抗体编码,结构通过Borowska&Boughter等人[68]。(B)Nandigrami等人[38]中讨论的多序列比对编码。(C)MHC和MHC样编码这些相关分子的α螺旋和β链,通过PDB结构:2XPG,1ZT4。(D)流感血凝素(HA)蛋白的多序列比对编码,通过PDB结构:1RUZ。流感MSA 通过 3DFlu [69]。
https://doi.org/10.1371/journal.pcbi.1011577.s002
(蒂夫)
S3 图 标准AIMS分析管道的图形概述。
(A)高维生物物理性质矩阵的可视化表示。(B)将具有代表性的生物物理性质矩阵重构为二维。(C) B中数据的示例性降维、聚类和重新可视化。 (D) 线性判别分析工作流程的简化矩阵表示。最终汇辑表征步骤使用(E)生物物理性质分析或(F)信息理论分析此特定示例数据集。在这里和整个AIMS输出中,“序列位置”是指AIMS比对矩阵中的编码位置。面板E,F中的垂直黑线描绘了核心结构特征(此处为不同的CDR环路)。所有位置敏感图形都使用相同的AIMS编码。线条和彩色框有助于引导读者完成工作流程。
https://doi.org/10.1371/journal.pcbi.1011577.s003
(蒂夫)
S4 图 VDJdb 曲目降维和聚类分析,包括含脯氨酸的异常值序列。
显示的是配对链 (A) 和单链 (B) 数据的三维聚类结果,以及配对链 (C) 和单链 (D) 数据的这些相同图形的二维投影。这些异常值的CDR3β氨基酸序列在图的中心突出显示。两个序列都被确认为配对链和单链数据中的异常值。
https://doi.org/10.1371/journal.pcbi.1011577.s004
(蒂夫)
S5 图 比较成对链(左列)和单链(右列)聚类结果时,VDJ 数据库中元数据数组的聚类纯度量化。
每个簇成员的抗原种类来源,簇纯度为0.52±0.26(配对,A)和0.39±0.24(单个,B)。呈现每个簇成员的每个测试表位的MHC,簇纯度为0.68±0.35(配对,C)和0.646±0.37(单个,D)。每个簇成员的生物体单倍型,簇纯度为0.46±0.26(配对,E)和0.38±0.22(单个,F)。图例对于面板 A、B、C 和 D 是全面的,但仅显示面板 E、F 的组子集。
https://doi.org/10.1371/journal.pcbi.1011577.s005
(蒂夫)
S6 图 生物物理和信息理论分析,如图3和图4所示,用于Glanville等人使用的对流感或EBV肽反应的已确定抗原序列[26]。
(A)使用中心比对方案,通过抗原反应性分离初始AIMS编码。(B)应用于(A)中的数据的生物物理性质掩码的示例,此处具体显示了每个序列的位置和序列敏感归一化电荷。(C)每种抗原特异性的净生物物理特性,即所有位置和所有序列的平均值。(D)对于每种抗原特异性,位置敏感电荷和水肿,即在面板B的y轴上取平均值。信息论分析总结了抗原特异性库的表征,具有位置敏感熵(E)和互信息差(F)。使用非参数排列检验(方法)计算图C,D和E的两个群体之间差异的统计学显着性。面板 C、D 和 E 中的平均值和标准偏差使用自举程序(方法)计算,面板 D 和 E 中的标准偏差表示为围绕实线平均值的阴影区域。ns—不显著,*—p < 0.05,上面有 * 的实心条 — p < 0.05 的连续区域。
https://doi.org/10.1371/journal.pcbi.1011577.s006
(蒂夫)
S7 图 与图3并行对成对链(左列)和单链(右列)选定簇进行详细的生物物理分析。
(一、二)图3A和图3B的选定集群的序列徽标,由WebLogo生成[70]。(中、丁)每个序列簇的电荷(顶部)和水肿(底部)的生物物理性质掩码。图3C和3D的位置敏感生物物理性质掩码是通过在这些图的y轴上求平均值生成的。(东、女)每组序列的61个可用AIMS特性中的4个的净平均生物物理特性,即面板C和D的x轴和y轴上的平均值。使用非参数排列检验(方法)计算面板E和F之间差异的统计学显着性。*—p < 0.05, **—p < 0.025, ****—p < 0.01, ****—p < 0.001。
https://doi.org/10.1371/journal.pcbi.1011577.s007
(蒂夫)
S8 图 图4肽分析的相关图。
(A)使用甲型流感和埃博拉病毒衍生肽数据集的凸起比对方案进行AIMS编码。(B)HLA-A2呈递的甲型流感肽和HLA-B15埃博拉病毒肽的位置无关氨基酸频率。使用非参数排列检验(方法)计算图B的这两个群体之间差异的统计学意义。*—p < 0.05。
https://doi.org/10.1371/journal.pcbi.1011577.s008
(蒂夫)
S9 图 图4中突出显示的种群差异的原始分布。
(A)甲型流感和(B)埃博拉病毒衍生肽的位置敏感氨基酸概率分布。计算(C)甲型流感和(D)埃博拉病毒衍生肽的每个编码序列位置之间的位置敏感互信息。(E)甲型流感和(F)埃博拉病毒衍生肽的氨基酸二元频率。
https://doi.org/10.1371/journal.pcbi.1011577.s009
(蒂夫)
S10 图 图4肽分析的统计学意义相关图。
氨基酸频率差(A)、香农平均熵差(B)、互信息差(C)和二元频差(D)具有统计学意义。使用非参数排列检验(方法)计算这两个总体之间差异的统计显着性。对于所有测试,使用p < 0.05 的阈值,用面板 B 中的红色实线或面板 A、C 和 D 矩阵中存在填充(黑色)正方形表示。
https://doi.org/10.1371/journal.pcbi.1011577.s010
(蒂夫)
S11 图 AIMS和TCRdist中使用的距离度量的定量比较。
这里仅通过TCRdist和AIMS计算的Mayer-Blackwell等人[56]的全CDR序列之间的序列距离直接比较TCRα链和β链。对于整组序列和密切相关的序列,报告这些距离指标之间的相关系数,这些序列由 60 个单位的 TCRdist 垂直虚线描绘。TCR 是从人 T 细胞中分离出来的,以响应图(A-F) 上方列出的每种抗原或 TCR 的完整数据集 (G)。
https://doi.org/10.1371/journal.pcbi.1011577.s011
(蒂夫)
S12 图 AIMS和GLIPH在同一数据集上的聚类性能的定量比较。
AIMS簇(A)由Glanville等人的精选甲型流感反应序列生成,补充表1[26]受UMAP投影和DBSCAN聚类(eps = 0.15)生物物理性质矩阵的影响。而GLIPH簇(B)直接取自Glanville等人补充表7[26]。计算AIMS聚类(C)或GLIPH聚类(D)中序列之间的AIMS距离显示出最相似序列的高度相似的模式,这表明这两种方法都能够识别高纯度的簇,尽管AIMS的分辨率更高。与先前确定的特异性组相比,AIMS还鉴定了高度生物物理上不同但自我相似的簇(序列50-150)。
https://doi.org/10.1371/journal.pcbi.1011577.s012
(蒂夫)
S13 图 使用Glanville等人数据集中的所有TCR比较不同对齐策略对AIMS距离的影响[26]。
我们看到,对于类似的TCR,大部分距离都保留了下来,但是在较高距离下,为了比较凸起和中心对齐(左)以及左对齐和中心对齐(右)之间的比较,计算的度量存在一些差异。
https://doi.org/10.1371/journal.pcbi.1011577.s013
(蒂夫)
S1 表。 本研究使用的所有生物物理特性的列表。
对于热点检测变量 (HS),使用简化形式的描述。对于更深入的描述,应使用原始参考。
https://doi.org/10.1371/journal.pcbi.1011577.s014
(中新社)
S2 表。 使用模拟数据集在不同模式的AIMS分析与TCRdist和GLIPH软件之间进行TCR序列聚类准确性的定量比较。
模拟数据集的详细信息和比较的详细信息可以在方法中找到。虽然“纯度”可能被认为是成功聚类的有用指标,但不同的方法会产生不同类型的聚集受体,因此不太可能存在“最佳”方法。
https://doi.org/10.1371/journal.pcbi.1011577.s015
(中新社)
S3 表。 用于成对氨基酸相互作用的AIMS评分的第二版表格。
该表试图在生物化学入门课程的水平上概括氨基酸之间的相互作用。
https://doi.org/10.1371/journal.pcbi.1011577.s016
(中新社)
确认
我们感谢David Margulies,Caitlin Castro,Ryan Duncombe和Augusta Broughton的深刻评论和讨论。
引用
1.卓别林DD.免疫反应概述。过敏与临床免疫学杂志。2010;125(2):S3–S23。密码:20176265
查看文章PubMed/NCBI谷歌学术搜索
2.詹金斯 MK, 朱华熙, 麦克拉克伦 JB, 穆恩 JJ.关于肽-主要组织相容性复合体特异性T细胞免疫前库的组成。免疫学年度回顾。2010;28(1):275–294.密码:20307209
查看文章PubMed/NCBI谷歌学术搜索
3.邦特 A, 霍克 M, 塔玛拉 S, 格拉夫 Bd, 彭 W, 舒尔特 D, 等.人血浆 IgG1 库简单、独特且动态。细胞系统。2021;12(12):1131–1143.e5.密码:34613904
查看文章PubMed/NCBI谷歌学术搜索
4.Pogorelyy MV, Minervina AA, Touzel MP, Sycheva AL, Komech EA, Kovalenko EI, et al.对疫苗反应性T细胞克隆的精确跟踪揭示了同卵双胞胎的趋同和个性化反应。美国国家科学院院刊.2018;115(50):12704–12709.密码:30459272
查看文章PubMed/NCBI谷歌学术搜索
5.夏尔马 P, 艾莉森太平绅士.癌症治疗中的免疫检查点靶向:走向具有治疗潜力的组合策略。细胞。2015. pmid:25860605
查看文章PubMed/NCBI谷歌学术搜索
6.Holland CJ, Crean RM, Pentier JM, de Wet B, Lloyd A, Srikannathasan V, et al.双特异性T细胞受体和靶向肽-HLA的抗体的特异性。临床研究杂志。2020;130(5):2673–2688.pmid:32310221
查看文章PubMed/NCBI谷歌学术搜索
7.Oates J,Hassan NJ,Jakobsen BK. 用于靶向癌症治疗的ImmTACs:为什么,什么,如何以及哪个。摩尔免疫。2015;67(2 Pt A):67–74。密码:25708206
查看文章PubMed/NCBI谷歌学术搜索
8.克罗威尔 TA, 科尔比 DJ, 皮尼亚科恩 S, 萨克达兰 C, 帕柳扎 A, 因塔桑 J, 等.VRC01广泛中和抗体在成人急性治疗HIV(RV397)中的安全性和有效性:一项2期,随机,双盲,安慰剂对照试验。柳叶刀艾滋病毒。2019. pmid:31000477
查看文章PubMed/NCBI谷歌学术搜索
9.Capsomidis A, Benthall G, Van Acker HH, Fisher J, Kramer AM, Abeln Z, et al. 嵌合抗原受体工程人 γ γ Δ T 细胞:增强细胞毒性与保留交叉呈递。分子疗法。2018. pmid:29310916
查看文章PubMed/NCBI谷歌学术搜索
10.Shemesh CS, Hsu JC, Hosseini I, Shen BQ, Rotte A, Twomey P, et al. 个性化癌症疫苗:临床前景、挑战和机遇。分子疗法。2020. pmid:33038322
查看文章PubMed/NCBI谷歌学术搜索
11.Gee MH, Han A, Lofgren SM, Beausang JF, MendozaJL, Birnbaum ME, et al. 肿瘤浸润淋巴细胞上表达的孤儿T细胞受体的抗原鉴定。细胞。2018;172(3):549–563.e16.pmid:29275860
查看文章PubMed/NCBI谷歌学术搜索
12.Radwan J, Babik W, Kaufman J, Lenz TL, Winternitz J. MHC Polymorphism的进化理解进展。趋势基因。2020;36(4):298–311.密码:32044115
查看文章PubMed/NCBI谷歌学术搜索
13.Robinson J, Guethlein LA, Cereb N, Yang SY, Norman PJ, Marsh SGE, et al.区分 10,000 个 HLA-A、-B 和 -C 等位基因序列>功能多态性与随机变异。普洛斯遗传学。2017;13(6).pmid:28650991
查看文章PubMed/NCBI谷歌学术搜索
14.安德鲁斯, 黄莹, 考尔, 李波波娃, 何伊, 保利, 等.免疫史深刻影响B细胞对流感的广泛保护性反应。科学转化医学。2015. pmid:26631631
查看文章PubMed/NCBI谷歌学术搜索
15.Schwarze K, Buchanan J, Fermont JM, Dreau H, Tilley MW, Taylor JM, et al.基因组测序的全部成本:来自英国单一中心的癌症和罕见疾病的微成本研究。医学遗传学。2020. pmid:31358947
查看文章PubMed/NCBI谷歌学术搜索
16.Bagaev DV,Vroomans RMA,Samir J,Stervbo U,Rius C,Dolton G等人。 2019年的VDJdb:数据库扩展,新的分析基础设施和T细胞受体基序纲要。核酸研究。2020;48(D1):D 1057–D1062.pmid:31588507
查看文章PubMed/NCBI谷歌学术搜索
17.Robins H. 免疫测序:免疫库深度测序的应用。免疫学的当前观点。2013. PMID:24140071
查看文章PubMed/NCBI谷歌学术搜索
18.Chaudhary N,Wesemann DR.分析免疫球蛋白库。免疫学前沿。2018. pmid:29593723
查看文章PubMed/NCBI谷歌学术搜索
19.马克斯C,迪恩CM。库数据如何改变抗体科学。生物化学杂志.2020. pmid:32409582
查看文章PubMed/NCBI谷歌学术搜索
20.阿尔梅达 T, 伊斯特伟斯 PJ, 弗拉伊尼克 MF, 太田 Y, 维里西莫 A.一种古老的、与MHC相关的、非经典的软骨鱼类I类谱系。免疫学杂志。2020.
查看文章谷歌学术搜索
21.Elbe S,Buckland-Merrett G.数据,疾病和外交:GISAID对全球健康的创新贡献。全球挑战。2017;1(1):33–46.密码:31565258
查看文章PubMed/NCBI谷歌学术搜索
22.Purcell AW,Ramarathinam SH,Ternette N.基于质谱鉴定用于免疫肽组学的MHC结合肽。自然协议。2019;14(6):1687–1707.密码:31092913
查看文章PubMed/NCBI谷歌学术搜索
23.马库Q,莫拉T,沃尔扎克AM。使用 IGoR 进行高通量免疫库分析。自然通讯.2018. pmid:29422654
查看文章PubMed/NCBI谷歌学术搜索
24.Dash P, Fiore-Gartland AJ, Hertz T, Wang GC, Sharma S, Souquette A, et al.可量化的预测特征定义了表位特异性 T 细胞受体库。自然界。2017. pmid:28636592
查看文章PubMed/NCBI谷歌学术搜索
25.Brochet X, Lefranc MP, Giudicelli V. IMGT/V-QUEST:用于IG和TR标准化V-J和V-D-J序列分析的高度定制和集成系统。核酸研究。2008. pmid:18503082
查看文章PubMed/NCBI谷歌学术搜索
26.格兰维尔 J, 黄 H, 瑙 A, 哈顿 O, 瓦加尔 LE, 鲁贝尔特 F, 等.鉴定 T 细胞受体库中的特异性组。自然界。2017;547(7661):94–98.密码:28636589
查看文章PubMed/NCBI谷歌学术搜索
27.Schattgen SA, Guion K, Crawford JC, Souquette A, Barrio AM, Stubbington MJT, et al. 通过克隆型邻域图分析 (CoNGA) 整合 T 细胞受体序列和转录谱。自然生物技术。2022;40(1):54–63.密码:34426704
查看文章PubMed/NCBI谷歌学术搜索
18米Milighetti M,Shawe-Taylor J,Chain B.从受体 - 肽 - 主要组织相容性复合物的同源模型衍生的结构特征预测T细胞受体抗原特异性。生理学前沿。2021;12.
查看文章谷歌学术搜索
29.勒弗兰克议员。免疫球蛋白:25年的免疫信息学和imgt本体论。生物分子。2014. pmid:25521638
查看文章PubMed/NCBI谷歌学术搜索
30.Weitzner BD, Jeliazkov JR, Lyskov S, Marze N, Kuroda D, Frick R, et al.抗体结构与罗塞塔的建模和对接。自然协议。2017;12(2):401–416.密码:28125104
查看文章PubMed/NCBI谷歌学术搜索
31.Bolotin DA, Poslavsky S, Mitrophanov I, Shugay M, Mamedov IZ, Putintseva EV, et al.MiXCR:用于全面自适应免疫分析的软件。自然方法。2015;12(5):380–381.密码:25924071
查看文章PubMed/NCBI谷歌学术搜索
32.帕夫洛维奇 M, 舍弗 L, 莫特瓦尼 K, 坎杜里 C, 孔波娃 R, 瓦佐夫 N, 等.用于自适应免疫受体库机器学习分析的 immuneML 生态系统。自然机器智能。2021;3(11):936–944.pmid:37396030
查看文章PubMed/NCBI谷歌学术搜索
33.Abelin JG, Harjanto D, Malloy M, Suri P, Colson T, Goulding SP, et al.使用质谱法定义HLA-II配体加工和结合规则可增强癌症表位预测。免疫。2019;51(4):766–779.e17。密码:31495665
查看文章PubMed/NCBI谷歌学术搜索
34.Reynisson B,Alvarez B,Paul S,Peters B,Nielsen M. NetMHCpan-4.1和NetMHCIIpan-4.0:通过同步基序反卷积和整合MS MHC洗脱配体数据改进了MHC抗原呈递的预测。核酸研究。2020;48(W1):W449–W454。pmid:32406916
查看文章PubMed/NCBI谷歌学术搜索
35.拉帕佐 CG, 豪氏威马 BD, 伯恩鲍姆 我.通过酵母显示对 II 类 MHC 肽结合进行库级测定可改善抗原预测。自然通讯.2020;11(1):4414.pmid:32887877
查看文章PubMed/NCBI谷歌学术搜索
36.Boughter CT, Borowska MT, Guthmiller JJ, Bendelac A, Wilson PC, Roux B, et al.通过基于生物信息学的CDR环分析揭示抗体多反应性的生化模式。电子生活。2020. pmid:33169668
查看文章PubMed/NCBI谷歌学术搜索
37.Boughter CT,Meier-Schellersheim M.高度可变的种系编码区域之间的保守生物物理相容性塑造了TCR-MHC相互作用。比奥克西夫。2022;.
查看文章谷歌学术搜索
38.Nandigrami P,Szczepaniak F,Boughter CT,Dehez F,Chipot C,Roux B.突触表面受体家族中蛋白质 - 蛋白质结合特异性的计算评估。物理化学学报 b. 2022.pmid:35787023
查看文章PubMed/NCBI谷歌学术搜索
39.埃文斯 R, 奥尼尔 M, 普里策尔 A, 安特罗波娃 N, 高级 A, 格林 T, 等.使用AlphaFold-Multimer预测蛋白质复合物。生物Rxiv。2022.
查看文章谷歌学术搜索
40.Zareie P, Szeto C, Farenc C, Gunasinghe SD, Kolawole EM, Nguyen A, et al. 典型T细胞受体对接肽-MHC对于T细胞信号传导至关重要。科学。2021;372 (6546).密码:34083463
查看文章PubMed/NCBI谷歌学术搜索
41.Adams JJ, Narayanan S, Liu BY, Birnbaum ME, Kruse AC, Bowerman NA, et al. T细胞受体信号传导受限于与肽主要组织相容性复合物的对接几何形状。免疫。2011;35(5):681–693.密码:22101157
查看文章PubMed/NCBI谷歌学术搜索
42.Yin L,Scott-Browne J,Kappler JW,Gapin L,Marrack P. T细胞及其对MHC的痴迷。免疫学评论。2012;250:49–60.密码:23046122
查看文章PubMed/NCBI谷歌学术搜索
43.格拉斯 S, 伯罗斯 SR, 特纳 SJ, 休厄尔 AK, 麦克拉斯基 J, 罗斯约翰 J.了解MHC-I限制性免疫反应的结构之旅:吸取的教训和许多要学习的东西。免疫学修订版 2012;250(1):61–81.密码:23046123
查看文章PubMed/NCBI谷歌学术搜索
44.Feng D, Bond CJ, Ely LK, Maynard J, Garcia KC. 种系编码的 T 细胞受体-主要组织相容性复合体相互作用“密码子”的结构证据。纳特免疫。2007;8(9):975–83.密码:17694060
查看文章PubMed/NCBI谷歌学术搜索
45.Tynan FE, Burrows SR, Buckle AM, Clements CS, Borg NA, Miles JJ, et al. T细胞受体识别“超凸起”的主要组织相容性复合物I类结合肽。自然免疫学。2005. pmid:16186824
查看文章PubMed/NCBI谷歌学术搜索
46.王 Y, 辛格 NK, 斯皮尔 TT, 赫尔曼 LM, 皮彭布林克 KH, 麦克马汉 RH, 等.同种异体活性T细胞受体如何实现肽和MHC特异性。美国国家科学院院刊.2017;114(24):E4792–E4801。pmid:28572406
查看文章PubMed/NCBI谷歌学术搜索
47.纪尧姆 P, 皮考德 S, 鲍姆加特纳 P, 蒙坦顿 N, 施密特 J, 斯派泽 DE, 等.天然呈现的HLA-I配体的C末端延伸景观。美国国家科学院院刊.2018;115(20):5083–5088.密码:29712860
查看文章PubMed/NCBI谷歌学术搜索
48.维塔 R, 马哈詹 S, 奥弗顿 JA, 丹达 SK, 马蒂尼 S, 坎特雷尔 JR 等.免疫表位数据库(IEDB):2018年更新。核酸研究。2019;47(D1):D 339–D343。密码:30357391
查看文章PubMed/NCBI谷歌学术搜索
49.梅耶·来自 T 细胞受体库的表位结合简并的测量。生物Rxiv。2022.
查看文章谷歌学术搜索
50.McInnes L,Healy J,Melville J. UMAP:用于降维的均匀流形近似和投影。arXiv.2020.
51.Ankerst M, Breunig MM, Peter Kriegel H, Sander J. OPTICS: Ordered to Identification the clustering structure.在: SIGMOD Rec. ACM 出版社;1999.第49–60页。
52.香农·传播的数学理论。贝尔系统技术期刊。1948.
查看文章谷歌学术搜索
53.阮阿特, 司徒 C, 格拉斯·口袋引导HLA I类分子。生化学学会学报.2021;49(5):2319–2331.pmid:34581761
查看文章PubMed/NCBI谷歌学术搜索
54.Prilliman KR, Jackson KW, Lindsey M, Wang J, Crawford D, Hildebrand WH. HLA-B15肽配体优先锚定在其C末端。免疫学杂志。1999;162:7277–7284.pmid:10358176
查看文章PubMed/NCBI谷歌学术搜索
55.休厄尔·为什么T细胞必须是交叉反应性的?自然评论免疫学。2012;12(9):668–677.密码:22918468
查看文章PubMed/NCBI谷歌学术搜索
56.Mayer-Blackwell K, Schattgen S, Cohen-Lavi L, Crawford JC, Souquette A, Gaevert JA, et al. TCR元克隆型用于使用tcrdist3发现生物标志物,能够鉴定SARS-CoV-2 TCR的公共,HLA限制性簇。2021;10:e68605。密码:34845983
查看文章PubMed/NCBI谷歌学术搜索
57.海尼科夫 S, 海尼科夫 JG.来自蛋白质块的氨基酸取代基质。美利坚合众国国家科学院院刊。1992;89(22):10915–10919.pmid:1438297
查看文章PubMed/NCBI谷歌学术搜索
58.阿加瓦尔CC,欣内堡A,凯姆达。关于高维空间中距离度量的惊人行为。在:Van den Bussche J,Vianu V,编辑。数据库理论—ICDT 2001。计算机科学讲义。柏林,海德堡:施普林格;2001.第420–434页。
59.Woo Hj,Roux B.计算机模拟中绝对蛋白质配体结合自由能的计算。美利坚合众国国家科学院院刊。2005. pmid:15867154
查看文章PubMed/NCBI谷歌学术搜索
60.Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;.
查看文章谷歌学术搜索
61.埃斯特 M, 克里格尔 HP, 桑德 J, 徐 X.一种基于密度的算法,用于发现具有噪声的大型空间数据库中的聚类。在:第二届知识发现和数据挖掘国际会议论文集。KDD'96。俄勒冈州波特兰:AAAI 出版社;1996.
62.罗曼-罗尔丹 R, 贝尔纳奥拉-加尔万 P, 奥利弗 JL.信息论在DNA序列分析中的应用:综述.模式识别。1996.
查看文章谷歌学术搜索
63.Cheong R, Rhee A, Wang CJ, Nemenman I, Levchenko A. 噪声生化信号网络的信息转导能力.科学。2011. PMID:21921160
查看文章PubMed/NCBI谷歌学术搜索
64.信息论在生物序列分析中的应用。生物信息学简报。2014. PMID:24058049
查看文章PubMed/NCBI谷歌学术搜索
65.莫拉 T, 沃尔扎克 AM, 比亚莱克 W, 卡兰 CG.抗体多样性的最大熵模型。美利坚合众国国家科学院院刊。2010. pmid:20212159
查看文章PubMed/NCBI谷歌学术搜索
66.穆如干A,莫拉T,沃尔扎克AM,卡兰CG。从序列库中统计推断T细胞受体的生成概率。美利坚合众国国家科学院院刊。2012. pmid:22988065
查看文章PubMed/NCBI谷歌学术搜索
67.戴维森AC,欣克利DV。引导方法及其应用;1997.
查看文章谷歌学术搜索
68.Borowska MT, Boughter CT, Bunker JJ, Guthmiller JJ, Wilson PC, Roux B, et al.抗体中天然多反应性的生化和生物物理表征。细胞报告。2023;密码:37804505
查看文章PubMed/NCBI谷歌学术搜索
69.Mazzocco G, Lazniewski M, Migda? P, Szczepińska T, Radomski JP, Plewczynski D. 3DFlu:人群规模上流感血凝素的序列和结构变异性数据库。数据库。2016;2016:BAW130.密码:27694207
查看文章PubMed/NCBI谷歌学术搜索
70.施耐德TD,斯蒂芬斯RM.序列徽标:显示共识序列的新方法。核酸研究。1990;18(20):6097–6100.pmid:2172928
查看文章PubMed/NCBI谷歌学术搜索