通过设计衣壳-受体相互作用,将AAV载体靶向中枢神经系统,从而能够穿越血脑屏障
抽象
病毒已经进化出通过与各种细胞大分子相互作用结合和进入细胞的能力。我们设计了肽修饰的腺相关病毒(AAV)衣壳,通过引入与小鼠血脑屏障(BBB)上表达的2种蛋白质LY6A或LY6C1的从头相互作用来转导大脑。这些衣壳的体内嗜性是可预测的,因为它们依赖于其靶蛋白的细胞和菌株特异性表达。这种方法在单轮体外筛选和体内二次验证中产生了数百个具有显着增强的中枢神经系统(CNS)嗜性的衣壳,从而与传统的多轮体内选择相比减少了动物的使用。通过该方法获得的可重复和定量数据使饱和诱变和机器学习(ML)指导的衣壳序列空间探索成为可能。值得注意的是,在我们的验证过程中,我们确定几乎所有已发表的AAV衣壳都是因其在小鼠中穿越BBB的能力而被选中的,这些衣壳利用了灵长类动物中不存在的LY6A或LY6C1蛋白。这项工作表明,AAV衣壳可以直接靶向特定蛋白质,以产生具有已知作用机制和可预测嗜性的有效基因递送载体。
数字
Fig 4Table 1Fig 1Fig 2Fig 3Fig 4Table 1Fig 1Fig 2Fig 3
引文: 黄琦, 陈阿特, 陈凯, 索伦森 H, 巴里 AJ, 阿扎里 B, 等. (2023) 通过设计衣壳-受体相互作用,将AAV载体靶向中枢神经系统,从而能够穿越血脑屏障。公共科学图书馆生物学21(7): e3002112. https://doi.org/10.1371/journal.pbio.3002112
学术编辑: 柴坦·科斯拉,斯坦福大学,美国
收到: 29月 2022, 6;接受: 2023月 19, 2023;发表: <>月 <>, <>
版权所有: ? 2023 黄等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中使用的所有代码都可以在GitHub上找到:https://github.com/vector-engineering/AAV_capsid_receptor/。重现每个图所需的所有数据均可从Zenodo开放存储库获得,DOI:10.5281 / zenodo.7689795。这些数据包括本研究中使用的文库的 RPM 和富集值。补充数据包含从Zenodo上可用的数据中得出的分析和处理值。S9 Fig中提供的一些数据可作为NIH SCGE工具包的一部分获得 https://scge.mcw.edu/toolkit/data/experiments/group/1441 所有材料均按所述从商业供应商处获得。携带单独表征的LY6A(AAV-BI28:203532;AAV-BI48: 203533;AAV-BI49:203534)或LY6C1结合衣壳(AAV-BI28:203532;AAV-BI62:203535;AAV-BI65:203536),AAV-CAG-NLS-mScarlet-2A-Luc-WPRE-pA (203539),AAV-GfABC1D-SaCas9-WPRE-pA (203540)和AAV-GfABC1D-GFP-U6-L1-U6-R2(203541)将通过Addgene在起诉的Addgene ID下提供。
资金: 这项研究的工作得到了国家神经疾病和中风研究所和美国国立卫生研究院共同基金通过体细胞基因组工程(SCGE)计划(UG3NS111689至B.E.D)的支持;斯坦利精神病学研究中心,布罗德研究所(B.E.D);Apertura基因疗法(B.E.D);由国家心理健康研究所资助的大脑倡议奖(UG3MH120096至B.E.D)。F.E.E.获得了Broad Shark Tank奖的支持,YAC获得了Broad Ignite奖的支持。BCM-Rice的工作得到了NIH SCGE拨款(U42OD026645给JDH和W.R.L)的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 我已经阅读了该期刊的政策,这篇手稿的作者有以下相互竞争的兴趣: BED是Apertura Gene Therapy的科学创始人和Tevard Biosciences的科学顾问委员会成员。BED,QH,KYC和FEE是麻省理工学院布罗德研究所和哈佛大学提交的与本研究相关的专利申请的指定发明人。其余作者声明他们没有竞争利益。
缩写: 机 管 局 氨基酸;AAV, 腺相关病毒;BBB, 血脑屏障;中枢神经系统, 中枢神经系统;法学硕士 机器学习;NGS, 二代测序;十月, 最佳切割温度;公共广播公司, 磷酸盐缓冲盐水;脉宽调制, 位置权重矩阵;.RPM 每百万读数;SVAE, 监督变分自动编码器
介绍
使用重组腺相关病毒(AAV)进行基因治疗显示出从根本遗传原因上治疗疾病的希望,但仍然受到向疾病相关器官和细胞类型递送效率低下的制约。天然AAV衣壳可以进行修饰,以产生具有显着改善体内向性的载体。一种有效的工程策略是通过肽插入生成不同的衣壳变体文库,并对这些文库进行多轮体内选择,以鉴定具有所需特性的衣壳,例如中枢神经系统(CNS)全转导[1-3]、脑血管内皮靶向[4,5]、中枢神经系统逆行转导[6], 异种移植系统中人肝细胞的转导[7]、光感受器转导[8]和肌肉转导[9,10]。然而,这些筛选工作仅限于以功能为中心的方法,其中衣壳被选择用于特定的生物分布或细胞类型向性,而不区分作用机制。所选功能背后的机制通常必须通过详细的下游研究来阐明。因此,在这些广泛的动物筛选中鉴定出的高性能衣壳可能通常依赖于跨物种不保守的作用机制[5,7,11-13]。日益复杂的人类细胞或类器官模型可能为人类相关的衣壳工程提供新的机会[14-19]。然而,如果没有明确和保存的潜在作用机制,体外选择的衣壳可能无法保留其在体内选择的功能。
一些研究小组试图通过创新以机制为中心的方法来规避这一缺点,例如,将独立表征或工程化的肽[20-22]或蛋白质(如DARPins或抗体片段)移植到AAV衣壳上[23-29]。然而,这些接枝方法不能在功能载体的背景下选择最佳亲和力,并且可能会增加制造的复杂性。因此,迄今为止,大多数AAV衣壳工程工作继续集中在体内选择上。
在2019年,我们和其他人报道了AAV-PHP。B [2] 和相关衣壳 [1-3] 可通过与小鼠品系亚群脑内皮表面的 LY6A 蛋白相互作用,利用一种新的血脑屏障 (BBB) 交叉机制[11,12]。基于这一发现,我们被鼓励开发一种新的以机制为中心的方法,该方法筛选AAV衣壳文库以寻找结合细胞蛋白的变体,这些细胞蛋白可能转化为所需的体内向性 - 在这种情况下,BBB交叉活性。作为概念验证,我们靶向了2种小鼠CNS内皮蛋白LY6A和LY6C1[11,12],并使用下拉测定来筛选能够在体外直接结合这些靶蛋白的AAV。大部分被工程改造为在体外与LY6A或LY6C1相互作用的衣壳在体内表现出BBB交叉活性,相对于AAV9增强,并且与其他报道的具有改善CNS嗜性的衣壳相当。此外,在我们的验证过程中,我们发现几乎所有已发表的AAV衣壳(24个测试中的26个)都被选择用于小鼠的BBB交叉[1-3,30,31]依赖于LY6A或LY6C1蛋白。由于这些蛋白质在灵长类动物中没有已知的同系物,因此LY6A或LY6C1靶向衣壳的增强的CNS向性不太可能从小鼠转化为灵长类动物。我们的方法所表现出的一个关键优势是,它从单轮体外筛选中产生了高度定量和可重复的数据;这使得通过饱和诱变和机器学习(ML)快速鉴定基序并生成了一组不同的附加序列,这些序列被发现在体内表现出高水平的CNS转导。与利用体内选择来鉴定具有增强的向性但未知的作用机制和跨物种不可预测的可翻译性的AAV衣壳的大量AAV工程研究相反,这项工作表明衣壳可以系统地靶向定义的细胞表面蛋白,以促进增强和可预测的体内向性。
结果
高通量纯化蛋白检测可鉴定 LY6A 或 LY6C1 选择性衣壳
为了评估以机制为中心的方法开发具有增强中枢神经系统嗜性的衣壳的潜力,我们靶向了存在于脑血管内皮细胞上的 2 种表面蛋白:LY6A,AAV-PHP 的已知受体。衣壳B家族作为阳性对照,相关蛋白LY6C1同样在CNS内皮细胞上高表达[11,32]。选择LY6C1是基于以下假设:鉴于LY6家族具有保守的蛋白质结构和亚细胞定位,它可能具有LY6A介导AAV转运到CNS的能力[33]。我们生成了 LY6A 和 LY6C1 蛋白作为 Fc 融合,并使用基于磁珠的下拉测定对 1 个独立生成的 2-mer 修饰的 AAV7 文库进行初始(第 9 轮)筛选(随机 7-mer 氨基酸序列插入 VP588 中残基 589-1 之间)——分别命名为文库 1 和文库 2——用于与 LY6A-FC 结合的变体, LY6C1-Fc,或仅 Fc 对照(库 1 数据如图 1B、1D 和 1E 所示;库 2 数据如 S1 图所示)。在文库中,每个衣壳变体都包装了自己的衣壳编码基因组,允许通过短读长的下一代测序(NGS)评估与靶标的结合。下拉测定在宽动态范围内对衣壳变体产生了可重现的结合评分,重复之间的读取深度归一化计数具有高度相关性(图1B和S2A–S2H)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 体外下拉测定产生选择性结合 LY6A 或 LY6C1 的衣壳。
(A)筛选衣壳文库以结合固定化靶Fc融合蛋白的能力。提取结合的衣壳序列并进行NGS。点击被整合到一个集中的文库中,用于体内和体外验证。(乙、丙)日志的皮尔逊相关性2标准化读取计数(RPM)显示在生物学重复(n = 3,仅显示1对)(B)和动物之间(n = 2)(C)之间。在 1 个重复或动物中检测到的变异而不是其他变异显示在边缘直方图中。(D) 变体日志2在目标(y轴)和仅Fc对照(x轴)之间绘制的富集(重复之间的平均RPM,归一化为起始库RPM)显示大多数具有非特异性结合的变体和少数具有靶标特异性结合的变异(蓝色突出显示区域)。在 1 次测定中检测到的变异而不是在另一种测定中显示在边缘直方图中。(E) 日志2(D)中以蓝色突出显示的选定变体的富集,每个重复的富集绘制在单独的行中(n = 3)。ND = 未检测到。(F, G)结合来自文库 6 和 6 的 LY1A (F) 或 LY1C2 (G) 的序列是单热编码的,与 UMAP 联合投影,并与高斯混合模型联合聚类(k = 40,S1-S6 数据)。(H, I)根据是否有明确的基序2-4个氨基酸长度匹配现有的参考序列(LY6A-结合:***PFR,***RPF,LY6C1-结合:***G[Y/F]AQ)或代表已发表研究中尚未看到的基序,手动选择来自(F,G)的每个靶标的四个簇。共识基序按位置定义,具有灵活的氨基酸残基(星号)和固定残基(存在于簇序列的40%以上;黑色字母中)。支持图 1B 和 1D 和 1E 的基础数据可在 https://doi.org/10.5281/zenodo.7689794 找到:library1.csv;图1C在 https://doi.org/10.5281/zenodo.7689794:library2_invivo.csv;图1F和1H在 https://doi.org/10.5281/zenodo.7689794:LY6A_joint_umap_l1_l2.csv;图1G和1I在 https://doi.org/10.5281/zenodo.7689794:LY6C1_joint_umap_l1_l2.csv。NGS,二代测序;RPM,每百万读数。
https://doi.org/10.1371/journal.pbio.3002112.g001
为了将下拉测定与传统体内选择进行比较,我们使用转录衣壳序列作为功能读数,筛选了转导C2BL/57J和BALB/cJ CNS(n=6只小鼠/菌株)的衣壳[2,3]。与其他体内选择实验中观察到的那样,绝大多数变异仅在4只动物中检测到(图1C以及S1I和S2J)[2,3]。相比之下,下拉测定产生了数千个独特的衣壳,这些衣壳选择性地结合预期靶标,但不能结合仅Fc对照(图9D和S1A)或其他靶标,即选择用于LY1C6结合的衣壳对于LY1A结合没有高度富集,反之亦然(图6E)。
下拉式测定丰富了多种序列基序
为了评估富集在LY6A和LY6C1结合的7-mers中序列的多样性,我们使用UMAP [1]投影了图34D中突出显示的蛋白质特异性序列,并使用高斯混合物模型(k = 1)联合聚类了文库2和文库40的序列(图1F和1G以及S3A和S3B,S1-S6数据)。LY6A 和 LY6C1 的所有集群都有来自两个库的代表(S3C 和 S3D 图)。独立文库之间的这种一致性表明,该方法可以重现检测数千个具有共同序列基序的独特衣壳序列。对LY6A-和LY6C1结合7-聚体簇的检查揭示了清晰的序列基序,通常长度为2至4个氨基酸。在这些基序中,有些与先前发表的具有CNS向性的衣壳序列相似(图1F-1I,所有簇都显示在S4图和S1-S6数据中)。例如,观察到包含与已知LY6A结合衣壳相似的序列的簇:AAV-PHP。B组A5、13、33;AAV-PHP。B2 (SVSKPFL), 集群 A14, 18, 32;和AAV-PHP。B3 (FTLTTPK),集群 A17、35(S7 数据)。
LY6A 和 LY6C1 结合的体外选择产生具有通过靶标表达预测的增强向性的衣壳
为了测试选择在体外靶向LY6A或LY6C1的衣壳是否能够实现有效的BBB交叉,我们生成了一个第2轮文库,其中包含来自LY1A和LY6C6结合的初始第1轮筛选的热门(分别为n = 6.4K和12.6K独特的7-mers)。为了将下拉测定方法与传统体内选择进行比较,我们纳入了在第 7 轮筛选后回收的所有独特的 1-mer 序列,这些序列在 C57BL/6J 或 BALB/cJ 小鼠 (n = 5.8K) 的 CNS 中表达(图 2A;在第 2 轮体内筛选中仅使用了文库 1)以及一组来自先前体内 CNS 转导的体内选择的已发表的参考衣壳 [1-3,30,31]。参考文献包括AAV-PHP的成员。已知利用LY6A受体穿越BBB的B家族[11,35](S8数据)。文库中的每个7-mer氨基酸(AA)序列由2个核苷酸序列编码,作为生物学重复。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. LY2A-和LY6C6结合变异的第1轮验证鉴定了数千个具有CNS转导活性的衣壳。
(A) 第 2 轮文库由第 1 轮检测中精选的顶级变体组成,用于 LY6A 结合、LY6C1 结合、体内 CNS 转导和已发表的参考序列。第 2 轮图书馆与第 1 轮一样进行了筛选。(B)分布显示了下拉测定中的第2轮文库性能以及BALB / cJ和C57BL / 6J小鼠的CNS转导,按每个变体的第1轮选择源分组和着色。红线表示为 (C) 中应用的筛选器设置的阈值。(C)第2轮的命中率确定如下:来自第1轮筛选的靶标结合衣壳首先在第2轮筛选中过滤其各自的靶标结合活性(LY6A:log2富集 > 0,LY6C1:日志2富集>-2)。然后在第 2 轮体内 CNS 转导中过滤变体(日志2富集>在任一小鼠品系中均为4,并在该品系内的至少2只动物中检测到)。(四)体内日志2过滤高体内日志的第 57 轮文库变体的 C6BL/2J 和 BALB/cJ 小鼠的富集评分2(C) 中的丰富分数。每个菌株的个体动物(M *,F *)的分数与动物的平均值(所有)一起显示。变体按其第 1 轮选择源分组和着色,并根据 C57BL/6J 和 BALB/cJ 转导的综合分数进行排名排序。(E)来自(C)的过滤变体按其第1轮选择源分组和着色,并针对每个小鼠品系单独排序。参考控件和 AAV9 标有十字。在第 1 轮下拉测定和体内筛选中鉴定的变体显示为填充点。(F)显示了具有CNS嗜性的参考衣壳的靶结合和C57BL / 6J CNS生物分布或转导表型。每个衣壳由至少两个7-mer AA重复表示(每列表示一个单独的重复)。支持图2A的基础数据可以在 https://doi.org/10.5281/zenodo.7689794 找到:round2_codons_separate.csv;图2B–E在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv;图2F在 https://doi.org/10.5281/zenodo.7689794:SVAE_SM_library_references_only.csv。AA,氨基酸;AAV,腺相关病毒;中枢神经系统,中枢神经系统。
https://doi.org/10.1371/journal.pbio.3002112.g002
第2轮文库与第1轮一样在体外和体内进行筛选(图2A)。第 2 轮数据显示体外和体内重复(S5 图)以及所有测定的 7 mer AA 重复(S6 图)之间的高度一致性。在第 1 轮下拉测定中鉴定的大多数序列通过与第 2 轮文库筛选中的预期靶标选择性结合来验证(图 2B)。当评估它们在C57BL / 6J或BALB / cJ小鼠的CNS中转导细胞的能力时,通过下拉测定鉴定的数百个衣壳序列高度富集(log2浓缩>4;图2B和2C)。相比之下,在第1轮体内筛选中鉴定出的序列在第2轮筛选中富集的序列要少得多(图2B和2C)。正如之前在AAV-PHP上观察到的那样。B家族,LY6A结合衣壳在C57BL / 6J小鼠的大脑中高度富集体内转导,但不是BALB / cJ小鼠(图2C和2D)。相比之下,许多LY6C1结合衣壳在两种小鼠品系中都高度富集。这些发现与每种小鼠品系中靶蛋白的水平一致[11]。
我们在第 1 轮中根据衣壳在第 57 轮中在 C6BL/2J 或 BALB/cJ 小鼠的中枢神经系统中的富集情况对衣壳进行了排名(图 2D)。该排名包括先前表征的参考衣壳,如AAV-PHP。B和AAV-F。通过下拉测定鉴定的许多衣壳与参考衣壳一起在体内选择中名列前茅(图2E)。值得注意的是,在先前使用26种不同选择策略的小鼠4项独立研究中鉴定的3种参考衣壳中,有24种在体外与LY6A或LY6C1结合;在我们的测定条件下,9P31和9P36 [3]没有检测到与LY6A或LY6C1结合(图2F)。新发表的小鼠BBB交叉AAV衣壳MDV1A、MDV1B和M.Mus.1在猕猴中没有表现出增强的CNS向性,也具有在我们收集的LY6C1结合变异体中观察到的基序[13]。这些结果表明,LY6A和LY6C1能够有效地介导AAVs转运到小鼠CNS中,并且工程衣壳以结合具有这种能力的蛋白质可能是基于靶表达以可预测的方式增强嗜性的有效策略。
从第 2 轮体内筛选中鉴定一组富含大脑的衣壳
在我们的第 2 轮体内筛选中,中枢神经系统转导衣壳表现最好的是 LY6A 或 LY6C1 结合剂;然而,我们调查了来自前 1 轮体内命中枢神经系统转导衣壳的一小部分,这些衣壳在第 2 轮下拉测定中未与任一靶标结合(S7A 图、S9 数据、日志 2浓缩 LY6A-Fc < 0, LY6C1-Fc < -2, C57BL/6J 或 BALB/cJ > 2, n = 180;这些衣壳没有通过图2C中实施的更严格的体内富集截止值)。通过成对汉明距离对这些衣壳进行聚类,得到许多小簇和1个较大的簇(S7B图)。大团簇的BALB/cJ中枢神经系统转导率普遍较高,但C57BL/6J的效率较低,并表现出清晰的*N*[T/V/I][R/K]**基序(S7C和S7D图)。该簇中的序列类似于我们最近发表的AAV-BI30衣壳(AAV9与7-mer插入NNSTRGG),后者在体内多种小鼠品系和大鼠的CNS中高度转导内皮细胞,以及体外人脑微血管内皮细胞[4]。
通过下拉测定开发的AAV衣壳可有效地将基因递送到小鼠CNS
第 2 轮体内选择中的热门作品被提名用于 BALB/cJ 和 C57BL/6J 小鼠的个体体内测试。首先,我们将第 6 轮库中的 LY6A 和 LY1C2 结合子集中的变体聚类,该子集中展示了一个日志2富集分别大于0或-2(图3A,S10数据)。并非所有LY6A结合簇产生的衣壳在第57轮体内选择中富集在C6BL / 2J大脑中(图3B)。为了测试通过下拉测定鉴定的不同簇中的序列,根据其(5)平均脑转导富集评分选择1个变体进行个体表征;(2)在第2轮筛选中观察到的跨重复富集的一致性(图3C和S8A和S8B);(3)序列多样性(变体AAV-BI48,AAV-BI49,AAV-BI28,AAV-BI62,AAV-BI65分别代表不同的簇,如图3A所示);(4)生产适应性(根据病毒库中变异体与质粒文库相比的富集情况估计)。选择用于个体表征的衣壳中没有一种比先前发表的具有CNS嗜性的变异体更从肝脏中脱靶(S8C图)。当在小鼠中单独给药时,与AAV9相比,每种变体都表现出增强的CNS转导,这与它们的作用机制一致;与LY48A结合的AAV-PHP.eB,AAV-BI49和AAV-BI6仅在C57BL / 6J小鼠中表现出增强的CNS向性,而与LY28C62结合的AAVF,AAV-BI65,AAV-BI6和AAV-BI1在两种小鼠品系中都保持了增强的向性(图3D)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 在下拉测定中鉴定的LY6A和LY6C1结合衣壳穿过小鼠BBB。
(A) 第 2 轮文库变体的 UMAP 将显示投影到第 1 轮变体的 UMAP 上。变异序列与K均值聚类(LY6A,k = 25;LY6C1, k = 30) (请参阅 S10 数据中的聚类摘要)。(B)具有体内脑转导日志的第2轮变体2C4BL / 57J小鼠(左)和BALB / cJ小鼠(右)中> 6的富集用红色标记。(C) 显示了参考衣壳的第 2 轮体内筛选结果和选择用于单独表征的 5 轮第 2 轮变体。每个变体由两个由单独行指示的7-mer AA重复表示。ND = 未检测到。(D)显示了(C)中衣壳的代表性脑图像,这些衣壳在C57BL / 6J小鼠(左)和BALB / cJ小鼠(右)中单独测试。支持图3A和3B的基础数据可以在 https://doi.org/10.5281/zenodo.7689794 找到:round2_codons_merged.csv;图3C在 https://doi.org/10.5281/zenodo.7689794:round2_codons_separate.csv。AA,氨基酸;BBB,血脑屏障。
https://doi.org/10.1371/journal.pbio.3002112.g003
由于之前发表了LY6A结合变体,如AAV-PHP。B和AAV-PHP.eB经过仔细表征[1,2,11],我们选择具有代表性的LY6C1结合变体AAV-BI28进行进一步研究。当给予成年C57BL / 6J小鼠时,我们观察到NeuN +神经元,S100 +星形胶质细胞,CC1 +少突胶质细胞的转导(S9A-S9C图)。接下来,我们评估了AAV-BI28在整个Ai9(Cre重组酶依赖性tdTomato报告基因)小鼠大脑中星形胶质细胞基因编辑的应用[36]。我们建立了一个双向量系统,第一个向量表达SaCas9的载体在截短GFAP启动子(AAV-BI28-GfABC1D-SaCas9)和表达2个gRNA和绿色荧光蛋白(AAV-BI28:GfABC1D-NLS-GFP-2x-U6-gRNA)(S9D图)。2个gRNA旨在将SaCas9靶向阻止tdTomato报告基因表达的终止盒两侧的序列。将2种载体静脉注射到成年Ai9小鼠中,并在4周后在皮质,丘脑和纹状星形胶质细胞中评估报告基因座(tdTomato)的基因编辑。我们的结果表明,BI28可用于诱导成年小鼠大脑中很大一部分星形胶质细胞的基因编辑(S9E-S9H图)。这些数据和支持的体外数据作为NIH体细胞基因组编辑(SCGE)计划工具包(https://scge.mcw.edu/toolkit/data/experiments/group/1441)的一部分提供,并由贝勒医学院 - 水稻小动物测试中心(BCM-Rice SATC)独立复制,作为NIH SCGE联盟(S9D-S9H Fig)的一部分组织。
下拉式检测方法可产生可复制的定量数据,从而实现机器学习引导的序列多样化
具有感兴趣功能的衣壳筛选通常仅对理论序列空间的一小部分进行采样(对于 7-mer 插入,氨基酸序列空间为 207或1.28亿)。虽然通过实验分析序列空间的大部分是不切实际的,甚至是不可能的(特别是对于较长的序列),但可以使用有限的分析数据训练 ML 模型,以将预测扩展到未测定序列空间的其余部分。高度可复制和定量的下拉测定数据适用于ML指导的方法,用于将7-mer序列映射到靶标结合。
为了生成更多样化的靶标结合序列,我们试图评估一种 ML 引导的方法,以仅对来自单轮筛选的数据生成更多样化的靶标结合序列训练。我们设计了一个库,其中包含使用监督变分自动编码器(SVAE)ML模型或通过围绕特定基序的饱和诱变生成的新序列(图4A和S10A)。由于第 2 轮文库与 SVAE 和饱和诱变文库分开生成和测定,我们使用两个文库中包含的对照序列进行校准,以考虑富集的相对性质和批次效应(S11 图,S12–S23 数据)。 为了通过饱和诱变产生产生变异,我们选择探索通过第 1 轮筛选的 LY6A 和 LY6C1 结合鉴定的 1 个高度富集的基序:***[K/R]PF[I/L] 和 ***G[W/Y]S[A/S](每个基序 32K;图4A)。选择这些基序是因为它们是在具有相似生化特性的残基周围形成的,并且包含许多高性能变体。对包含SVAE和饱和诱变产生的变体的文库进行下拉测定和体内测定,并将其结果与第2轮库的结果进行比较。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 单轮筛选数据可与SVAE和饱和诱变一起使用,以生成额外的功能序列。
(A) 第 1 轮数据用于通过 2 种方法探索额外的序列多样性:围绕 2 个基序的饱和诱变(LY6A ***[K/R]PF[I/L]、LY6C1 ***G[W/Y]S[A/S])和 SVAE ML 生成。(B) SVAE 在第 1 轮、文库 1 序列(编码器/解码器块)和结合富集(回归块)上进行了训练。在训练过程中,这些块被联合优化。分离并重新聚类高结合富集序列,并从每个簇的位置权重矩阵(PWM)中采样新序列(S12图和材料和方法)。(C)显示了每组变体的总统计熵(所有7个氨基酸位置的熵总和)与新颖性(在第1轮中未找到的分数)。(D) 所述文库的 LY1A-Fc(左)和 LY20C6-Fc 粘合剂(右)相对于均匀(每个 6/1 几率)的氨基酸频率。(E)LY6A-(顶行)和LY6C1结合剂(底行)的序列探索的UMAP投影映射到与图1-3相同的UMAP投影上;第 1 轮 UMAP 在每个图中以灰色再现。带日志的序列2生产适应度>-1.0(蓝色)和适应度>-1.0和体内日志的富集2第 3 轮文库(左)、饱和诱变(中)和 SVAE(右)显示了第 2 轮库(左)的>富集(红色)。(F) 每个点代表 (E) 中的一个聚类,使用与图 1F 和 1G 中相同的聚类边界,按聚类大小与聚类的最大对数绘制2结合或转导测定中的富集。日志2使用对照序列校准富集(S11图,S12-S23数据); 校准调整未超过 2.0。支持图4的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv和 https://doi.org/10.5281/zenodo.7689794:SVAE_SM_library_codons_merged.csv中找到。机器学习,机器学习;SVAE,监督变分自动编码器。
https://doi.org/10.1371/journal.pbio.3002112.g004
为了通过ML生成变体,我们使用了基于潜在表征学习模型(图4B、S12和S13)的序列生成方法,该方法以前已应用于生成一组多样化的可行衣壳[37]。使用6-mer氨基酸序列的单热编码及其相关的靶标结合日志训练LY6A和LY1C7结合的SVAE模型2富 集。SVAE模型的准确性是通过预测保留测试集上的结合富集来评估的(Pearson相关σ一个≈ 0.83 和 σC≈ LY0A 和 LY85C6 分别为 6.1)。通过聚类SVAE潜伏空间的高富集部分,然后从每个簇的位置权重矩阵(每个簇中序列的氨基酸频率)中采样,生成具有高预测目标结合的新序列(图4B和S12-S14)。
然后用计算机评估SVAE生成的变异体,以预测生产适应性,以抢占病毒库中无法以可检测水平产生的高比例变异株[38]。对于饱和诱变方法,我们生成了包含这些基序的所有可能的7-mer序列,而无需通过预测的生产适应性进行过滤。据预测,SVAE生成的变体容易出现低生产适应性(S10B图),这可能是由于仅针对结合进行了优化。因此,我们通过SVAE生成了2组变异:(1)预测目标结合最高的4K变异(忽略生产适应性);(2)根据预测靶标结合和预测生产适应性的联合得分(材料和方法,当量(9.3))得分最高的1K变体(S10B图)。病毒库生成后,大约 25% 的仅 4K 绑定集未检测到,而 1K 联合评分集的这一比例为 <9%(S10C 图)。在饱和诱变产生的变体中,分别有18.4%和7.6%的LY6A和LY6C1结合集未被检测到(S10C图)。
总体而言,SVAE生成的变体比饱和诱变生成的变体更加多样化,后者是围绕固定基序设计的,通过7-mer熵(图4C),氨基酸频率(图4D)和UMAP投影(图4E)进行评估。与第 1 轮筛选的顶级点击相比,SVAE 和饱和诱变方法在体外靶标结合和体内脑转导方面都产生了最佳表现(图 4F 和 S15);然而,正如预期的那样,基于一些选定基序的饱和诱变产生的变体平均表现优于更广泛地对序列空间进行采样的SVAE生成的变体。这些结果表明了这两种方法之间的内在权衡,这两种方法都是可行的序列多样化策略。SVAE方法可以探索更多的序列空间,但平均产生性能较低的变体。相比之下,饱和诱变可以更全面地探索一些高性能基序周围的空间,以识别更多拥有这些基序的命中。最终,下拉测定从单轮筛选中产生了数据,这些数据可以训练ML模型,从而充分了解氨基酸序列与靶标结合性能之间的关系。
讨论
我们提出了一种通过引入与靶细胞上表达的蛋白质的从头相互作用来增强AAV载体的快速方法。我们的方法通过首先筛选与特定蛋白质的直接体外相互作用而不是立即选择体内成功来产生BBB交叉衣壳。这种以机制为中心的策略鉴定了数千个与小鼠脑内皮细胞表面蛋白LY6A或LY6C1特异性结合的衣壳,并且其中许多衣壳在体内验证时表现出增强的CNS向性,无论是在混合文库还是单独测试时。重要的是,在不同小鼠品系中观察到的LY6A和LY6C1结合衣壳的嗜性符合基于这些蛋白的菌株特异性表达的预期。这些结果表明,如何通过将短线性插入到AAV衣壳蛋白中来引入新的病毒衣壳-受体相互作用。
体内选择通常恢复稀疏的序列子集,这些序列子集具有通过未知机制赋予的潜在增强,这些机制可能特定于特定菌株或物种,因此不适合转化研究。相比之下,我们发现单轮蛋白质靶标结合筛选基于已知作用机制产生了高度可重复和定量的数据。我们利用这些高质量的数据对更多样化的靶标结合序列空间进行饱和诱变和ML引导的探索,以提名额外的新候选药物进行后续筛选。这些新候选药物中的许多被发现在验证库中表现出高水平的体内CNS转导,同样,在仅2轮筛选内。饱和诱变和ML引导的方法都被证明是有用的 - 饱和诱变全面探索围绕一个或几个定义的序列基序的多样性,而SVAE用于探索更广泛的序列集 - 当在鉴定顶级功能基序之前使用时。AAV衣壳工程的这种方法可以导致更明智地使用动物,首先,生成衣壳文库,其中填充了来自体外测定的高性能变体,其次,指导衣壳在其作用机制保守的物种中的下游开发。
通过我们的目标特定选择策略获得的高质量数据也为衣壳工程过程打开了各种不同的计算方法,为特定功能的优化和参数化提供了更大的空间。许多研究小组已经生成了不同的衣壳库,用于使用基于ML的方法进行测试[39,40],包括无监督VAE[37,40]。虽然我们的SVAE使用标准的单热编码方案,使用来自下拉测定的高质量数据效果很好,但其他人已经尝试使用其他编码方案,如物理化学参数[41]或学习的表征[42]。随着ML领域及其在生物学研究中的作用不断发展,体外筛选方法(例如此处使用的蛋白质靶标结合测定)对于利用日益复杂的计算方法至关重要。
通过蛋白质靶标结合测定对衣壳进行工程改造的方法可以筛选不同物种的各种细胞蛋白。最近,Shay及其同事已经确定碳酸酐酶IV[43]是由先前报道的2种小鼠BBB交叉AAV(9P31和9P36)选择的细胞蛋白,我们在这里报告这些AAV不参与LY6A或LY6C1[3]。与 LY6A 和 LY6C1 一样,碳酸酐酶 IV 是一种 GPI 锚定蛋白,在中枢神经系统内皮细胞上高度表达。值得注意的是,这种蛋白质存在于啮齿动物和灵长类动物中,因此可能是工程受体靶向AAV的主要靶标,具有可预测的人类CNS基因治疗作用机制。蛋白质作为新的AAV受体所必需的性状可能包括高水平的细胞表面暴露,特定的细胞内运输途径以及在介导血管屏障交叉的相互作用的情况下的转吞倾向。然而,仅凭这些特征可能无法预测蛋白质是否能够促进AAV进入和转导细胞,并且随着更多AAV受体相互作用的描述,我们对AAV受体至关重要的特征的理解可能会扩大。令人鼓舞的是,使用单细胞转录组学和蛋白质组学(例如小鼠[44]和人脑血管图谱[45-47])进行细胞类型表征的最新进展有助于鉴定合适的蛋白质靶标。随着转吞作用和中枢神经系统转导的更多基础生物学被表征,以机制为中心的策略为加速衣壳的开发提供了一种有希望的途径,衣壳结合在动物模型和人类中保守的已定义中枢神经系统靶标。这项工作中展示的体外下拉测定方法应该能够加速衣壳文库筛选来自多个物种的蛋白质靶标以提高翻译,以及跨不同蛋白质靶标的筛选以鉴定具有高度特异性靶标结合的衣壳。
材料和方法
衣壳文库克隆
如前所述[4],使用用于选择功能性AAV衣壳的RNA表达系统,并进行了修改,以包括限制性内切酶位点SalI和HindIII之间的土拨鼠肝炎病毒(WHV)转录后调节元件(WPRE)。合成野生型AAV9衣壳基因序列(GenScript),在S448(TCA至TCT,沉默突变),K449R(AAG至AGA)和G594(GGC至GGT,沉默突变)发生核苷酸变化,引入XbaI和AgeI限制性内切酶识别位点用于文库片段克隆。
为了生成7-mer NNK文库,使用手工混合引物Assembly-NNK-AAV9-588(cccggaagtattccttttttgaacccaaccggtctgcgcctgtgcmnnmnnnnnttgggcactctggtgtggtttt)编码AAV7氨基酸残基588和589之间的9-mer插入作为反向引物,同时使用组装-XbaI-F寡核苷酸(CACTCATCGACCAATACTTGTATCTCTCT)作为PCR反应中的正向引物,使用Q5高保真2X预混液(NEB #M0492S)按照制造商的方案进行30个循环,10 ngpUC57-wtAAV9-X/A 质粒。
组装寡核苷酸文库合成(OLS)池(寡核苷酸池;安捷伦)到 AAV 基因组中,使用 5 pM 的 OLS 池作为初始反向引物,将 0.5 μm Assembly-XbaI-F 寡核苷酸作为正向引物,以扩增和延长 10 ng pUC57-wtAAV9-X/A 5 个循环。然后,向反应物加标0.5μm引物Assembly_AgeI-R(GTATTCCTTGGTTTTGAACCCAACCG),并再扩增25个循环。按照制造商的方案,使用Zymoclean DNA凝胶回收试剂盒(Zymo Research #D4007)纯化PCR产物。如前所述,将7聚体NNK或寡核苷酸池PCR产物组装成RNA表达质粒[2]。
SaCas9 and gRNA plasmids
SaCas9载体来源于AAV-CMV::NLS-SA-Cas9-NLS-3xHA-bGHpA;U6::BsaI-sgRNA 通过 Addgene (#61591) 从张峰博士获得。gRNA支架序列如[48]中所述进行修饰。使用gBlocks(IDT)将2个串联U6-sgRNA盒添加到GfABC1D-NLS-GFP报告载体中。GFAP启动子(GfABC1D)是从M. Brenner获得的,如前所述[49]。
病毒产生和滴度
对于文库和单个重组AAV,使用聚乙烯亚胺(PEI)对HEK293T/17细胞(ATCC,CRL-11268)进行三重转染产生病毒,在碘二醇梯度上超速离心纯化,并按前所述滴定[2,4]。
Fc融合克隆和蛋白质纯化
使用XbaI/EcoRV将LY6A(NM_001271416.1)和LY6C1(NM_010741.3)的开放阅读框分别克隆到具有C端Fc标签(Addgene质粒#115773)的表达载体骨架中。将Fc构建体DNA转染到含有293%FBS的完整DMEM培养基中的HEK17T/40细胞(每150 mm培养皿5μg,含PEI),转染后12至16小时,用PBS冲洗板,并加入无血清培养基(Lonza,BEBP12-764Q)。在更换培养基后48和96小时收集含有分泌的Fc融合蛋白的培养基,过滤(Millipore SE1M003M00),并在4°C下储存直至使用。将大约 35 μL 蛋白 A 偶联微球(赛默飞世尔,10001D)和吐温-20(0.05% 终浓度)加入到 30 mL 培养基中,并在 4°C 下以端到端旋转方式孵育。第二天,用含有3.0%吐温-05的DPBS洗涤珠子20次。通过在 5% 至 4% 的蛋白质凝胶上运行 12 μL 等分试样的蛋白质结合珠来评估表达;剩余的馏分用于下拉测定。
下拉检测
将总共 10 μL Fc 融合蛋白结合珠与 DPBS 中的 1e10 vg AAV 衣壳文库与 0.05% 吐温-20 和 1% BSA 混合,并在 4°C 下孵育过夜。 第二天,用含有3.0%吐温-05的PBS洗涤与病毒结合的磁珠20次,然后用蛋白酶K处理,按照制造商的PCR回收和NGS样品制备方案提取用AMPure XP磁珠纯化的病毒基因组。
体外结合载体基因组和转导测定
使用PEI将Ly6a,Ly6c1或eGFP的cDNA转染到HEK293T细胞中,在6孔板(2万个细胞/孔)中进行结合,或在100毫米培养皿(10万个细胞/板)中转导,并在48小时后用于测定。为了评估AAV与转染的HEK293T细胞的结合,将细胞冷却至4°C,并以10,000 vg/细胞的速度与含有AAV衣壳文库的新鲜冷培养基交换培养基。3小时后,用冷PBS洗涤细胞1次,然后裂解用于总DNA提取和结合衣壳序列的PCR扩增。对于转导测定,以000,60 vg/细胞加入AAV衣壳文库,并在<>小时后收获细胞用于RNA提取。
动物
所有程序均按照布罗德研究所或贝勒医学院(BCM)机构动物护理和使用委员会(IACUC)的批准执行。Ai9(007909),BALBc(000651)和C57BL / 6J小鼠(000664)是从杰克逊实验室(JAX)购买的。通过将病毒注射到眶后窦中进行rAAV载体的静脉内给药。在博德研究所治疗的小鼠用致死剂量的Euthasol(Virbac)或在异氟醚的影响下通过颈椎脱位安乐死,如我们的IACUC协议批准的那样。根据批准的BCM IACUC协议,BCM-Rice SATC的小鼠在异氟烷麻醉的影响下通过宫颈脱位被安乐死。
体内筛选
为了在小鼠中进行选择,将衣壳文库的1e11 vg静脉注射到成年雌性动物中。注射两周后,对小鼠实施安乐死,并收集大脑和肝脏。如前所述,通过转录的衣壳mRNA测量体内CNS转导[3,4,9]。简而言之,用Trizol试剂从组织中提取RNA,然后用RNeasy试剂盒(Qiagen)净化。根据制造商的说明,使用Maxima H减去逆转录酶(赛默飞世尔,EP5)将大约0751 μg的RNA转化为cDNA,并将所得的cDNA用于衣壳序列回收。在第 2 轮筛选中,由于病毒库转导不良,排除了 1 只 C57BL/6J 小鼠。
SVAE文库的生物分布和体内转导
将57周大的C6BL / 1J静脉注射11e2 vg的SVAE病毒库。为了生物分布,麻醉小鼠,灌注PBS,并在注射后3小时收集大脑和肝脏。使用DNeasy试剂盒(Qiagen)提取包括病毒基因组在内的总DNA,并用于NGS样品制备。对于体内转导,在注射后<>周收获组织以进行RNA提取和PCR衣壳序列恢复。
组织处理和成像
组织处理如前所述[11]。简而言之,首先在室温下用磷酸盐缓冲盐水(PBS,pH 7.4)麻醉和经心灌注小鼠,然后在PBS中用新鲜制备的4%多聚甲醛(PFA)灌注。将组织固定在4%PFA中过夜,然后用0.05%叠氮化钠转移到PBS中。矢状脑切片(50至100μm)用振动切片机(徕卡)制备。使用稀释100:52642的S1抗体(Abcam,Ab250),NeuN抗体(Invitrogen,MA5-33103)或APC抗体(OP80,Millipore Sigma)在PBS中进行IHC,其中含有5%驴血清,0.1%Triton X-100,0.05%叠氮化钠在室温下在实验室摇臂上孵育过夜。然后用含有3.0%Triton X-1的PBS洗涤切片100次5分钟。在32728:32795下使用二抗(Invitrogen,A1)或(Invitrogen,A500),并在与一抗相似的条件下孵育和洗涤。在SaCas9实验中,在斐济通过阈值对功能编辑的星形胶质细胞(tdTomato阳性)所占面积的比例进行定量(图J)。简而言之,在斐济打开tdTomato表达的全脑矢状图像,转换为8位,并进行背景减法(滚球半径50.0)。然后将图像置于手动阈值设置下,以确保星形胶质细胞体细胞和过程,而不是背景非转导区域达到阈值。设置后,阈值在所有图像中保持不变。编辑验证研究(BCM-Rice)对脑组织样品进行,这些样品在4%PFA中固定过夜,在30%蔗糖中平衡,在最佳切割温度(OCT)化合物中冷冻,并矢状切片。在AxioScan.X1玻片扫描仪上获得天然荧光图像。有关更多详细信息和示例,请参阅 Deverman_method_for_area_based_quantification_of_editing_efficiency.pdf (https://scge.mcw.edu/toolkit/download/1036)。
NGS 样品制备
为了制备用于测序的AAV文库,对提取的AAV基因组或转录本进行了qPCR,以确定每种样品类型的循环阈值,以防止过度扩增。确定循环阈值后,使用相等引物对(1-8)(表1)的第一轮PCR扩增,使用Q1热启动高保真2X预混液连接Illumina Read 5和Read 2序列,退火温度为65°C,退火温度为20秒,延长时间为1分钟。按照制造商的方案使用 AMPure XP 磁珠纯化第 1 轮 PCR 产物,并在 25 μL 超纯水(赛默飞世尔科技)中洗脱;然后,在第二轮PCR扩增中使用2 μL作为输入,使用Q7600 HotStart-高保真5X预混液连接Illumina适配器和双索引引物(NEB,E5S)进行2个PCR循环,退火温度为65°C,延长时间为20分钟。按照制造商的方案,使用 AMPure XP 磁珠纯化第二轮 PCR 产物,并在 1 μL 超纯 DNase/RNase 无蒸馏水(赛默飞世尔科技)中洗脱。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. PCR1引物。
https://doi.org/10.1371/journal.pbio.3002112.t001
为了定量用于 NGS 的第二轮 PCR 产物的量,将安捷伦高灵敏度 DNA 试剂盒(安捷伦,5067–4626)与安捷伦 2100 生物分析仪系统配合使用。然后将PCR产物合并并在2 mM Tris-HCl(pH 4.10)中稀释至8至5 nM,并按照制造商的说明使用NextSeq 550/500中或高输出试剂盒(Illumina,550或20024904)在Illumina NextSeq 20024907上进行测序,或按照制造商的说明使用NextSeq P1000 v2试剂盒(Illumina, 3).读取分配如下:I20046812:1,I8:2,R8:1,R150:2。
NGS 数据处理
使用默认参数对测序数据使用 bcl2fastq(版本 v2.20.0.422)进行解复用。读取 1 序列(不包括 Illumina 条形码)与 AAV9 的简短参考序列对齐:
CCAACGAAGAAGAAATTAAAACTACTAACCCGGTAGCAACGGAGTCCTATGGACAAGTGGCCACAAACCACCAGAGTGCCCAANNNNNNNNNNNNNNNNNNNNNGCACAGGCGCAGACCGGTTGGGTTCAAAACCAAGGAATACTTCCG
Alignment was performed with bowtie2 (version 2.4.1) [50] with the following parameters:
--end-to-end--very-sensitive--np 0--n-ceil L,21,0.5--xeq -N 1--reorder--score-min L,-0.6,-0.6–5 8–3 8
The resulting sam files from bowtie2 were sorted by read and compressed to bam files with samtools (version 1.11-2-g26d7c73, htslib version 1.11-9-g2264113) [51,52].
使用Python(版本3.8.3)脚本和pysam(版本0.15.4)从每个扩增子读取中灵活提取21核苷酸插入。每个读取都分配给以下箱之一:“失败”、“无效”或“有效”。失败的读取被定义为与参考序列不一致或在插入区域中具有in/del的读取(即,20个碱基而不是21个碱基)。无效读段被定义为成功提取21个碱基但符合以下任一条件的读段:(1)21个碱基中的任何一个碱基的质量得分(AKA Phred评分,QScore)低于20,即错误概率>1/100;(2)任何一个基数未确定,即“N”;(3)21个碱基序列不是来自合成文库(这种情况不适用于NNK文库);或(4)21个碱基序列与模式不匹配,即NNK(这种情况不适用于合成文库)。有效读取定义为不适合失败或无效箱的读取。出于质量控制目的,收集和分析了失败和无效读取,并对有效读取执行了所有后续分析。
有效读取的计数数据按序列、每个样品汇总,并以数据透视表格式存储,行上有核苷酸序列,列上有样品(Illumina 条形码)。在样品中未检测到的序列的计数为0。
为了尽量减少测序误差对文库数据分析的影响,排除了文库1和文库2中所有样品和检测(包括本文未描述的样本)中总读取计数少于10次的变体。
数据规范化
计数数据每百万分之一(RPM)归一化为每个样品j(Illumina条形码)的测序深度,具有:
(1.1)
其中 r 是 RPM 归一化计数,k 是原始计数,i = 1, ..., n 个序列,j = 1,..., m 个样本。
由于每个生物样本一式三份运行,我们通过取RPM的平均值来汇总每个样本的数据:
(1.2)
跨样品 S 的 P 重复。我们通过采用变异系数(CV)来估计重复的归一化方差:
(1.3)
哪里σI,S是样本 s 中变体 i 与 p 重复的标准偏差。
日志2每个序列的富集定义为:
(1.4)
其中 λ 是伪计数常量,用于确保对数转换的有效值。对于所有数据分析,λ 设置为 0.01。
聚类分析
根据LY6A和LY6C1的靶标特异性衣壳选择其日志2富集其各自的受体和仅Fc对照(图1D和S1A中的蓝色突出显示区域)。日志2用于此分析的富集临界值为:当Fc富集缺失时目标>8(左边际图),Fc富集< = 8时的目标>0,Fc富集的目标>(9/17 * Fc富集)+ 8>0。该包含阈值分别产生文库 5 和文库 724 的 n = 2,291 和 n = 6,1 个 LY2A 特异性衣壳,文库 7 和文库 170 的 n = 4,214 和 n = 6,1 个 LY1C2 特异性衣壳。然后将LY6A和LY6C1特异性序列彼此分离,并分别分析每个靶标组的衣壳。衣壳序列被一人编码为长度为20× 7 = 140的向量,并使用UMAP使用以下参数投影:n_components = 2,n_neighbors = 200,min_dist = 0.15,度量=欧几里得。然后将衣壳序列分别聚类为LY6A和LY6C1,使用它们的UMAP投影值(X1,X2)和scikit-learn的GaussianMix模型[53],参数为n_components = 40,random_state = 1,n_init = 10,max_iter = 1,000。
库间校准
我们分别制作并测序了第 2 轮和组合 SVAE/饱和诱变文库。库中变体的扩充分数是通过与库中其他成员的比较得出的,这意味着扩充是一个相对值。因此,丰富在图书馆内具有可比性,但不能直接与其他库进行比较。为了能够在我们的两个文库之间进行比较,我们在这两个文库中都纳入了2,3个变体,用于富集分数的校准。我们使用一种简单的校准方法来调整富集分数,以最小化所有共享变体之间的误差总和。
S11图显示了共享变体的富集(A-C)和校准后的富集分布(D)。除了不同的文库成员外,2个文库的测序深度也存在差异。我们的校准方法没有考虑测序深度,我们假设测序深度会导致一些富集度差的变体在文库之间显示出较大的富集差异(C,绿框),因此我们选择从校准中删除这些变体。仅在一个库中检测到的变体也被排除在校准之外。请注意,虽然校准改善了文库之间的比较,但 LY2A 结合、LY7C2 结合和脑转导测定的标准偏差分别为 1.2、3.6 和 6.1,误差仍然存在,并且可能很大。
合成寡核苷酸池文库设计与合成
用于二次筛选分析(第 2 轮)的合成寡核苷酸池文库是从安捷伦获得的。寡核苷酸的设计符合上述第 1 轮 NNK 引物所述的相同模板结合和组装重叠序列。文库寡核苷酸池由从第 7 轮下拉测定中回收的 1 个插入序列组成,基于以下标准:(文库 1)目标日志2enr > 5, 目标 fc 日志2enr - Fc 控制日志2enr > 3 和目标 Fc 日志2ENR — 仅磁珠控制日志2ENR >3,并且在2个重复中至少3个被检测到;(图书馆 2)目标日志2enr > 6 和过滤的特异性与所有其他对照和基于所有计数的目标 RPM/SUM 的测定相比。该文库还包含从第 1 轮 C57BL/6J 和 BALB/cJ 转录衣壳序列筛选中回收的所有顶级序列、已发表的参考序列以及通过本研究中未描述的其他研究筛选 LY6A 和 LY6C1 结合的其他序列。所有序列均由2个不同的核苷酸序列编码,旨在用作生物学重复。
单个衣壳表征
将单个衣壳克隆到iCAP-AAV9(K449R)骨架(GenScript)中,如上所述,在CAG启动子下编码核定位GFP的DNA基因组产生,并以57×6的剂量施用于C000664BL / 3J或BALB / cJ(杰克逊实验室,10)小鼠11VG/鼠标。三周后,小鼠灌注4%PFA。组织处理、免疫组织化学和影像学检查如前所述[11]。通过眶后窦向成年雄性和雌性小鼠施用重组AAV-BI28载体。没有小鼠被排除在分析之外。实验者没有对样本组施盲。
SVAE 模型
用于训练 SVAE 的数据形式为 x
我是一个单热编码的 7 mer AA 序列,y我目标测定中相应的log2enr值(方程4)和cvi the coefficient of variation (Eq 3). Only data points with assay mean RPM > 0 were included in training (at least 1/3 replicates had to be detected). The training/validation split was 0.8 and 0.2, respectively.
SVAE model architecture.
The SVAE (S12 and S13 Figs) is composed of the following 3 neural network modules: Among these, the encoder and decoder together form a standard VAE; the addition of the regressor enables supervision. The encoder learns a map where Z is a latent space subject to the standard Gaussian prior [54]. The decoder learns a map from the latent space back to the original (one-hot-encoded) sequence space. The regressor learns a map which takes as input a combined representation of a sequence x
i and its (learned) latent representation zi, and maps it to a predicted log2 enrichment value ?i.
在我们的模型中,(使得 7-mer AA 序列相对于 20 个氨基酸的字母表进行单热编码),(即,我们使用二维潜在空间), 并且对于我们的编码器, 我们使用了一个 2 隐藏层全连接神经网络,隐藏层中分别有 2 个和 100 个节点,具有 ELU 激活。我们的解码器是在编码器的镜像中构建的,是一个 40 隐藏层全连接神经网络,隐藏层中分别有 2 个和 40 个节点。我们的回归器再次是一个 100 隐藏层全连接神经网络,但在隐藏层中分别有 2 个和 100 个节点。
VAE培训。
编码器和解码器网络在重建损耗方面联合训练
(2.1)
其中 CEL 是标准的交叉熵损失。
回归器根据回归损失进行训练
(2.2)
此外,还有一个分布损失项:L区,计算为 VAE 潜在空间和标准高斯先验的 KL 散度 [54]。
(2.3)
SVAE的总体损失是(1)重建损失的线性组合;(2)回归损失;(3)分配损失。
(2.4)
其中 α = 1。0, β = 0。5,γ = 0。1 参数化每个损失项在总体损失中的系数。这些通过超参数优化进行了调整,目的是产生一个连贯的潜在空间,沿梯度分离回归量值。
两个模型都经过训练直到收敛,收敛阈值为 0.005。收敛性被确定为当所有损失指标上连续时期之间的最大差异(L整体, L侦察, L注册和 L区) 小于连续 3 个 epoch 中 5 个的收敛阈值。当根据这个收敛标准训练时,LY6A-Fc和LY6C1-Fc模型训练分别运行了64个和63个epoch。
SVAE序列生成
训练后,每个模型的训练数据被投影到其训练好的2D潜在空间中。这些点使用 KMean 聚类为 5 个主集群,同时使用潜在空间坐标和日志2富集(S14图)。将回归损失合并到训练中会鼓励点沿梯度通过富集值在空间上分离。
对于每个聚类,我们计算了其中包含的序列的平均富集度;由于鼓励潜在空间沿梯度分离富集值,并且使用潜在空间坐标和富集值进行聚类,因此主聚类形成了清晰的高、中和低均值富集聚类(S14 图)。我们分离出平均富集率最高的单个簇作为生成新序列的基础分布。然后将这个顶部聚类与 K 均值重新聚类为 10 个子聚类。由于VAE的潜在空间经过训练,可以编码序列和相应的检测富集,因此这些子簇大致对应于高性能簇中的基序区域。
为了生成新的变体,对于每个子簇,我们以位置权重矩阵(PWM)的形式对每个位置的氨基酸频率进行了编码。在每个位置,频率低于第80个百分位数的氨基酸被滤除。使用每个位置剩余的传递AA集,我们生成了所有可能的7-mers组合,并且忽略了训练数据中已经存在的7-mers。
优化库组成
优化第 2 轮文库由 96K 衣壳变体组成(每个变体两个 7-mer AA 重复,总共 192K DNA 序列)。这个包含 96K 变体的库包括:64K 饱和诱变、26K SVAE 生成、50 个已发布/内部对照、1K 终止密码子对照、6K 校准对照和 4K 阳性训练对照(S10A 图)。在与优化第 2 轮文库相同的实验池中,还包括由基于VAE的替代生成方案生成的额外26K序列。这些附加序列用于比较文中描述的基于SVAE的生成方案的性能与替代方案的性能。在文库选择策略的比较(以及饱和诱变和标准选择)中,我们选择呈现平均生成更高性能变体集的方案。
26K SVAE生成的变体在LY6A和LY6C1之间平均分配。每个受体进一步分为2组大小分别为4K和9K,具有不同的选择标准:(1)根据各自的SVAE预测结合富集最高的前4K变体,以及(2)根据高预测结合富集和高预测生产适应性,在联合评分上得分最高的前9K变体(S10B图)).为了计算每个受体所有新生成的变异的联合评分,预测结合值的集合线性缩放为[0,1]范围内。对适应度值执行相同的操作。然后将缩放值简单地相加(权重相等)以计算联合分数。也就是说,如果gen_variants是为任一受体生成的全套新变异,则对于gen_variants中的变异v,则v的联合评分joint_score(v)定义如下:
(3.1)
这种分裂解释了SVAE缺乏生产适应性知识,即VAE模型可能无法理解我们的7-mer插入片段中某些AA的不稳定作用,例如半胱氨酸(C)或色氨酸(W)。生产适应度预测器在另一篇文章中描述 [38]。
仅通过结合富集选择的前4K子集显示出显着降低观察到的生产适应性,并且在生成的库中未观察到显着部分(LY24A为3.6%,LY27C3为6.1%,S10C图)表明这些变体的适合性低于我们的检测阈值。所有使用 SVAE 生成的序列的后续分析仅使用 Top 9K 子集。
50个参考序列(S11数据)包括我们实验室和其他组开发的AAV衣壳[1-3,30],并纳入了1-mer插入片段中具有终止密码子的7K变体,以评估交叉包装率。6K 变体(LY3A、LY6C6 各 1K)是校准对照,用于校准该文库和训练数据之间的结合富集分数(第 1 轮文库 1)。选择每组3K变体以覆盖每个结合富集分布的动态范围。最后,包括2K变体作为阳性对照,每个受体1K,并从用于训练每个受体各自SVAE模型的训练数据中采样。
Saturation Mutagenesis library generation
饱和诱变文库由 8 个基序组成(每个受体 4 个基序),每个基序有 8K 变体(总共 64K)。每个图案有 4/7 个固定位置,留下 3/7 个灵活 (203= 8,000 种可能的组合)。从第 236 轮库 951 中的 1,1 个序列开始,我们将每个序列分解为长度为 1-5 的 n 元语法(基序)。每个基元内的通配符位置最多允许 3 个非边缘通配符(例如 A***A)。基序的起始索引(0-索引)附加到基序的末尾,以指示基序在7-mer内的位置,例如,BCDEFG→BCD1。使用这种方法,我们构建了一侧序列和另一侧基序的二分图,使得每个序列链接到许多基序,反之亦然。
通过此图,我们计算每个基序的几个汇总统计量:(1)基词“特定长度”,基元中非通配符的数量,例如,A**A = 2;(2)与每个基序相关的序列数量;(3)“基序富集”,即基序链接序列的平均结合富集。序列的具体长度和数量对于在我们的第 1 轮库 1 的上下文中理解基序特异性很有用。基序越笼统,其基序富集趋向于结合富集的总体平均值。对于饱和诱变文库,我们选择了特定长度足够小的基序,以在组合生成下每个基序容纳数千个变体,但仍具有足够的特异性以对富集产生重大影响。我们选择了一组连贯的基序,相对于具有相同特异性的其他基序表现出高富集性。
选择的基序是LY4A的PF6和LY3C6的G*S1。鉴于文库大小的限制,我们选择在这些一般基序中选择子基序来修复饱和诱变。对于LY6A,这些是:***KPFI,***KPFL,***RPFI,***RPFL。对于LY6C1,这些是:*** GWSA,*** GWSS,***gysa,****gyss。
支持信息
使用独立生成的随机 7-mer 文库(文库 2)鉴定靶标特异性衣壳。
显示 1/38: pbio.3002112.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/41616289/preview/41616289/preview.jpg
1 / 38
下载
无花果分享
S1 图 使用独立生成的随机 7-mer 文库(文库 2)鉴定靶标特异性衣壳。
(A) 变体日志2富集(重复之间的平均RPM,归一化为起始文库RPM)在LY6A-Fc或LY6C1-Fc与仅Fc对照之间绘制。在两种测定中检测到的衣壳显示在右上象限中。两种测定中缺失的变体显示在边缘象限中。(B) 日志2(A)中以蓝色突出显示的选定变体的富集,每个重复的富集绘制在单独的行中(n = 3)。ND = 未检测到。支持S1图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:library2_pulldown.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s001
(提夫)
S2 图 体外结合测定和体内CNS转导筛选的可复制性。
(A–D)库屏幕 1 日志的可复制性2(A) 启动病毒库、(B) LY6A-Fc、(C) LY6C1-FC 和 (D) 仅 Fc 对照的 RPM。(E-H)(E) 起始病毒库、(F) LY2A-Fc、(G) LY6C6-Fc 和 (H) 仅 Fc 对照的库 1 可复制性屏幕。(一、日)每个小鼠品系(n = 2只小鼠)内(I)BALB / cJ和(J)C2BL / 57J的单独RNA提取(n = 6个小鼠)的可复制性。在两个重复中检测到的衣壳显示在右上象限中。来自任一重复的缺失变异显示在边缘象限中。支持S2A–S2D图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794 找到:library1.csv;S2E–S2H 图在 https://doi.org/10.5281/zenodo.7689794:library2_pulldown.csv。
https://doi.org/10.1371/journal.pbio.3002112.s002
(提夫)
S3 图 从 2 个文库中鉴定出的体外结合剂的联合聚类。
(A)靶标特异性7-mer序列的联合UMAP嵌入,并根据实验着色序列。(B)关节嵌入上的聚类(高斯混合模型,k = 40)。(中、丁)每个聚类中每个库中第 7 轮下拉屏幕显示的 1 个序列的数量 (C) 和百分比 (D)(按每个聚类的序列数从左到右排序)。支持S3图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:LY6A_joint_umap_l1_l2.csv和 https://doi.org/10.5281/zenodo.7689794:LY6C1_joint_umap_l1_l2.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s003
(提夫)
S4 图 第 1 轮靶标特异性 7-mer 序列的聚类分析。
(A) LY6A 或 (B) LY6C1 集群序列徽标和相应的日志热图2仅 Fc 对照、LY6A-Fc 和 LY6C1-Fc 的每个簇中序列的富集。支持S4图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:LY6A_joint_umap_l1_l2.csv和 https://doi.org/10.5281/zenodo.7689794:LY6C1_joint_umap_l1_l2.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s004
(TIF)
S5 Fig. The Pearson correlations of Round 2 in vitro and in vivo replicates.
The plots show the replicability of the log2(A)DNA(质粒)文库,(B)病毒库,(C)LY6A-Fc,(D)LY6C1-Fc和(E)仅Fc对照的每百万(RPM)读取数。在两个重复中检测到的衣壳显示在右上象限中。来自任一重复的缺失变异显示在边缘象限中。显示了(F)BALB / cJ(4只小鼠[F1,F2,M1,M2],每只动物n = 3个提取重复)和(G)C57BL / 6J(3只小鼠[F1,M1,M2],每只动物n = 3个提取重复)的单独RNA提取的可复制性。比较(H)BALB/cJ和(I)C57BL/6J的动物间重复提取的平均RPM。支持S5图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s005
(提夫)
S6 图 第 2 轮库中 AA 重复之间的皮尔逊相关性。
显示的值是日志2用于 DNA 文库和病毒文库样本的 RPM 以及日志2体外和体内样品的富集。7-mer AA重复(密码子1和密码子2)对内的序列被随机分配到x轴或y轴,但AA序列除外,这些序列在重复对中缺少其伴侣,这些重复对被分配到x轴并绘制在每个图下方的直方图中。支持S6图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_separate.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s006
(提夫)
S7 图 鉴定既不与LY6A-Fc也不与LY6C1-Fc结合的富含大脑的基序。
(A) 在第 2 轮体内筛选(红色)中鉴定的第 1 轮变体通过所示的阈值过滤,这些阈值与 LY6A-Fc 的低结合(LY6A-Fc 结合剂显示为灰色),与 LY6C1-Fc 的低结合(LY6C1-Fc 结合剂以灰色显示),以及 C57BL/6J 或 BALB/cJ 小鼠中的高 CNS 转导。这种组合过滤产生了180个变体。(B)按汉明距离对180个变体进行分层聚类(连锁=平均值,截止值= 5)得到1个大聚类(红色,中心,n = 39)。(C) 日志2显示(B)中聚类树订购的每个变体的富集,用于仅Fc对照,LY6A-Fc,LY6C1-Fc和CNS转导在BALB / cJ或C57BL / 6J小鼠中的体外结合。(D)(B)中中心红色簇(n = 39)的序列基序显示出*N*[T/V/I][R/K]**的清晰模式。支持S7图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s007
(提夫)
S8 图 体外筛选的LY6A和LY6C1结合衣壳的其他表征。
通过指定的AAV结合(A)和转导(B)表达Ly293a,Ly6c6或对照(GFP)cDNA的HEK1细胞。(一、二)显示了参考衣壳(AAV9、AAV-PHP.eB 或 AAVF)与本研究中在合并文库研究中观察到的衣壳(BI48、BI49、BI28、BI62、BI65)的富集。(C)显示了在BALB / cJ和C57BL / 6J小鼠中测试的来自同一文库的指定变体的肝脏转导。每个图表显示了归一化为AAV9的每个衣壳的平均富集(条),来自7-mer AA重复(由不同核苷酸序列编码)的单个值显示为单个数据点(圆圈)(n = 4只动物/每组)。支持S8A图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794 中找到:S8_A_HEK_binding.csv;S8B 图在 https://doi.org/10.5281/zenodo.7689794:S8_B_HEK_transduction.csv;S8C 图在 https://doi.org/10.5281/zenodo.7689794:S8_C_liver_transduction.csv。
https://doi.org/10.1371/journal.pbio.3002112.s008
(提夫)
S9 图 BI28介导神经元和神经胶质细胞的转导以及脑星形胶质细胞的体内编辑。
(A–C)成人静脉给药4×1后10周转导细胞类型的免疫荧光分析11vg/animal AAV-BI28:CAG-NLS-mScarlet-2A-Luciferase-WPRE-pA.代表性图像显示mScarlet+细胞(洋红色)与大脑皮层中的NeuN(A,绿色)和S100(B,绿色)以及胼胝体中的CC1 +细胞(C,绿色)共定位。箭头突出显示了示例转导的标记+单元格。比例尺为 50 μm。(D)示意图显示了双AAV基因编辑系统,该系统旨在去除终止盒并打开Ai9报告基因敲入小鼠中的tdTomato表达。第一个rAAV从星形胶质细胞选择性GfABC表达SaCas91D启动子。第二个rAAV表达来自同一启动子和2个串联U6驱动的gRNA(L1和R2,具有指示的间隔和PAM序列)的GFP。将两个rAAV基因组包装到AAV-BI28中,并在9×3共同施用给Ai10 tdTomato报告小鼠11VG/小鼠(总剂量 6 × 1011VG/鼠标)并在 4 周后评估编辑。(E)代表性的全矢状脑切片图像(顶部:Deverman实验室结果,底部:BCM-Rice SATC外部验证)显示通过tdTomato天然荧光评估的Ai9位点编辑。(F)显示了tdTomato表达与皮质星形胶质细胞中GFP(转导标记)和S100的共定位。(G)BCM-Rice SATC的研究人员与NIH体细胞基因组编辑联盟协调,在Ai28小鼠中使用AAV-BI9载体对基因编辑进行独立验证。(H)该图显示了CNS星形胶质细胞编辑的量化,该比例由指示的大脑区域内tdTomato+面积高于阈值的比例测量(平均值±SD,内部队列,n = 6名女性 和n = 4名男性;贝勒验证队列,n = 6 名女性和 n = 6 名男性)。(I)整个矢状脑切片显示,需要施用两种载体才能实现基因编辑。请注意,在SaCas9载体单独的脑图像中,红色和绿色通道中存在的弱信号在小脑中最为明显,是组织自发荧光而不是GFP表达。支持S9图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:S9_fig_data.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s009
(提夫)
S10 图 SVAE文库组成和SVAE生成的变体的选择。
(A) SVAE 和饱和诱变文库的组合由每个靶标 1 个基序(LY6A ***[K/R]PF[I/L]、LY6C1 ***G[W/Y]S[A/S])产生的饱和诱变变体组成,每个基序 32K 个变体;每个目标 13K SVAE 生成的变体;来自我们小组和文献的50个先前表征的变体;带有终止密码子的 1K 变体,用于评估交叉包装;在从低到高的富集箱中均匀选择6K变体(每个靶标3K),以校准从该库到用于训练SVAE模型的库的富集分数(第1轮,文库1);从 SVAE 训练数据中随机选择的 2K 变体(即第 1 轮中具有非零 RPM 的变体)作为训练数据对照。(B)显示了SVAE生成的变体(每个靶标以计算机形式生成1K)的预测结合富集和预测的生产适应性。SVAE库中包括根据SVAE预测的结合富集最高的150K变体(红色),以及根据预测的结合富集和预测的生产适应性的联合评分(黄色)排名前4K的变体。(C)生成了(A)所示的病毒库,并显示了饱和诱变生成和SVAE生成的变体的测量生产适应性的分布。支持S9B图的基础数据可以在 https://doi.org/10.10/zenodo.5281:LY7689794A_SVAE_generated_sequences.csv和6.10/zenodo.5281:LY7689794C6_SVAE_generated_sequences.csv中找到;S1C 图 https://doi.org/10.10/zenodo.5281:SVAE_SM_library_codons_separate.csv。
https://doi.org/10.1371/journal.pbio.3002112.s010
(提夫)
S11 图 将 SVAE 和饱和诱变文库校准到第 2 轮文库。
文库变体丰富分数是相对的,因为它们是通过与同一库的其他成员的比较得出的。来自不同库的变体分数通过计算单个值进行校准,该值在y轴上调整这些散点图(A-C)以最小化误差(参见材料和方法,S12-S23数据)。(一、二)SVAE 文库中与第 2 轮文库中两个文库共有的未校准 LY6A 和 LY6C1 结合序列的富集分数图。上边距和右边距上的直方图显示了总变异(蓝色)和其中一个检测中缺失的变异(红色)的分布。(C)与(A,B)相同,但用于脑转导测定。对于脑转导测定,两个文库都包含LY6A和LY6C1结合变体,因此应用了单个校准值。计算校准时,绿色框中的点被丢弃。我们假设这种差异源于第 2 轮文库被更深入地测序。(D) 每次测定的校准前和校准后富集的直方图。校准值如下:LY6A:?0.37,LY6C1:1.50,脑转导,组合LY6A/LY6C1:0.14。校准前和校准后直方图之间的偏移量对应于每种测定的校准值。支持S11图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv和10.5281/zenodo.7689794:SVAE_SM_library_codons_merged.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s011
(提夫)
S12 图 基于 SVAE 的序列生成过程、SVAE 模型和潜在空间。
(A) 基于 SVAE 的完整序列生成过程的示意图,包括 (1) 训练数据的处理,(2) SVAE 训练,以及 (3) 使用 SVAE 潜在空间生成序列。
https://doi.org/10.1371/journal.pbio.3002112.s012
(提夫)
S13 图 SVAE训练的扩展示意图。
https://doi.org/10.1371/journal.pbio.3002112.s013
(提夫)
S14 图 潜空间中 LY6A-Fc 和 LY6C1-Fc 训练点的图。
从左到右:所有训练点均按检测日志着色2富 集;按平均主簇着色的所有训练点(请参阅材料和方法,SVAE 序列生成)日志2富 集;由分析日志着色的顶部(最高平均富集)簇2富 集;顶部聚类进一步聚类为子聚类,由平均子聚类日志着色2富 集。左起前 3 个图共享空间轴和色阶;最右边的子聚类图以自己的轴为中心,并按其自己的比例重新着色。支持S14图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:LY6A_SVAE_training_predictions.csv和 https://doi.org/10.5281/zenodo.7689794 LY6C1_SVAE_training_predictions.csv找到。
https://doi.org/10.1371/journal.pbio.3002112.s014
(提夫)
S15 图 个体第 2 轮、饱和诱变和 SVAE 变体的体外结合和脑转导富集评分。
图4F(S12–S23数据)中的数据在没有聚类的情况下显示。该面板显示了每种测定的变体的性能:LY6A-Fc 下拉、LY6C1-Fc 下拉、通过 LY57A 结合变体进行的 C6BL/6J 小鼠脑转导,或通过 LY57C6 结合变体进行 C6BL/1J 小鼠脑转导。如图 4F 所示,适应度值低于日志的变体2不包括 ?1.0 的富集。支持S15图的基础数据可以在 https://doi.org/10.5281/zenodo.7689794:round2_codons_merged.csv和 https://doi.org/10.5281/zenodo.7689794:SVAE_SM_library_codons_merged.csv中找到。
https://doi.org/10.1371/journal.pbio.3002112.s015
(提夫)
S1 数据。 库 1 个 UMAP 集群。
https://doi.org/10.1371/journal.pbio.3002112.s016
(中新社)
S2 数据。 库 1 LY6A UMAP 簇序列。
https://doi.org/10.1371/journal.pbio.3002112.s017
(中新社)
S3 数据。 文库 1 LY6C1 UMAP 簇序列。
https://doi.org/10.1371/journal.pbio.3002112.s018
(中新社)
S4 数据。 库 2 个 UMAP 集群。
https://doi.org/10.1371/journal.pbio.3002112.s019
(中新社)
S5 数据。 库 2 LY6A UMAP 簇序列。
https://doi.org/10.1371/journal.pbio.3002112.s020
(中新社)
S6 数据。 文库 2 LY6C1 UMAP 簇序列。
https://doi.org/10.1371/journal.pbio.3002112.s021
(中新社)
S7 数据。 .PHP。类 B 类 UMAP 簇和序列。
https://doi.org/10.1371/journal.pbio.3002112.s022
(中新社)
S8 数据。 第 2 轮库参考序列。
https://doi.org/10.1371/journal.pbio.3002112.s023
(中新社)
S9 数据。 体内非LY6A或-LY6C1结合序列。
https://doi.org/10.1371/journal.pbio.3002112.s024
(中新社)
S10 数据。 第 2 轮库 UMAP 集群。
https://doi.org/10.1371/journal.pbio.3002112.s025
(中新社)
S11 数据。 SVAE/饱和诱变文库参考序列。
https://doi.org/10.1371/journal.pbio.3002112.s026
(中新社)
S12 数据。 图4F脑转导LY6A R1热门歌曲。
https://doi.org/10.1371/journal.pbio.3002112.s027
(中新社)
S13 数据。 图4F脑转导 LY6C1 R1 热门歌曲。
https://doi.org/10.1371/journal.pbio.3002112.s028
(中新社)
S14 数据。 图4F脑转导LY6C1饱和诱变表。
https://doi.org/10.1371/journal.pbio.3002112.s029
(中新社)
S15 数据。 图4F脑转导 LY6C1 SVAE 表。
https://doi.org/10.1371/journal.pbio.3002112.s030
(中新社)
S16 数据。 图4FLY6A R1 热门歌曲。
https://doi.org/10.1371/journal.pbio.3002112.s031
(中新社)
S17 数据。 图4FLY6A饱和诱变表。
https://doi.org/10.1371/journal.pbio.3002112.s032
(中新社)
S18 数据。 图4FLY6A SVAE表。
https://doi.org/10.1371/journal.pbio.3002112.s033
(中新社)
S19 数据。 图4F脑转导LY6A饱和诱变表。
https://doi.org/10.1371/journal.pbio.3002112.s034
(中新社)
S20 数据。 图4F脑转导 LY6A SVAE 表。
https://doi.org/10.1371/journal.pbio.3002112.s035
(中新社)
S21 数据。 图4FLY6C1 R1 热门歌曲。
https://doi.org/10.1371/journal.pbio.3002112.s036
(中新社)
S22 数据。 图4FLY6C1饱和诱变表。
https://doi.org/10.1371/journal.pbio.3002112.s037
(中新社)
S23 数据。 图4FLY6C1 SVAE表。
https://doi.org/10.1371/journal.pbio.3002112.s038
(中新社)
确认
我们感谢德弗曼实验室的成员对该项目的持续讨论;Alexa E. Martinez,Denise G. Lanza和John R. Seavitt为贝勒医学院的验证研究提供后勤和技术支持。
引用
1.陈凯, 张明杰, 俞彪, 格林鲍姆, 拉维, 吴文林, 等.工程AAV,用于将有效的非侵入性基因传递到中枢和周围神经系统。纳特神经科学。2017;20:1172–1179.密码:28671695
查看文章PubMed/NCBI谷歌学术搜索
2.Deverman BE, Pravdo PL, Simpson BP, Kumar SR, Chan KY, Banerjee A, et al.Cre依赖性选择产生AAV变异,用于将广泛的基因转移到成人大脑。纳特生物技术公司。2016;34:204–209.密码:26829320
查看文章PubMed/NCBI谷歌学术搜索
3.Nonnenmacher M, Wang W, Child MA, Ren X-Q, Huang C, Ren AZ, et al.通过RNA驱动的生物淘选快速进化穿透血脑屏障的AAV衣壳。摩尔方法临床开发 2021;20:366–378.密码:33553485
查看文章PubMed/NCBI谷歌学术搜索
4.Krolak T, Chan KY, Kaplan L, Huang Q, Wu J, Zheng Q, et al.用于整个中枢神经系统内皮细胞转导的高效 AAV。自然心血管研究。2022;1:389–400.密码:35571675
查看文章PubMed/NCBI谷歌学术搜索
5.科尔贝林 J, 多格贝维亚 G, 米歇尔费尔德 S, 里德尔 DA, 饥饿 A, 温泽尔 J, 等.一种脑微脉管系统内皮细胞特异性病毒载体,具有治疗神经血管和神经系统疾病的潜力。EMBO Mol Med. 2016;8:609–625.密码:27137490
查看文章PubMed/NCBI谷歌学术搜索
6.Tervo DGR, Hwang B-Y, Viswanathan S, Gaj T, Lavzin M, Ritola KD, et al.设计师AAV变体允许有效地逆行进入投射神经元。神经元。2016;92:372–382.密码:27720486
查看文章PubMed/NCBI谷歌学术搜索
7.Lisowski L, Dane AP, Chu K, Zhang Y, Cunningham SC, Wilson EM, et al.异种移植肝脏模型中临床相关AAV变异的选择和评估。自然界。2013;506:382–386.密码:24390344
View ArticlePubMed/NCBIGoogle Scholar
8.Dalkara D, Byrne LC, Klimczak RR, Visel M, Yin L, Merigan WH, et al. In vivo-directed evolution of a new adeno-associated virus for therapeutic outer retinal gene delivery from the vitreous. Sci Transl Med. 2013;5:189ra76. pmid:23761039
View ArticlePubMed/NCBIGoogle Scholar
9.Tabebordbar M, Lagerborg KA, Stanton A, King EM, Ye S, Tellez L, et al.AAV衣壳变异家族的定向进化,能够跨物种进行有效的肌肉定向基因传递。细胞。2021;184:4919–4938.e22.pmid:34506722
查看文章PubMed/NCBI谷歌学术搜索
10.Weinmann J, Weis S, Sippel J, Tulalamba W, Remes A, El Andari J, et al.通过大规模平行体内评估条形码衣壳变体来鉴定肌致性AAV。纳特公社。2020;11:5432.pmid:33116134
查看文章PubMed/NCBI谷歌学术搜索
11.黄琦, 陈琪, 托比 IG, 陈雅, 波特巴, 布特罗斯, 等.通过血脑屏障传递基因:LY6A,一种用于AAV-PHP的新型细胞受体。B 衣壳。公共图书馆一号。2019;14:e0225206.密码:31725765
查看文章PubMed/NCBI谷歌学术搜索
12.Hordeaux J, Wang Q, Katz N, Buza EL, Bell P, Wilson JM.AAV-PHP的神经嗜性。B仅限于C57BL / 6J小鼠。莫尔瑟。2018;26:664–668.密码:29428298
查看文章PubMed/NCBI谷歌学术搜索
13.Stanton AC, Lagerborg KA, Tellez L, Krunnfusz A, King EM, Ye S, et al.全身施用新型工程AAV衣壳有助于增强猕猴CNS中的转基因表达。医学(N Y)。2022. pmid:36417917
查看文章PubMed/NCBI谷歌学术搜索
14.谢尔曼 H, 罗西 AE.一种新型三维胶质瘤血脑屏障模型,用于高通量肿瘤杀灭能力测试。前昂科尔。2019;9:351.密码:31131260
查看文章PubMed/NCBI谷歌学术搜索
15.布朗 TD, 诺瓦克 M, 贝勒斯 AV, 普拉巴卡尔潘迪安 B, 卡兰德 P, 拉汉 J, 等.用于评估血脑屏障的人脑微流体模型(μHuB)。生物翻译医学 2019;4:e10126.
查看文章谷歌学术搜索
16.梁彦, 尹建英.芯片上用于血脑屏障 (BBB) 的原位传感器。传感器和执行器报告 2021;3:100031。
查看文章谷歌学术搜索
17.Garita-Hernandez M, Routet F, Guibbal L, Khabou H, Toualbi L, Riancho L, et al. AAV 介导的基因递送到源自人类诱导多能干细胞的 3D 视网膜类器官。国际分子科学杂志 2020:21.pmid:32028585
查看文章PubMed/NCBI谷歌学术搜索
18.Depla JA, Sogorb-Gonzalez M, Mulder LA, Heine VM, Konstantinova P, van Deventer SJ, et al. 脑类器官:AAV衣壳选择和大脑治疗性转基因功效的人类模型。摩尔方法临床开发 2020;18:167–175.密码:32637448
查看文章PubMed/NCBI谷歌学术搜索
19.Cho C-F, Wolfe JM, Fadzen CM, Calligaris D, Hornburg K, Chiocca EA, et al.血脑屏障球体作为脑穿透剂的体外筛选平台。纳特公社。2017;8:15623.密码:28585535
查看文章PubMed/NCBI谷歌学术搜索
20.于春萍, 袁志, 曹志, 王斌, 乔春, 李军, 等.AAV2 上显示的肌肉靶向肽可改善全身递送时的肌肉嗜性。吉恩·瑟。2009;16:953–962.密码:19474807
查看文章PubMed/NCBI谷歌学术搜索
21.施文, 巴特利特 JS.VP3 中的 RGD 包含为基于腺相关病毒 2 型 (AAV2) 的载体提供了与硫酸乙酰肝素无关的细胞进入机制。分子疗法:美国学会杂志。吉恩·瑟。2003:515–525.
查看文章谷歌学术搜索
22.White AF, Mazur M, Sorscher EJ, Zinn KR, Ponnazhagan S. 腺相关病毒载体 2 型衣壳的遗传修饰增强了极化人气道上皮细胞的基因转移效率。哼哼唧唧。2008;19:1407–1414.密码:18778196
查看文章PubMed/NCBI谷歌学术搜索
23.Ponnazhagan S,Mahendra G,Kumar S,Thompson JA,Castillas M Jr.通过使用亲和素连接的配体基于偶联物靶向重组腺相关病毒2型载体。J 维罗尔。2002;76:12900–12907.pmid:12438615
查看文章PubMed/NCBI谷歌学术搜索
24.鲁尔 J, 穆克 A, 布赫霍尔茨 CJ.配体与AAV衣壳偶联以进行细胞特异性基因转移。方法分子生物学. 2019;1950:35–50.密码:30783967
查看文章PubMed/NCBI谷歌学术搜索
25.Münch RC, Muth A, Muik A, Friedel T, Schmatz J, Dreier B, et al.通过亲和纯化的受体靶向病毒载体进行脱靶基因递送。纳特公社。2015;6:6246.pmid:25665714
View ArticlePubMed/NCBIGoogle Scholar
26.明希RC, Janicki H, V?lker I, Rasbach A, Hallek M, Büning H, et al.在腺相关病毒载体上显示高亲和力配体可实现肿瘤细胞特异性和安全的基因转移。莫尔瑟。2013;21:109–118.pmid:22968478
查看文章PubMed/NCBI谷歌学术搜索
27.Muik A, Reul J, Friedel T, Muth A, Hartmann KP, Schneider IC, et al.通过蛋白质反式剪接将高亲和力配体与病毒载体颗粒表面共价偶联介导细胞类型特异性基因转移。生物材料。2017;144:84–94.密码:28825979
查看文章PubMed/NCBI谷歌学术搜索
28.Eichhoff AM, B?rner K, Albrecht B, Sch?fer W, Baum N, Haag F, et al. AAV基因治疗载体的纳米抗体增强靶向。Mol Ther Methods Clin Dev. 2019;15:211–220.密码:31687421
查看文章PubMed/NCBI谷歌学术搜索
29.Hamann MV, Beschorner N, Vu X-K, Hauber I, Lange UC, Traenkle B, et al.通过纳米抗体修饰的AAV4基因治疗载体改善了人CD2 + T细胞的靶向性。公共图书馆一号。2021;16:e0261269.密码:34928979
查看文章PubMed/NCBI谷歌学术搜索
30.Ravindra Kumar S, Miles TF, Chen X, Brown D, Dobreva T, Huang Q, et al. 多重Cre依赖性选择产生用于靶向不同脑细胞类型的系统性AAV。纳特方法。2020;17:541–550.密码:32313222
查看文章PubMed/NCBI谷歌学术搜索
31.Hanlon KS, Meltzer JC, Buzhdygan T, Cheng MJ, Sena-Esteves M, Bennett RE, et al.选择用于稳健的CNS转基因表达的高效AAV载体。Mol Ther Methods Clin Dev. 2019;15:320–332.pmid:31788496
查看文章PubMed/NCBI谷歌学术搜索
32.张 Y, 陈 K, 斯隆 SA, 贝内特 ML, 舒尔茨 AR, 奥基夫 S, 等.大脑皮层神经胶质细胞、神经元和血管细胞的 RNA 测序转录组和剪接数据库。J 神经科学。2014;34:11929–11947.密码:25186741
查看文章PubMed/NCBI谷歌学术搜索
33.Loughner CL,Bruford EA,McAndrews MS,Delp EE,Swamynathan S,Swamynathan SK.人类和小鼠Ly6 / uPAR家族基因的组织,进化和功能。哼哼基因组学。2016;10:10.密码:27098205
查看文章PubMed/NCBI谷歌学术搜索
34.McInnes L,Healy J,Melville J. UMAP:用于降维的均匀流形近似和投影。2018 [引用时间:9年2022月<>日]。
查看文章谷歌学术搜索
35.Hordeaux J, Yuan Y, Clark PM, Wang Q, Martino RA, Sims JJ, et al.GPI连接的蛋白LY6A驱动AAV-PHP。B 穿越血脑屏障的运输。莫尔瑟。2019;27:912–921.密码:30819613
查看文章PubMed/NCBI谷歌学术搜索
36.麦迪森 L, 茨温曼 TA, Sunkin SM, Oh SW, 扎里瓦拉 HA, 顾 H, 等.用于整个小鼠大脑的强大且高通量的Cre报告和表征系统。纳特神经科学。2010;13:133–140.pmid:20023653
查看文章PubMed/NCBI谷歌学术搜索
37.Sinai S, Jain N, Church GM, Kelsic ED. 通过潜在插值生成 AAV 衣壳多样化。生物Rxiv。2021:第2021.04.16.440236页。
查看文章谷歌学术搜索
38.Eid F-E, Chen AT, Chan KY, Huang Q, Zheng Q, Tobey IG, et al.系统化的多性状AAV衣壳工程,可实现高效的基因传递。生物Rxiv。2022. 第 2022.12.22.521680 页。
查看文章谷歌学术搜索
39.布莱恩特DH,巴希尔A,西奈S,Jain NK,Ogden PJ,Riley PF等。通过机器学习实现AAV衣壳蛋白的深度多样化。纳特生物技术公司。2021;39:691–696.密码:33574611
查看文章PubMed/NCBI谷歌学术搜索
40.Shin J-E, Riesselman AJ, Kollasch AW, McMahon C, Simon E, Sander C, et al.使用自回归生成模型进行蛋白质设计和变异预测。纳特公社。2021;12:2403.
查看文章谷歌学术搜索
41.格奥尔基耶夫股份公司。氨基酸空间的可解释数字描述符。计算生物学杂志. 2009;16:703–723.pmid:19432540
查看文章PubMed/NCBI谷歌学术搜索
42.Alley EC,Khimulya G,Biswas S,AlQuraishi M,Church GM.具有基于序列的深度表示学习的统一理性蛋白质工程。纳特方法。2019;16:1315–1322.密码:31636460
查看文章PubMed/NCBI谷歌学术搜索
43.谢伊TF, 沙利文EE, 丁X, 陈X, 拉文德拉库马尔S, 戈尔特森D, 等.灵长类保守的碳酸酐酶IV和小鼠限制性LY6C1使血脑屏障通过工程病毒载体交叉。科学进展 2023;9:eadg6618.pmid:37075114
查看文章PubMed/NCBI谷歌学术搜索
44.Kalucka J, de Rooij LPMH, Goveia J, Rohlenova K, Dumas SJ, Meta E, et al. 小鼠内皮细胞的单细胞转录组图谱。细胞。2020;180:764–779.e20.密码:32059779
查看文章PubMed/NCBI谷歌学术搜索
45.加西亚 FJ, 孙 N, 李 H, 戈德莱夫斯基 B, 马蒂斯 H, 加拉尼 K, 等.人脑脉管系统的单细胞解剖。自然界。2022;603:893–899.密码:35158371
查看文章PubMed/NCBI谷歌学术搜索
46.Winkler EA, Kim CN, Ross JM, Garcia JH, Gil E, Oh I, et al.正常和畸形人脑脉管系统的单细胞图谱。科学。2022;375:eabi7377.密码:35084939
查看文章PubMed/NCBI谷歌学术搜索
47.杨AC, 背心, Kern F, Lee DP, Agam M, Maat CA, et al.人脑血管图谱揭示了阿尔茨海默氏症风险的不同介质。自然界。2022;603:885–892.密码:35165441
查看文章PubMed/NCBI谷歌学术搜索
48.塔贝博德巴, 朱珂, 程建伟, 周文林, 威德里克, 闫文兴, 等.营养不良小鼠肌肉和肌肉干细胞中的体内基因编辑。科学。2016;351:407–411.密码:26721686
查看文章PubMed/NCBI谷歌学术搜索
49.Lee Y,Messing A,Su M,Brenner M.区域特异性和星形胶质细胞特异性表达所需的GFAP启动子元件。神经胶质。2008;56:481–493.密码:18240313
查看文章PubMed/NCBI谷歌学术搜索
50.Langmead B, Salzberg SL. 与 Bowtie 2 的快速间隙读取对齐。纳特方法。2012;9:357–359.密码:22388286
查看文章PubMed/NCBI谷歌学术搜索
51.Danecek P, Bonfield JK, Liddle J, Marshall J, Ohan V, Pollard MO, et al.十二年的SAMtools和BCFtools。千兆科学。2021:10. pmid:33590861
查看文章PubMed/NCBI谷歌学术搜索
52.李H, 汉德克 B, 威索克 A, 芬内尔 T, 阮 J, 荷马 N, 等.序列对齐/映射格式和 SAMtools。生物信息学。2009;25:2078–2079.密码:19505943
查看文章PubMed/NCBI谷歌学术搜索
53.Pedregosa V, Gramfort M, Thirion G. Scikit-learn: Machine Learning in Python.J Mach Learn Res. 2011;12:2825–2830.
查看文章谷歌学术搜索
54.Kingma DP, Welling M. Auto-Encoding Variational Bayes.2013 [引用日期2022-30-<>].
查看文章谷歌学术搜索