巴尔的摩——美国国立卫生研究院的研究人员和他们的合作者正在探索使用纳米孔测序技术来分析数千个大脑样本,这是阿尔茨海默病和相关疾病研究的一部分。
由美国国立卫生研究院最近成立的阿尔茨海默氏症及相关痴呆中心(CARD)启动的长读测序项目,旨在为纳米孔测序的大规模应用建立一个框架,同时填补有关阿尔茨海默氏症和其他神经疾病基因组变异的知识空白。
参与CARD长读测序项目的NIA研究员Cornelis Blauwendraat说,CARD成立于大约两年前,是美国国家神经疾病和中风研究所(NINDS)和美国国家衰老研究所(NIA)之间的合作项目。
Blauwendraat说:“CARD的目标之一是产生资源。”他补充说,长读测序项目是NIH和其他学术科学家的合作项目,打算对大约4000个大脑样本进行测序,为其他研究人员创建一个测序和生物信息学资源。
加州大学圣克鲁兹分校的Benedict Paten教授是CARD的成员,他表示,该项目的目标是创建类似于Broad研究所的基因组分析工具包(GATK)的东西,后者提供的基因组变异分析工具主要是为Illumina数据设计的,但用于纳米孔测序。Paten说,虽然还有其他的长读测序模式,如太平洋生物科学公司的HiFi测序,但由于其成本优势和可扩展性,该团队决定将纳米孔测序作为该项目的选择。他说:“(PacBio) HiFi是一项了不起的技术,但目前vwin德赢ac米兰合作,它的推广成本昂贵且耗时。”
据Blauwendraat介绍,该项目包含的大约4000个样本将是冷冻脑组织,大部分来自北美的生物银行,涵盖阿尔茨海默氏病、路易体痴呆和其他痴呆症。
Blauwendraat说,虽然研究脑组织可能需要“多付出一点努力”,但研究这些样本也有额外的好处。首先,与血液等其他样本类型相比,大脑可以直接洞察与神经疾病有关的镶嵌变异。此外,纳米孔测序不仅可以对这些样本中的DNA进行测序,还可以发现甲基化信号。
Blauwendraat强调,该项目正在努力纳入不同背景的受试者。他说:“我们不只是想对几千个欧洲血统的样本进行测序,然后就收工。”
虽然长读测序项目仍在优化其工作流程,Blauwendraat说,湿实验室的协议通常是从干冰上的生物库到达后,将冷冻脑组织分割成小块,以便进行DNA分离。
然而,考虑到大脑是一个“相当脂肪”的器官,Blauwendraat说,该团队必须优化不同大脑区域的DNA提取协议,以获得适当的DNA产量,用于纳米孔测序,同时保持DNA分子的完整性。“这是一个非常微妙的过程,”他解释说。“我们真的想要保存长时间的阅读。”
经过QC后,DNA将进行剪切,得到大小在30kb - 35kb之间的片段,这是本研究的纳米孔测序的最佳条件。剪下的DNA将被转化为文库,并使用牛津纳米孔技术公司的PromethIon平台进行测序。
Blauwendraat说,这个项目的目标是为每个流式细胞测序一个样本,以达到30到40倍的基因组覆盖率和约30 kb的N50。他补充说,该团队操作着两台牛津纳米孔PromethIon 48和一台PromethIon 24测序仪。
除了测序,该项目还旨在建立一个计算基础设施,以实现大规模纳米孔测序数据的阶段性组装。“直到最近,还没有真正的端到端流水线来进行纳米孔(测序)的分阶段组装,”Mikhail Kolmogorov说,他是国家癌症研究所的研究员,也是CARD的一部分。
为了解决这个问题,Kolmogorov说,该团队已经开发了大规模管道新创基因组组装只使用纳米孔测序数据。“我们花了很多时间来确保装配非常准确,”他说。“我们希望尽可能生产出最好的二倍体组合。”
Kolmogorov表示,项目的最终分析输出将包括一系列阶段性的小型和结构变体。最后,来自样本的所有数据——包括原始测序数据、校准和组装数据文件以及甲基化数据——将通过AnVIL“广泛提供给任何合格的研究人员”,AnVIL是美国国家卫生研究院指定的数据存储平台,该组织说。
Blauwendraat说,考虑到这个项目的规模,该团队必须克服一些技术瓶颈。其中之一就是大规模地进行湿法实验。为了解决这个问题,该项目在机器人技术上“投入了大量资金”,他说,该团队目前正在测试各种用于样品制备和QC的自动化平台。
不过,Blauwendraat说,切割大脑的步骤不容易自动化,这是一个挑战,仍将是更多的劳动密集型。
另一个瓶颈是大量的数据,因为每个样本将生成大约1tb的数据。他说,为了克服这一问题,卡尔德为该项目提供了光纤和高速互联网,以促进数据传输。
关于纳米孔测序的误差率,Paten说,在全基因组范围内检测单核苷酸变异方面,纳米孔测序目前优于基于瓶中基因组(GIAB)统计数据的Illumina测序。他说:“(纳米孔测序)在精度上有一个小缺陷,但遗漏的变异更少,结果覆盖的基因组更多,这一事实弥补了这一缺陷。”
然而,对于纳米孔测序来说,“均聚物仍然是一个问题”,Paten说,并补充说他认为这“只是一项正在进行中的工作”。
到目前为止,该小组已经对大约250个样本进行了测序。虽然研究人员希望在开始扩大规模之前确保一切都运转良好,但他们希望在今年年底发布一份预印本,描述该项目使用的方法。
最终,该团队希望揭示与神经疾病相关的基因组变异,这是以前用短读测序无法实现的。
“我对描述种系的结构变异非常感兴趣,但也对体细胞和镶嵌水平感兴趣,”贝勒医学院的研究员、CARD长读测序项目的另一位学术合作者Fritz Sedlazeck说。
他说,神经疾病的遗传性缺失的一个原因是缺乏对基因组内复杂重复序列的知识。有了这个项目中产生的纳米孔长读取数据,研究人员现在可以深入研究基因组的这些部分,并确定可能与阿尔茨海默病和相关疾病相关的变异。
Sedlazeck说:“我不认为任何人可以声称他们将用4000个样本来解决(这些大脑疾病),但我们将进行一场战斗,并发现一些新的很酷的东西。”