着丝粒分析助力玉米Mo17基因组完整组装3
发表时间:2023-12-09 16:44 2023年6月15日,中国农业大学农学院、国家玉米改良中心、玉米生物育种全国重点实验室赖锦盛教授团队以题为“A complete telomere-to-telomere assembly of the maize genome”在国际知名期刊Nature Genetics《自然·遗传学》上在线发表了玉米全基因组所有染色体端粒到端粒完整无间隙组装结果,在复杂动植物基因组中第一个实现真正意义上的全基因组完整无间隙组装。该研究是复杂基因组组装领域工程技术研究的重大突破,攻克了复杂动植物基因组组装的最后一道难题,是基因组组装和基因组学研究的一个重要里程碑。
本世纪初,多国科学家共同参与的被誉为生命科学“登月计划”的人类基因组草图公布。尽管并不完整,却在生物医学领域产生了深远的影响,同时也极大推动了基因组学的发展。随后,拟南芥、小鼠、水稻、玉米等几百个物种的参考基因组序列草图相继公布。然而由于基因组的复杂性,特别是大量重复序列的存在,组装过程中大量高度相似的DNA序列碎片难以被正确的还原到准确的基因组位置上,使得参考基因组存在大量未知的“空白”区域。很长时间来,实现一个物种所有染色体从端粒到端粒(T2T)都完整无缺的基因组组装是基因组学研究人员遥远的梦想。 近年来,经过数十个研究机构的近百名科学家组成的国际科研团队(T2T联盟)的共同努力,基于只含单个亲本基因组的细胞系(不含Y染色体),完成了完整的无间隙的人类单亲本细胞系基因组序列组装(不含Y染色体),朝着完成真正的完整人类基因组组装迈进了一大步。同时,在植物基因组学领域,多个相对比较小的模式物种基因组(拟南芥、水稻等)的大部分染色体实现了T2T的完整无间隙组装陆续发表,但绝大部分基因组依然存在不同程度的未组装区域。迄今为止,包括人类、拟南芥和水稻等在内,还没有一个复杂动植物基因组(基因组比较大,包含几百或几千个以上核糖体DNA拷贝)实现全基因组所有染色体的完整无间隙组装。 玉米是世界范围内的重要作物,其基因组组装对玉米基础研究和分子育种均有重要意义。同时,玉米也是经典的复杂基因组研究的模式植物。自2009年玉米基因组草图公布以来,已有近50个不同玉米自交系基因组被组装。然而,由于玉米基因组大(与人类基因组相近),且拥有超过80%的重复序列,目前已报道的玉米基因组都存在数百或数千个“空白”区域未被解析。 Mo17自交系是经典的玉米杂种优势群Lancaster群的代表。Mo17自交系及其衍生材料在我国玉米生产中被广泛应用。赖锦盛教授团队以Mo17自交系为材料,综合利用了约237×的ONT Ultralong和约69.4×的Pacbio HiFi测序数据,完成了最新的玉米基因组组装,其大小为2,178.6 Mb,每条染色体的端粒到端粒均由一条完整连续的序列组成,碱基精确度超过99.99%。最新的组装不仅在过去高质量组装的基础上增加了1029个基因,还解锁了玉米基因组中结构最为复杂、从未被组装的基因组空白区。这是首个完整的、无间隙的玉米基因组序列,也是首个所有染色体都完整组装的复杂动植物基因组。 图1. Mo17基因组完整组装 完整Mo17基因组的组装,使人们第一次有机会对玉米基因组组装中最具挑战性区域的序列和结构特征一探究竟。大部分植物拥有上千个45S rDNA。通过完整组装,研究人员发现玉米的核仁组织区长达26.8 Mb,包含有2,974个45S rDNA拷贝,其区域内rDNA复制和转座子插入模式高度复杂。在此之前,植物中核仁组织区完整组装的物种仅含有数十个45S rDNA拷贝。另外,研究人员还发现玉米基因组内存在主要由TAG三核苷酸重复组成的超长简单序列富集区,长度可达1.56 Mb,包含近30万个TAG拷贝,其中连续的TAG重复序列最长达235 kb。此外,对完整基因组组装的分析也揭示了大量存在于不同着丝粒间和不同亚端粒区的基因组序列和结构变异。这些研究结果对进一步理解高等植物基因组复杂性和功能具有重要意义。 图2. 玉米核仁组织区基因组结构和45S rDNA拷贝数 |