基于染色体相互作用的植物基因组组装策略:拟南芥案例
De Novo Plant Genome Assembly Based on Chromatin Interactions: A Case Study of
Arabidopsis thalianat


为了把scaffold归到不同的染色体组,遵循染色体之内的相互作用频率高于染色体之间。由de novo组装获得的1705个scaffold(总长度112.61Mb,N50=341.63kb)用于染色体水平的Hi-C组装。拟南芥Ler生态型的两个技术重复Hi-C reads比对到scaffolds上,计算scaffolds之间的相互作用reads对数。根据scaffolds之间的相互作用强弱,用Lachesis软件包将scaffolds划分到5条染色体。99.10%的scaffolds归到5条染色体中的一条,只有少数相互作用及弱的未能成功归到染色体中(图1);1.01Mb没有归类的序列中,大多数属于5个HindIII酶切位点的scaffold,这样的scaffold不能产生充足的相互作用信号。哥伦比亚(Col)生态型的基因组序列作为参考来评估scaffold归类效果。共有1350个scaffolds(97.19%)正确归类到染色体上,表明Hi-C能将序列正确地划分到不同染色体中,包括跨越着丝粒的区域。

图1 Hi-C用于拟南芥ler的scaffold归类结果
为了进一步验证,本文将此结果与之前基于高密度遗传图谱的组装结果相比较,遗传图谱中238个scaffolds被定位到染色体上,用Hi-C辅助组装有236个scaffold被成功归类到染色体上,两种方法的一致性高达97%(图2)。

图2 Hi-C归类效果与遗传图谱比较
同一条染色体内的scaffolds根据相互作用强弱(相互作用强的挨着近)排序与定向,大部分的scaffolds能够成功排序与定向(n=551),包括大多数着丝粒间隙区域。总scaffold长度的6.4%成功归到染色体上,但是不能排序和定位,这其中大多数(892/894)scaffold少于15个HindIII酶切位点,在用Lachesis软件包排序时被过滤掉。如图3,Hi-C获得的排序结果与哥伦比亚(Col)生态型高度吻合。大多数的错误排序发生在4号染色体,这可能由于Ler生态型发生了染色体重排(相对于Col)。
用遗传图谱232个scaffolds能够正确定位,Hi-C的方法221个scaffolds能够成功排序与定向,其中220个和遗传图谱的结果一致(图4)。
图3 Hi-C排序scaffolds效果

图4 Hi-C排序、定向scaffolds效果与遗传图谱比较
和传统的遗传图谱相比,Hi-C辅助基因组组装有很高的敏感度和特异性。在用遗传图谱组装的过程中,遗传标记探针用于鉴定细胞分裂中突触染色体的遗传交互,这决定了scaffold之间的相邻关系。基于遗传图谱的基因组组装灵敏度受限于scaffold长度、群体大小、多态性标记的密度和重组基因型的比例。在Hi-C辅助组装中,scaffolds相邻关系的构建基于染色质相互作用强弱,Hi-C能够获取所有染色质的相互作用关系,因此Hi-C能组装更多的scaffold。此外,Hi-C 获得的读取片段作为标记,其长度是SSR或者SNP标记的4-5倍,必然导致Hi-C组装比传统遗传图组装有更高的定位特异性。Hi-C可以对已经发表的基因组中没有定位的scaffold进行定位,提高已发表基因组的完整性。
Xie T, Zheng J F, Liu S, et al. De Novo Plant Genome Assembly Based on Chromatin Interactions: A Case Study of Arabidopsis thaliana[J]. Molecular Plant, 2015, 408(3): 489-492.