最最最重要的Hi-C辅助组装问题盘点
2018.01.19

2017年初时你可能还在了解什么是Hi-C辅助基因组组装,年末时你的基因组文章可能收到的投稿反馈意见是建议组装到染色体水平,这时你是不是已发现Hi-C辅助组装是一个不可忽视的存在~


Hi-C辅助组装因其可辅助基因组组装至染色体水平所以在基因组文章发表中承担了无可替代的作用。从不完全统计的基因组文章来看,Hi-C辅助组装已成为辅助基因组组装的经典方法。


表1 Hi-C辅助基因组组装文章

1516536335744484.jpg


小编结合文章和大家关心的问题进行总结和汇总,抛砖引玉,仅供参考。

image.png

基因组组装水平不同,该基因组可进行的分析也不同。染色体水平的参考基因组是众多分析的基础需求,因此通常建议基因组组装到染色体水平。


1516536471893403.png

图1 染色体水平的参考基因组必要性


以上仅是基因组学的相关分析,其实表观遗传学等其他组学相应的分析(如全基因组甲基化等)也是将染色体水平的参考基因组作为必备条件。

image.png

Hi-C辅助基因组组装的关键点是有效数据的覆盖度。下面小编通过一个简单的示意图来说明Hi-C数据组成的问题。


1516536530220429.png

图2 Hi-C测序数据组成


上图可显示Hi-C数据组成的多样性,而实际用于Hi-C辅助组装分析的只能是Valid Pairs,即有效数据,且Valid Pairs比例越高,辅助组装效果越好。


表2 Hi-C测序数据量


1516536550205176.jpg


上表反映了部分上述基因组文章中所采用的数据量的问题。


说明:

1)此表中Super-scaffold均是采用了Hi-C数据进行scaffolding以后统计的结果,而Scaffold均采用除Hi-C外的其他二代、三代、光学图谱技术结果等进行组装得到的;2)预估测序数据量的估算是根据项目经验中有效数据比例来计算需要的初始测序数据量。其中Unique Mapped Ratio 在植物中按照25%计算,动物中按照40%计算。


结论:


1

草图(指未经过染色体锚定技术挂载的组装版本)组装质量越好,即在保证准确性的基础上,contig/scaffold长度越长,辅助组装的效果越好,需要的有效Hi-C数据越少(参考山羊基因组);

2

测序数据量具体需求需要考虑基因组大小、草图的组装质量、有效数据的占比等,较多初始预估测序深度>100X。因此关于初始测序数据量建议根据项目经验、草图的组装质量、Hi-C小数据评估得到的有效数据比例来进一步最终确定。


image.png

辅助组装结果通常可以采用挂载率(挂载后版本占组装草图的长度比例)来进行说明,目前安诺所有的项目挂载率均在90%以上,部分项目挂载率甚至超过98%。但若仅通过挂载前后的数据比较结果来评估组装效果还是有些浅显的,从已发表的文章看,更多的评估是采用和遗传图谱组装后的版本进行一致性分析。目前安诺基因不仅可以进行上述分析外,还可以采用以下多种方式进行辅助组装结果评估:1516536664552317.jpg

图3 Hi-C辅助组装结果评估方式

 

不同的评估方式可以从不同层面反映辅助组装的效果,其中互作热图是最常见也是最直观的一种评估方式。image.png

辅助组装不仅能够实现染色体水平的scaffolding,还能够对于草图组装存在的错误进行一定的纠错,将能很好地提升目前基因组组装的质量,降低组装错误。2017年Dudchenko O. 等人在现有组装策略基础上,提出增加纠错分析环节(Science告诉你如何组装获得染色体长度的scaffold),并通过3d-dna软件实现了对基因组草图先纠错再组装的功能,但该软件通用性有限,纠错的功能并没有得到很好的应用。


目前,安诺基因在常用软件LACHESIS的基础上进行分析流程的优化,成功实现Hi-C辅助组装过程中的纠错功能,且实际项目的组装效果在纠错后提升显著。


1516536721197378.jpg

图4 Hi-C辅助组装纠错前后热图对比

image.png

2017年,安诺基因不仅在建库、测序上实现技术瓶颈突破,使得测序数据量大幅减少,建库成功率和有效数据利用率不断提升,Hi-C辅助组装分析也完成流程的强势升级。主要体现在以下几个方面:1


优化LACHESIS分析流程,使得该软件适用于不同组装程度的草图辅助组装,且明显提升组装效果,获得真正意义上的染色体长度的scaffold,即染色体水平的参考基因组。在结果展示上也对比已发表文章,增加辅助组装后的结果统计,更好地展示提升效果。


2


多水平的辅助组装结果评估,其中互作热图评估作为标准分析,共线性分析、一致性分析、准确性分析均可根据实际项目情况选择作为个性化分析提供。3


LACHESIS分析流程基础上增加辅助组装纠错分析,强势助力基因组组装。


当然,我们绝不会止步于此,后续将会在Hi-C辅助组装结果分析中加入更多的实用分析环节,例如染色体特殊结构位置预测等,更好地服务于大家,敬请期待。


文案: 动植物产品经理 谌业珍

设计:胡珊珊


在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980