如何获得高质量Hi-C数据?资深大神告诉你答案~
2017.12.15


看过一月连发5篇高分paper,这个热点你得跟上~这篇推文后,是不是很想抓住这个热点呢?无奈Hi-C技术了解太少,不理解,怎么办?小编来帮忙~安诺优达Hi-C技术国际领先,项目经验丰富,诸多文章见刊Nature主刊和Cell子刊。此次,小编为大家介绍一下Hi-C文库中的数据组成和Hi-C相关技术发展过程中在实验操作方面的改进,着重剖析Hi-C文库中无效数据的组成及可能的原因,让小伙伴更好地理解无效数据的组成,在后续的实验过程中改进实验方法,获得高质量的Hi-C数据。


不同Hi-C实验方法与染色质内数据比例


2009年Erez Lieberman-Aiden在3C技术的基础上创造性地在酶切片段粘性末端添加生物素,使嵌合片段能被链亲和素特异性富集开发了第一代 dilution Hi-C技术[1]。该技术与二代测序完美结合,解决了5C在全基因组水平构象数据量瓶颈的问题,使得在全局范围内研究三维结构成为可能。




1.jpg

图1 Hi-C实验原理


早期研究认为去垢剂SDS在对交联的细胞核进行处理时,低浓度的SDS(0.3%-1% SDS)加热到65℃会导致细胞核碎裂,基因组的DNA会释放到溶液中。因此在dilution Hi-C的酶连反应体系中,作者选用了近8ml 的大连接体系。随后4C研发人员通过用显微镜观测SDS处理细胞核,发现细胞核仍然维持在一个较为稳定的结构。在共聚焦显微镜下观察,利用1% SDS处理细胞核,会导致细胞核的通透性发生改变,但很少细胞核发生裂解。

 

另一个影响交联反应的因素是温度,通常认为65℃以上,在有NaCl存在的情况下,甲醛交联的DNA会发生解交联现象,从而影响染色质构象的稳定。在第一版本的Hi-C选用了65℃ 1% SDS处理细胞核10min,从最终的数据看染色质间的互作数据高达27.1%-65.3%。通常认为染色质是独立折叠定位在细胞核中形成染色质领域的,因此染色质间的数据通常会认为是无效数据(bais)。

 

直到2012年Chen Lin实验室意识到细胞核的扰动会影响到染色质的高级构象,因此他们在Hi-C实验的基础上,将生物素标记在蛋白上,将反应体系固定在磁珠上,使得反应体系扰动更小,更稳定[2] ,同时DNA-蛋白复合物限定在一个相对独立的区域进行反应,减少了分子间的互作概率,实验结果表明该方法可显著降低染色质之间互作数据占总体数据的比例。


 

1513329850271626.jpg

图2 TCC实验原理


2014年EreZ对Hi-C的实验进行了进一步的改进[3],他们在SDS处理细胞核的步骤选用了更温和的0.5% SDS 62℃处理5-10min,而细胞连接的体系也降低到1ml,值得一提的是他们在文章中尝试了未交联的Hi-C实验。发现除噪音增加外,可获得与正常Hi-C相似的热图。

 

In situ Hi-C的改进使得染色质间的互作数据进一步降低,实测数据显示Trans-interaction占valid pair的比例在20%左右。

 

在2015年,又有研究将SDS的处理条件更换成37℃ 60min,他们认为该方法可以更大程度维持细胞核的稳定性,提高intra/inter数据的比例[4]

 

表1 in solution Hi-C与 in nucleus Hi-C数据比较

1513329868213372.jpg


随着对Hi-C数据的进一步认识,研究人员发现一些超近距离的连接(<20Kb的数据)可能并不是有意义的由蛋白介导的空间上靠近的互作,而可能是线性距离较近引起的随机连接,因此引入了这一参数来评判数据的质量。

 

为更好地去除随机连接导致的bais,有研究利用统计模型认为三片段的连接可减少随机连接的可能性,因此他们采用了类似于ChIA-PET的方法,在连接反应过程中,添加一个带有生物素的bridge-linker[5],通过富集带有linker的嵌合片段,来改善实验中存在的随机连接可能性。作者自测的结果表明,添加linker后染色质内的互作比例比in situ Hi-C和HiChIP都有显著改善。

 

1513329884446450.jpg


图3 BL-HiC实验原理图


除了cis/tran作为评判Hi-C数据的质量以外,Hi-C数据中还存在大量的无效数据,它们的存在会影响数据的有效利用率,以下篇幅将逐一进行介绍。

 

Hi-C文库质控及过滤



为了更好地理解Hi-C数据,在此我们简要介绍下基于illumina平台的二代测序文库。

 

1513329899210968.jpg

图4 二代测序文库建库示意图


在标准的二代文库中,DNA片段通过末端补平加A,再添加adapters。此时reads的两侧各带发卡结构P5/P7的测序接头,为了获取足够上机的DNA文库,通常还需要进行一轮扩增,扩增后的文库两端各带一种测序接头。

 


1513329912928187.png


图5 桥式PCR


在pool DNA到芯片上时,文库片段首先anneal在芯片的测序接头上,然后用DNA聚合酶进行扩增,DNA生长在芯片上;经过25-28轮的扩增,每条reads被扩增至数以千计的拷贝,利用添加可逆的终止子来检测碱基的组成。通过150轮添加可逆终止子并采集信号即可完成测序。

 

由于DNA聚合酶的自身的偏性,GC含量相对合适的片段及小片段更容易在芯片生长阶段得到富集。小片段(<150nt)在测序过程中,由于两端各读取150个碱基,就极可能将DNA插入片段读通,从而这部分的DNA就可能被检测到adapter污染。

 1513329932283977.jpg


图6 测序read示意图


Hi-C标准文库是标准的Chimera结构,在将两端序列进行比对到基因组上时,理论上两侧pair ends可以分别比对到基因组的两个座位。由于DNA在碎片化过程中,剪切是随机的,因此酶切位点末端补平形成的junction fragment很可能分布在一侧的reads中,常规的比对分析是很难处理chimera的。在HiC-Pro[6]和HiCUP[7]软件中,他们会去识别理论的junction  fragment。如HiC-Pro在比对时先进行Global Mapping,后将unmapping的reads用junction fragment序列进行识别并切割,再进行local mapping,最终将数据进行合并。

 


1513329948931955.jpg

图7 HiC-Pro的两种比对策略


在实际比对中,即使采用两步比对方式,仍有可能是只有一端序列能比对到基因组中,另外一端无法识别到基因组中,这种情况我们将其归类为Singleton。它产生的原因可能有①adapter污染(先前数据没进行过滤);②另一侧数据质量较差,多数为N的区域;③DNA片段被降解或酶切反应产生星号活性。同时片段过短,150碱基已经读通了生物素标记的位点,但是该位点不是正常的junction fragment。在植物样本中,singleton较为常见,可能与细胞壁破碎不完全,部分细胞质成分进入到反应体系影响酶切有关。

 

有些植物的基因组存在大量的重复序列,如玉米中85%的序列被认为是重复序列。这对要求两端都要唯一比对的Hi-C而言是巨大的挑战,一旦有一段比对到两个或两个以上的位点,该reads就将被归类到Multiple mapped reads中。

 

如果在比对过程中,global mapping 和 local mapping均无法将序列识别到特定的位点,这种序列会被归类到Unmapped reads。它可能产生的原因是基因组的组装完整度较差,基因组中存在大量的gap无法识别,被填充为NNNNN。另一个原因是酶切片段较碎,多个酶切片段连接在一起,无法识别到特定座位。

 

如果两侧数据都能比对到基因组的数据会被统一认为是Unique mapped reads,此时对于动物基因组,unique mapped reads 占测序量(clean reads)50%以上应是可接受的范围。对于植物样本,尤其是重复序列较多的样本,unique mapped reads 比例可能会急剧降低。

 

在获取unique mapped reads后,要进行进一步过滤,以识别真正有效的interaction reads。

 1513329966348785.jpg



图8 三种比对过程识别的无效数据


根据Hi-C实验的基本原理PLA(proximity ligation assay)可发现,空间上相互靠近的片段更有机会被连接在一起。因此只有两个来源不同的片段连接在一起才会被认为是标准的文库片段。而这片段是指利用限制性内切酶酶切的Fragments,即唯有两个片段能分别比对到两个不同的酶切片段上,且实际片段(observe)符合理论的片段大小,在分析是才会将其归类到valid pairs中。

 

1513329983778230.png1513330021493791.png


图9 Hi-C数据过滤


因此在分析过程中会将部分无效的数据进行过滤,首先是如果两个片段原本通过一个酶切位点连接在一起,在Hi-C文库中如果该片段即使酶切后添加生物素仍然连接在一起,该片段会被归类到Re-ligation reads中;而如果两个的reads比对到同一个fragment,但是方向相反,则该reads会被认为是首尾相连形成了Self-circle ;如果pair end 同时比对到一个酶切片段上,则该片段会被认为是Dangling ends;如果有一个发现是adapter污染,该reads会被认为是Adapter polluted;如果两侧的end均能比对到基因组的两个酶切片段中,但是观测到的片段大小与理论的片段大小不一致,则该片段会认为是错误连接而被归类为Dumped reads;只有比对到两个酶切片段且片段的理论值等于实际值的reads,才会被认为是Valid pair reads。




DanglingEnds与Dumpedreads 原因分析




Dangling ends

Dangling ends 主要来源于两部分,①经DNA连接酶连接反应后,携带生物素的DNA片段末端并未形成嵌合片段,在末端生物素切割的(klenow)时又未将末端的生物素去除,从而进入到最终的文库中;②磁珠洗脱步骤未完全将非特异性结合的DNA洗脱下来。有文章报道,只有将Dangling Ends的比例控制在10-45%以下才会被认为是成功的Hi-C文库[8]


Dump

Dump的主要原因在于酶的星号活性导致切割位点不在经典的位点,这有可能是酶切时间过长或反应体系中盐离子浓度和种类不合适导致的;另外一个原因是片段被DNA外切酶降解,使得片段的大小发生了改变。


获得了interaction reads后,要去除文库中完全一样的reads,因为这部分可能是由于PCR扩增导致的Duplication,去除Duplication后,Valid pairs数据可用于后续的滑bin统计分析了。


划重点



前面小编为大家分享了众多内容,很多小伙伴可能还处于懵圈的状态,没关系,现在小编开始为大家划重点啦,分分钟了解本篇干货重点。


判断Hi-C的文库是否合格的一个重要的指标是cis/trans的比值,一般认为cis interaction比例越高,表明该数据的质量越好。如果tran interaction的比例高于cis interaction的比例,则要慎重检查实验操作步骤是否出现纰漏。

 

对于植物样本,尤其是大基因组的植物样本,其unique mapped的比例可能较低,此时为了达到足够的数据量,需要提高测序深度;然而如果对于人、鼠等动物样本,如果unique mapped ratio较低则可能是实验原因。

 

在unqiue mapped数据过滤步骤中dangling ends 过高可能是末端生物素去除不完全或磁珠洗脱步骤中出现问题所致。如果dump的比例过高则可能是样品发生了降解或星号活性。

 

最后一步去除PCR duplication,如果该步骤中duplication比例过高,则表明PCR循环数过高导致。

 

Hi-C实验步骤繁多,一份好的Hi-C实验数据需要实验人员针对不同的样本进行实验优化及在整个实验周期中的每个步骤用心地操作。出现不如人意的实验结果对于新手而言是正常的,此时就要对数据进行仔细分析,并将自己融入到实验的每个细节中细细体会,才会有所收获。最后给大家一个建议,多看看最近发表的文章,比较每个protocol的细微差别,如颉伟老师[9]和陈阳老师[5]今年发表的文章,相信大家看完后会有自己的体会。 

 

参考文献


[1]Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. Science, 2009, 326(5950): 289-293.

[2]Kalhor R, Tjong H, Jayathilaka N, et al. Genome architectures revealed by tethered chromosome conformation capture and population-based modeling[J]. Nature biotechnology, 2012, 30(1): 90-98.

[3]Rao S S P, Huntley M H, Durand N C, et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping[J]. Cell, 2014, 159(7): 1665-1680.

[4]Nagano T, Várnai C, Schoenfelder S, et al. Comparison of Hi-C results using in-solution versus in-nucleus ligation[J]. Genome biology, 2015, 16(1): 175.

[5]Liang Z, Li G, Wang Z, et al. BL-Hi-C is an efficient and sensitive approach for capturing structural and regulatory chromatin interactions[J]. Nature communications, 2017, 8(1): 1622.

[6]Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome biology, 2015, 16(1): 259.

[7]Wingett S, Ewels P, Furlan-Magaril M, et al. HiCUP: pipeline for mapping and processing Hi-C data[J]. F1000Research, 2015, 4.

[8]Belton J M, McCord R P, Gibcus J H, et al. Hi–C: a comprehensive technique to capture the conformation of genomes[J]. Methods, 2012, 58(3): 268-276.

[9]Ke Y, Xu Y, Chen X, et al. 3D chromatin structures of mature gametes and structural reprogramming during mammalian embryogenesis[J]. Cell, 2017, 170(2): 367-381. e20.


安诺优达Hi-C技术处于国际领先地位,项目经验丰富 

从揭示染色体三维结构,且可用于辅助组装 

群体细胞Hi-C、1kb Hi-C、捕获Hi-C 

单细胞Hi-C拓展到Hi-C辅助组装

 物种经验跨越动植物及微生物 

合作单位贯穿国内外科研院所 

安诺高端Hi-C诚邀您加入



感兴趣的其他文章:


聚焦 | 安诺合作的植物Hi-C文章见刊了~

安诺Hi-C新突破,开启分析新篇章系列三

安诺Hi-C新突破,开启分析新篇章系列二

安诺Hi-C新突破,开启分析新篇章系列一


文章来源:三维基因组Magic

在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980