动植物基因组de novo

  • 产品简介
  • 技术流程
  • 样本要求
  • 案例分析
  • FAQ

De novo测序即在不依赖参考基因组的情况下对某物种基因组进行从头测序、拼接和组装,从而获得全基因组单碱基精度序列图谱。全基因组序列图谱完成后,可以构建该物种的基因组数据库;为该物种的后基因组学研究搭建一个高效的平台;为后续的基因挖掘、功能验证提供DNA序列信息。

产品优势
  • 多种测序平台
    “私人订制”多平台&多技术研究测序策略
  • 给力的PacBio平台
    11台PacBio Sequel Ⅱ/Ⅱe,日产出2Tb数据量,15k HiFi DNA文库 N50≥15kb
  • 专业的分析团队
    团队成员合作文章的累计影响因子100+,生物信息分析经验丰富,助力CNS文章发表
  • 高效的项目沟通
    前期方案演写,定期反锁项目进展,客户与生信分析零距离沟通
  • 前沿市场动态把握
    前沿研究信息传送,组装技术研发与更新,更多产品服务升级
  • 丰富的项目经验
    项目经验800+,物种经验150+
应用领域
  • 构建参考基因组
  • 复杂性状控制基因挖掘
  • 比较基因组
  • 泛基因组
4、动植物基因组de novo.png
产品类型测序策略推荐数据量周 期
动植物基因组de novoHiSeq / NovaSeq /PacBio

简单基因组:survey(100X PE150),草图(HiFi:20-35X),Hi-C辅助组装(100X),注释(推荐Isoseq 50G subreads);

复杂基因组:survey(100X PE150),草图(HiFi≥30X),Hi-C辅助组装(100X),注释(推荐Isoseq 50G subreads)。

基因组草图组装最快8自然日,组装+注释+进化最快50自然日。(视基因组复杂程度而定)。

产品类型送样要求
基因组survey(Illumina平台)

样品类型:基因组DNA样品;

样品需求量:小片段文库≥0.2μg;

样品浓度:≥5ng/ul;

样品纯度:OD260/280= 1.8~2.2、 OD260/230=0.8-2.5;

样品质量:基因组完整,DNA主带清晰、无降解、无污染。

基因组de novo(PacBio)平台

DNA总量:HiFi≥6.5 μg;

浓度:≥80 ng/L;

质量:基因组完整性,DNA主带:HiFi≥30kb;

纯度:OD260/280=1.8~2.0,OD260/230=1.6~2.5,NC/QC=0.5~3.0。

基因组注释至少6个不同时期或不同部位的样品,推荐Iso-Seq ≥50G数据量。
Hi-C辅助组装(Illumina平台)新群组织进行甲醛交联,1个Hi-C文库至少需要新鲜血液约5ml或组织1g,推荐2-3g组织量。


注:若提供组织样品,则植物样本需为无菌黄化苗、组培样品或嫩叶;动物样本为肌肉、血液等脂肪含量较少的组织。尽量选择同一个体取样,以减少个体差异性对后续拼接的影响。如果动物样本的性别决定模式是XY型,则尽量选择雌性个体(XX型),如果是ZW型,则尽量选择雄性个体(ZZ型)。


多组学技术助力油松基因组适应繁殖机制和进化解析

The Chinese pine genome and methylome unveil key features of conifer evolution
期刊:Cell    合作方式:共同作者    影响因子:41.582    发表时间:202.01    合作单位:北京林业大学研究    对象:35年生无性系优良油松的新芽
关键词

油松;染色体水平基因组;甲基化

研究背景

针叶树在世界森林生态系统中占主导地位,是种植最广泛的树种之一。针叶树基因组属于大型基因组,存在高度重复序列(70%-80%),因此基因组组装难度较高。

研究者利用PacBio测序、Hi-C辅助组装等技术,组装获得了25.4 Gb染色体水平的油松基因组。通过使用来自760个生物样本的大规模RNA-seq数据来辅助基因结构注释,揭示油松基因组扩展、生殖过程和适应性进化的多重基因组特征和分子机制。

研究思路

1.png

材料选择:35年生无性系优良油松的新芽

测序策略:
DNA:Illumina NovaSeq 6000,DNA小片段文库,103X;
PacBio Sequel II 基因组测序,103X;
Illumina NovaSeq 6000,Hi-C文库
RNA:Illumina 测序,构建RNA文库

文章亮点

油松基因组研究给针叶树进化研究提供了新思路,为今后进一步开展针叶树适应与发育研究提供了数据参考。

研究结果

油松染色体基因组组装和注释


研究者首先通过Illumina测序,对油松基因组大小进行评估,随后利用PacBio测序数据进行自校正和组装,成功构建出24.4 Gb(96.1%,12条染色体)的油松高质量的染色体水平基因组。
针叶树中的基因通常多于二倍体被子植物,基因复制导致了许多基因家族的扩张。在基因复制的不同类别中,油松的旁系同源主要来源于分散重复(DSD),很少来自全基因组复制(WGD),油松发生近期全基因组复制事件概率较低。

2.png
图1 油松高质量基因组组装

长内含子的独特基因空间结构


油松的基因组存在大量的长内含子,总内含子/外显子长度与基因组的大小呈正相关,基因表达水平的差异与基因长度和内含子数有关。长基因的RNA剪接和DNA甲基化检测结果表明,几乎所有CG和CHG位点都发生了

甲基化,DNA甲基化可能参与了长内含子的准确识别。

3.png
图2油松基因组的基因空间结构和复杂性展示

油松的适应进化


通过功能富集分析发现了3,623个显著扩张的家族基因,主要参与生物和非生物胁迫反应。通过鉴定油松中的转录因子(TF)和转录调节因子(TR)家族,发现对低温高度敏感的AP2/ERF基因家族成员可能在油松的低温适应中发挥关键作用。在候选基因编码酶鉴定中,萜烯合成相关基因在不同年龄的油松中有明显的表达模式,新形成的针叶可能是萜烯的主要合成部位。

4.png
图3 油松中萜烯的合成途径

针叶树生殖发育的独特调控网络


被子植物中具有很多调节开花的关键基因,但油松中缺少很多同源基因。FT/TFL1-like基因是被子植物中调节开花的关键基因,但油松中仅有2个拷贝,但在其他针叶树中一般有4-6个拷贝。研究者在拟南芥中做了转基因验证, 过表达了这两个基因,转基因植株表现出明显的晚开花表型。
通过对油松基因组中12个高表达的MADS-box基因的酵母双杂交检测,发现两个AGL6-like基因(PtDAL1和PtDAL14)在油松中有不同的表达模式,其中 PtDAL14在生殖器官中特异性表达,与其他MADS-box转录因子蛋白相互作用,表明AGL6-like基因可能作为MADS-box转录因子之间相互作用的桥梁,从而形成互作网络。最后研究者提出了一个控制油松雌雄球果发育的模型,为今后针叶树生殖发育研究提供了一张蓝图。

5.png
图4油松中12个MADS-box家族转录因子的表达及蛋白互作模型

油松近期的LTR-RT的爆发和稳定的甲基化维持系统


从染色体层面看,基因组甲基化水平与油松的TE覆盖率显著相关,研究发现携带TE的基因区域的平均甲基化水平远高于不携带TE的基因区域,但TSS和TES区域的平均甲基化水平始终较低。DNA甲基化对于TE基因组的扩张产生了影响,但未有证据表明,油松甲基化程度随树龄的增加而下降。LTR-RTs代表了大部分TEs,不平等重组(UR)是植物中一种重要的LTR-RT清除机制,针叶树的UR率可能比被子植物小型基因组低得多,SGS3-RDR6-RdDM通路可能是针叶树中主要的DNA甲基化途径。

6.png
图5 油松中DNA甲基化及转座子扩张

研究结论

研究者构建了当前大型基因组中连续性最好的高质量染色体水平的油松基因组。研究发现转座子的不断扩张和缓慢清除是导致针叶树基因组巨大的重要原因,具有超长内含子的大基因往往表达水平较高。与被子植物相比,油松具有独特的生殖系统。油松基因组的构建为其独特适应性和发育研究、生殖生物学研究及基因组辅助育种进化和基因组学研究提供了重要参考。

参考文献

Niu S.H., Li J., Bo W.H., et al.The Chinese pine genome and methylome unveil key features of conifer evolution. Cell, 2022, 185(1):1-14.

  • Q:植物基因组测序对样品有什么特殊要求?
    A:
    基因组Survey、三代基因组测序、Hi-C辅助组装以及用于基因组注释的转录组样品尽量来源于同一个体,若不能同时满足,要求基因组Survey和三代基因组测序必须使用同一个体,Hi-C辅助组装及转录组样本需要使用同一遗传背景的个体,对于含有特殊代谢物的物种,最好是选用黑暗无菌条件下培养的黄化苗或组培样品,样本取材越幼嫩越好,避免衰老成熟的组织。

  • Q:动物基因组测序对样品取样有什么特殊要求?
    A:
    不同类型的组织DNA得率差别较大,样品提取应选用内脏组织、血液等核酸含量多、脂肪含量较少的部位。代谢活跃的肝脏组织DNA得率较高,纤维细胞丰富的肌肉组织DNA得率较低,鱼类和禽类推荐选择血液或肝脏组织。尽量选用同一个体进行取样,如果物种体积较小,单个个体所提取的DNA量不能够满足建库需求,在保证量的前提下,应当尽量减少所使用样本的个数,以减少个体差异性对后续拼接的影响。

  • Q:为什么要做Survey?
    A:
    通过Survey可以获得基因组大小、GC含量、杂合度及重复序列等信息,为后续测序、基因组组装提供指导。该数据不仅可以用于Survey分析,还可以用于基因组草图纠错和组装完成后的基因组一致性评估。另外,对于一些寄生或者共生的样本,如体内分离到的寄生虫,在无法保证获得无污染样本的情况下,建议先进行基因组Survey,看看样本中是否有异源DNA污染,保证后续项目的顺利开展,避免经济损失。