新闻中心

项目文章 | 详解蜂类昆虫染色体水平基因组的组装方法
发布时间:2024-05-15

“采得百花成蜜后,为谁辛苦为谁甜”——《蜂》罗隐(唐)


昆虫与人类的密切情谊早在百年前就已被广为流传。昆虫,一直以来都是自然生态系统中不可缺少的重要组成部分。人类在进化、生态学、生物防治、行为学等领域针对昆虫的研究对理解自然规律、推动科学技术发展具有重要意义。许多医学、工程等领域也借鉴了昆虫的结构和功能。


2024年5月2日,浙江大学昆虫科学研究所徐海君教授团队于Scientific Data上在线发表了题为Chromosome-level genome assembly of the bethylid ectoparasitoid wasp Sclerodermus sp. ‘alternatusi’的文章,为我们揭示了一种名为肿腿蜂的膜翅目昆虫的基因组奥秘,安诺优达为本项目提供二代和三代建库测序服务。


image1_副本.png

1-1.png研究背景


寄生性膜翅目昆虫在昆虫界分布广泛,他们凭借漫长的生物进化赋予的寄生策略来操纵宿主,通过产生毒液、病毒、幼虫分泌物等多种方式杀死宿主,从而延续自己的后代。尽管部分寄生性昆虫对人类有害,但大部分寄生蜂都是有益昆虫,在生物防治领域持续发挥着巨大的作用,肿腿蜂就是这个大家庭的一员。肿腿蜂,属于节肢动物门,六足亚门,昆虫纲,有翅亚纲,膜翅目蜂科,他通常是一种棕色昆虫,普遍体型较大,腿部粗壮,因此得名。尽管肿腿蜂在世界范围内被广泛用作防治害虫的生物防治剂,但因其基因组信息尚未被报道,寄生生物学现象背后的分子机制也被持续掩盖。


image2_副本.png

图 肿腿蜂成虫

1-1.png基因组survey与核型分析


研究人员从300只雌性成虫样本中提取合格基因组DNA,并采用Illumina二代官方建库试剂盒进行建库,使用Illumina NovaSeq 6000平台进行测序,获取到52.64Gb的Clean data;选择K=17,使用Genomescopev2.024软件和Jellyfish v2.2.10软件进行基因组评估和可视化;最终评估结果表明,肿腿蜂的基因组大小约为180.86Mb,杂合度为0.157%。


研究人员解剖4-6天龄的幼虫头部获取组织,与秋水仙素溶液混合,在25°C条件下孵育3h,之后经过柠檬酸钠低渗溶液处理,并在甲醇、醋酸中固定处理,使用醋酸软化并二次固定,最后,进行研磨,使用DAPI染色5min,流水冲洗后,在60X的显微镜下观察染色体,最终得到肿腿蜂的染色体组成为2n=30。


1-1.png三代PacBio HiFi测序及组装


研究人员使用FineOut动物组织DNA提取试剂盒从1,000只雌性成虫中提取基因组DNA,使用Agilent 4200生物分析仪评估DNA完整性,DNA经过筛选,纯化后,使用PacBio SMRTbell官方建库试剂盒2.0进行文库构建,最后在PacBio Sequel II平台上进行三代测序,最终获得了31.77Gb的高质量HiFi数据,Reads平均读长为16.86kb,N50长度为17.73kb。


研究人员使用Wtdbg2v2.5软件对HiFi数据进行初步contig组装。初步组装的基因组大小为180.77Mb,contig N50为3.5Mb,BUSCO完整性为97.8%(单拷贝基因95.1%,重复基因2.7%)。接着使用HaploMerger2对初步组装结果进行杂合和污染去除,最终得到的假单倍体基因组组装大小为162.15Mb,contig N50为4.3 Mb,BUSCO完整性为97.8%(单拷贝基因95.8%,重复基因2.0%)。



image3_副本.png

图 肿腿蜂基因组Survey和高质量染色体级别基因组的组装

1-1.pngHi-C辅助组装


研究人员搜集了70只幼虫的样本,使用标准构建方法,基于甲醛交联构建Hi-C文库,在Illumina NovaSeq 6000平台测序。基于YahS、Juicer tools、JuiceBox三款软件,研究人员将contig锚定到了不同的染色体上,并进行了可视化。最终得到肿腿蜂的染色体级别基因组大小为162.03Mb,contig N50为3.83Mb,contig被锚定到了15个伪染色体上。


image4_副本.png


图 用于基因组测序和组装的生命周期


1-1.png基因组注释


为了进行高质量的组装,研究人员选择了三个不同发育阶段四个不同组织部位的多个样本组合,进行二代转录组测序,同时用Trinity v2.15.13软件进行全长转录本组装,基于这些转录本,研究人员进行了基因组的注释。使用GETA v2.4.1进行基因预测和注释,使用RepeatMasker v4.1.2识别包括分散重复和转座元件(TEs)等在内的重复序列,共获取了23,014,663 bp的重复序列,占据了基因组大小的14.17%,并发现肿腿蜂基因组中有四类TEs,包括长末端重复序列(LTRs)、长插入核元件(LINEs)、DNA元件(DNAs)和短插入核元件(SINEs)等,分别占据了基因组的1.42%、0.54%、3.10%和0.01%。


最后,研究人员使用Augustus v3.4.0、PASA v2.4.1、GeneWise v2.4.1、EVidenceModeler v1.1.1等软件进行基因功能预测和注释,同时结合NR、NT、SwissProt、KOG和InterPro等数据库进行联合注释,最终共成功注释了基因组中的10,204个蛋白编码基因。


本研究通过对昆虫基因组的测序和组装,尤其是膜翅目昆虫基因组的研究具有重要的参考价值,对昆虫生物防治具有较高的实际生产意义。