巧用samtools工具处理 sam/bam文件
2018.04.12

作为一只生信汪,sam /bam文件是我们最常用的文件,不管你是RNA,DNA,Methy ….还是啥,都要经过sam/bam。今天小编就为大家分享一下,使用samtools工具处理 sam/bam文件的小妙招。

第一步准备文件

1、samtools view -Sx.sam -o xxx.raw.bam (SAM2BAM老司机都知道~)

2、samtools faidx ref.fasta (参考基因组索引)

3、samtools sort xxx.raw.bam xxx.raw.bam.sort

4、samtools index xxx.raw.bam.sort.bam YGQ.raw.bam.sort.bam.bai   

然后,show time。

samtools view –X xxx.raw.bam(加入-X参数可以将reads比对信息具象化)。

1523500519941605.png

1523500533176049.png

samtools view –F 4 -@ 4 –ubS –t ref.faixxx.sam -o xxx.filter.bam (去除未比对上的序列,四个线程,不对输出进行压缩,输出为bam,输入为sam。 )

[要是您的机器存储紧张,建议您比对时使用管道符“|”来减少消耗。例:bwa mem -t 2 -M –k 30 ref.fasta xxx.1.fq xxx.2.fq|samtools  view –F 4 -@ 4 –ubS –t ref.fai -oxxx.filter.bam -]

samtoolsfaidx ref.fasta NC_937428.1:200-4000 (快速提取基因组NC_937428.1染色体上第200到第4000个碱基序列)。

samtoolsdepth xxx.raw.sort.bam > xxx.raw.sor.bam.depth.txt(统计所有位点深度信息)。

samtools depth -q 30 -Q 5 -r NC_937428.1:100-2000 xxx.raw.sort.bam >xxx.raw.sort.bam.depth.txt(统计染色体NC_937428.1上100到2000位点间测序质量大于30,比对质量大于5的点的深度信息)。

samtools flagstat xxx.raw.bam(快速得出比对文件的统计信息)。

1523500550737271.png

从第一行至第十一行分别表示:

1523500565260414.png

samtools tview -d -s -p chr1:170 xxx..raw.sort.bam ref.fasta

1523500579263882.png

1523500591332701.png

1523500612688615.png

通过tview的各种操作我们可以很直观的看到某些特定位置的比对情况、碱基质量以及深度、覆盖度、变异情况。

1523500624950496.png

通过小编的分享,大家可以发现其实生信分析虽然看起来很难,但是有很多比较简单实用的捷径可以使用。希望今天的分享对大家的日常研究有所助益。也欢迎大家加入安诺基因生信交流QQ群(群号:213357902),这里有专业的生信老司机带你飞~

在线客服

>>

安诺基因在线客服

客服1 客服2 客服3

电话:400-8986-980