seqtk批量抽取reads

有些时候样本里面的reads数存在差异,有的几十万条,有的几万条,这个时候通常用seqkit进行抽取

常用的抽取模式有:

指定条数(10000)抽取:

seqtk sample -s 100 sample1.fq 10000 | gzip > sample1.fq  

seqtk sample -s 100 sample2.fq 10000  | gzip > sample2.fq

按比例抽取(0.6)

seqtk sample -s 100 sample1.fq 0.6 | gzip > sample1.fq  

seqtk sample -s 100 sample2.fq 0.6 | gzip > sample2.fq

面对多个样本需要处理的情况可用

for f in *; do seqtk sample -s 100 $f 0.5 | gzip > temp/$f; done

不过有一个小疑问为什么按比例抽取有时候不是原始数据的reads*0.6,这个地方我暂时没明白,如果有人知道望留言,感谢!

猜你喜欢

转载自blog.csdn.net/whiteof/article/details/130387271
今日推荐