cd-hit 学习

下载:http://www.bioinformatics.org/cd-hit/

背景:生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度。

cd-hit 去冗余,也可以叫做相似序列的聚类

工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈值需要注意(默认相似性在0.9)

简要的使用:

eg:蛋白序列的去冗余

cd-hit -i all.prot.fa -o all.nr.prot.fa -M 0 -T 24

       说明:

                     软件:cd-hit

                     参数:基本默认

                                   -i :预测的蛋白序列

                                   -o :输出文件

                                   -M :分配的内存

                                   -T :线程数

                                   -c :相似性阈值,默认值为0.9

                     输出结果:

                                   去除冗余后的蛋白序列

 

对于核酸的去冗余,建议使用cd-hit-est (速度快,去冗余效果更明显),使用方法同上;

参考:http://blog.sina.com.cn/s/blog_670445240101nidy.html
          
https://www.sohu.com/a/190353140_785442

猜你喜欢

转载自blog.csdn.net/rojyang/article/details/81205548
cd