下载并选择合适的版本
下载网址:https://ftp.microbio.me/greengenes_release/current/
或
https://ftp.microbio.me/greengenes_release/2022.10/
要么用上面两个为一套
要么用下面两个为一套—(更大 更全面);但是没有过滤,有些很短的reads,比对起来很大
综合下来,推荐使用上面一套
解压qza文件
qiime tools export --input-path 2022.10.backbone.full-length.fna.qza --output-path 2022.10.backbone.full-length.fna
qiime tools export --input-path 2022.10.backbone.tax.qza --output-path 2022.10.backbone.tax
解压gz文件
gzip -d *.gz
wc -l taxonomy.tsv
#331270 taxonomy.tsv
可见第二套内容过多
故使用:
2022.10.backbone.full-length.fna.qza
2022.10.backbone.tax.qza
在QIIME2中使用
#改名
mv 2022.10.backbone.tax.qza ref-taxonomy.qza
#根据实际引物训练(以引物799F_1193R为例)
time qiime feature-classifier extract-reads \
--i-sequences 2022.10.backbone.full-length.fna.qza \
--p-f-primer AACMGGATTAGATACCCKG \
--p-r-primer ACGTCATCCCCACCTTCC \
--p-trunc-len 350 \
--o-reads ref-seqs.qza
#训练分类器
现在,我们可以使用我们刚刚创建的参考读取和分类法,按如下方式训练朴素贝叶斯分类器。
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier.qza
###classifier.qza为训练好的数据库
#测试分类器
最后,我们通过对运动图片教程中的代表性序列进行分类并可视化生成的分类分配来验证分类器是否有效。
time qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
##导出结果
#taxaonomy里的taxnomy.tsv是输入文件之一,为后续分析做准备
qiime tools export --input-path taxonomy.qza --output-path taxonomy
##生成可视化文件 物种注释的结果
time qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
##生成柱状累积图
qiime taxa barplot \
--i-table table.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample.tsv \
--o-visualization taxa-bar-plots.qzv
#导出结果
qiime tools export --input-path taxa-bar-plots.qzv --output-path taxa-bar-plots
classify-sklearn && classify-consensus-blast 区别?
q2-feature-classifier包括三种不同的分类方法。classify-consensus-blast和classify-consensus-vsearch都是基于比对的方法,可以在N个最好的比对结果中找一致最高的用于分类。这些方法直接参考数据库FeatureData[Taxonomy]和FeatureData[Sequence]文件,不需要预先训练。
基于机器学习的分类方法是通过classify-sklearn实现的。理论上讲, scikit-learn中的任何分类方法均可应用于物种分类。用于物种分类的软件或插件叫“分类器”,这些分类器因为采用了机器学习原理,在正式用于你的数据分类前必须训练这些分类器,以便让软件“学会”哪些特征可以最好地区分每个分类组。这个训练过程是在进行正式分类前额外需要的步骤。训练出来的分类器是具有“物种数据库和标记基因”特异性的。分类器一旦训练成功,只要你测序引物等测序条件没有改变,它就可以多次使用而不需要重新训练!参考[2]注1:训练分类器需要用到特定的物种分类数据库(比如Greengenes database)和你自己测序时的引物序列,训练步骤是:先用引物定位Greengenes中的参考序列,然后截取出这些参考序列(截取出的参考序列长度和你测序获得的序列长度类似),然后把这些序列与物种分类名称匹配,这样就获得了“分类器”。所以分类器具有“物种数据库和标记基因”特异性。参考[2]注2:scikit-learn是一个著名的Python语言机器学习网站,里面有很多机器学习的代码。
参考:
[1]使用 q2-feature-classifier 训练特征分类器
[2]QIIME 2教程. 02插件工作流程Plugin Workflows(2021.2)
[3]greengene2数据库 qiime2使用哪个
补充:Greengenes2 2022.10