Aspera高速下载nt数据库

需要下载NCBI的nt数据库

一开始使用NCBI脚本update_blastdb.pl进行下载

update_blastdb.pl --decompress nt

发现很难下载下来,数据库文件很大,网络不好很容易中断,尝试了几天也没有下载下来。
查找其他解决方法,发现可以使用aspera下载这些大型数据库

安装aspera

首先进入aspera官方网站,找到「IBM Aspera Connect」,进入下载页面,找到对应的版本与平台,这里以Linux平台最新的3.10.0版本为例进行介绍。

# 下载
wget https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/092u0/0/ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz

# 解压
tar xvf ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.tar.gz

# 解压后得到一个脚本文件,运行该脚本,即可完成自动安装
bash ibm-aspera-connect-3.10.0.180973-linux-g2.12-64.sh

# 所有安装文件都在~/.aspera/connect目录下,添加环境变量
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc

# 使环境变量生效
source ~/.bashrc

# 查看ascp可执行文件所在的路径,应该是:~/.aspera/connect/bin/ascp
which ascp

# 看程序是否能正常运行
ascp -h

安装过程中发生报错
错误1:/lib64/libc.so.6: version 'GLIBC_2.28' not found
解决方法见Centos lib64 libc.so.6 version ‘GLIBC_2.28’ not found.

错误2:/path/to/.aspera/connect/bin/asperaconnect-nmh: /lib64/libstdc++.so.6: version 'GLIBCXX_3.4.21' not found
解决方法见lib64 libstdc++.so.6 version GLIBCXX_3.4.21’ not found CXXABI_1.3.8

安装完成后需要确认私钥文件存在,如果没有私钥文件不能正常运行

###私钥文件目录通常为
~/.aspera/connect/etc/asperaweb_id_dsa.openssh

###如果该目录不存在,则通过which ascp,找到.aspera所在路径后,进入该目录下的/connect/etc查看是否有asperaweb_id_dsa.openssh

如果下载最新版本aspera安装好后,私钥文件没有正常存在,建议就下载示例中的3.10.0版本

使用aspera下载nt库

###进入计划存放nt库的目录,运行以下命令

ascp -v -k 1 -T -l 400m -i /path/to/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:/blast/db/FASTA/nt.gz ./

「主要参数」

-i 免密从NCBI或EBI下载的私钥,安装完成就有,位于~/.aspera/connect/etc/asperaweb_id_dsa.openssh
-l 最大下载速度,如100M
-k 断点续传,通常设为1
-T 无需加密传输
–host 服务器域名,NCBI为http://ftp.ncbi.nlm.nih.gov,EBI下载千人基因组为http://fasp.1000genomes.ebi.ac.uk
-P 用于SSH认证的TCP商品,一般是33001
–user 用户名,NCBI为anonftp,EBI下载千人基因组为g1k
–mode 传输模式,上传为send,下载为recv

ref:

Aspera官网:https://www.ibm.com/products/aspera/downloads?list

Aspera使用说明1:https://www.ibm.com/support/pages/downloading-data-ncbi-command-line#usage

Aspera使用说明2:https://www.internationalgenome.org

Aspera:基因组数据高速下载利器,以NCBI和EBI数据下载为例

猜你喜欢

转载自blog.csdn.net/LJL_1003/article/details/127969555
今日推荐