Kaggle API快速下载数据集以及jupyter notebook添加内核

  • 一直有在kaggle上尝试一些比赛,不可避免要下载一些超大数据集,但直接在Data页面通过浏览器下载速度太慢,kaggle官方也提供了API便于快速下载数据集,具体操作也很简单。

一、Kaggle API安装及使用(ubuntu16.04)

1.终端下安装:pip install kaggle
2.登录kaggle账户,右上角头像处点击My Account,在API栏,点击Create New API Token下载kaggle.json文件
3.终端下创建.kaggle文件:
cd ~
mkdir .kaggle
cd ~/.kaggle/
也可以直接在Home目录下手动创建.kaggle文件夹
4.将下载好的kaggle.json文件放入.kaggle文件夹
5.进入对应比赛Data页面,点击粘贴API右侧的数据集下载指令到终端(以Titanic为例)
kaggle competitions download -c titanic
6.在终端中可以查看数据集下载路径

二、添加conda创建的虚拟环境对应的kernel核

  • 在kaggle比赛中,很大部分参赛者Types都会使用Notebook工具实现他们的代码,也即.ipynb文件,我使用的是Anaconda3工具附带的jupyter notebook,也可以选择使用Google Colab。
    但是jupyter notebook默认的Kernel是Python 3,如果想要使用在conda中配置好的虚拟环境对应的Kernel,则需要添加对应Kernel至/home/(用户名)/.local/share/jupyter/kernels/XXX中。
    具体步骤为:
    1.激活conda中创建好的虚拟环境:source activate XXX
    2.然后在该环境下安装ipykernel:python -m ipykernel install --user --name XXX --display-name “Name”
    XXX:创建的虚拟环境名称
    Name:你想展示在jupyter notebook上kernel的名称
    注意!网上一些资料通过:python -m ipykernel install --name kernelname
    或者:python -m ipykernel install --name XXX --display-name "Name"我都没有成功
    至此相应的文件夹已添加到/home/(用户名)/.local/share/jupyter/kernels/XXX中
    查看当前安装了哪些kernel:jupyter kernelspec list
  • 详情参考

三、关于下载的数据集不能解压问题

这是在我电脑上出现过的问题,下载后的压缩包右上角带有一把锁的标记,解压缩时提示出错,
权限的问题,可cd到对应目录下通过以下方法解决:
1.sudo chmod 777 文件名/文件夹名
2.sudo chown 用户名 文件夹名/ -R

发布了8 篇原创文章 · 获赞 23 · 访问量 2614

猜你喜欢

转载自blog.csdn.net/QWERtb2018/article/details/102979480