基于scrapy的分布式爬虫(1):环境配置

概述与环境配置

本节主要内容包括:

  • 简述 “数据用途”
  • Pycharm的安装
  • MySQL与Navicat安装
  • virtualenv和virtualenvwrapper的使用

1. 数据用途

数据用途

2. Pycharm的安装

  • Windows 系统
  • Linux 系统

2.1 Windows 系统步骤

  1. 搜索、下载 Pycharm - Professional 版本;
  2. 搜索 license server,完成破解。

注:本人在 win10 - 32位 系统下无法启动 Pycharm,原因未知。因此使用 sublime进行替代。

2.2 Linux 系统步骤

  1. 下载并解压 Pycharm 压缩包;
  2. 终端键入命令:cd pycharm/bin
  3. 执行./pycharm.sh的shell文件进行启动。

附:快速启动方法

  1. 进入bin文件夹;
  2. 终端键入命令:vim ~/.bashrc,进入vim 编辑器,按 shift + g 进入最底端;
  3. 编辑 alias pycharm后的 Pycharm 启动路径;
  4. 退出vim 编辑器,运行source使配置文件生效;
  5. 直接运行pycharm命令,即可启动 Pycharm。

3. MySQL 与 navicat 的安装

  • MySQL的安装
  • Navicat的安装

注: windows 下的操作较为简单,此处仅介绍 Linux 系统。

3.1 MySQL 的安装及配置

  1. 终端下键入命令:sudo apt-get install mysql-server
  2. 键入命令:ps aux|grep mysqld 完成启动;
  3. 键入命令:mysql -uroot -p 设置密码;
  4. 键入命令:show databases; 查看数据库;
  5. 键入命令:exit; 退出数据库。

3.2 Navicat 的安装及使用

  1. 搜索 “navicat for windows” 进行下载安装;
  2. 点击 “连接”,进行配置;
  3. 新建数据库,字符集 选择 utf8--UTF-8 Unicode排序规则 选择 utf8_general_ci
  4. 进行 新建表、查询-新建查询 等数据库操作;
  5. 数据传输,可以快速同步多个数据库之间的文件。

4. virtualenv 和 virtualenv wrapper 的安装及使用

  • virtualenv 的安装及使用
  • virtualenv wrapper 的安装及使用

注1: 使用 virtualenv 可以将开发环境相互隔离,不互相影响。

注2: virtualenv wrapper 是 virtualenv 的管理工具。

4.1 virtualenv 的安装和使用(针对 windows 系统)

  1. cmd 下键入命令:pip install virtualenv (附:卸载方法 pip uninstall virtualenv);
  2. 使用豆瓣源加速下载方法:pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com virtualenv

    具体使用可参考博客 pip使用豆瓣的镜像源

  3. 键入命令:virtualenv scrapytest (此为虚拟环境名称,可修改),创建虚拟环境;
  4. 键入命令:cd scrapytest,进入目录;
  5. 键入命令:dir,查看目录下包含内容;
  6. 键入命令:cd Scripts,进入启动目录;
  7. 键入命令:activate.bat,启动虚拟环境;
  8. 键入命令:deactivate.bat,退出虚拟环境;
  9. 可以使用:virtualenv -p 路径名 (以python.exe结尾) scrapytest (虚拟环境名称)来创建不同Python版本的虚拟环境;
  10. 可以使用 pip 来安装依赖库,使用pip list查看已安装的库。

4.2 virtualenvwrapper 的安装和使用 (针对 windows 系统)

注: virtualenvwrapper 主要是用来解决 virtualenv 使用时过于繁琐的问题。

  1. cmd 下键入命令:pip install virtualenvwrapper-win,安装 virtualenvwrapper;
  2. 键入命令:workon 查看已安装的虚拟环境(仅可查看使用 virtualenvwrapper 创建的虚拟环境 );
  3. 键入命令:mkvirtualenv scrapytest (此为虚拟环境名称,可修改),创建虚拟环境;
  4. 键入命令:workon scrapytest,进入虚拟环境;
  5. 键入命令:deactivate,退出虚拟环境;
  6. 键入命令:rmvirtualenv scrapytest,删除虚拟环境。

这里有几点需要大家格外注意:

  • 不建议使用添加环境变量的方式修改 virtualenvwrapper 的默认路径,因为在修改完后会出现多个路径并存的情况,造成安装虚拟环境位置的混乱。
  • 在虚拟环境中使用 pip install scrapypip install -i https://pypi.douban.com/simple scrapy 安装库时会出现有的库无法安装的情况(我自己是 twisted 库无法安装)。

    解决方法:

    1. 进入 windows 下的 Python 依赖库下载网站
    2. 按键盘 F3 键,查找缺失库名称,进入后选择对应版本进行下载。
      twisted
      如上图所示,如果是 windows 32 位系统,则选择对应的 python 版本,下载 win32;如果是 windows 64 位系统 ,则选择 win_amd64
    3. 下载完毕后,cmd 下进入该目录,然后键入命令:workon scarpytest,进入虚拟环境;
    4. 键入命令:pip install Twisted-17.9.0-cp35-cp35m-win32.whl (此为文件名),完成安装;
    5. 接下来,重新安装 scrapy 库即可完成。

写到这里,基本上已经完成了前期准备工作,但是为了大家能够方便工作,还是有一个小技巧想要分享给大家—如何在某一位置快速打开 cmd ?

  • 新建一个文本文档(这里的文本文档一定要以 ANSI 编码,常用 notepad 的默认编码方式是 utf-8,需要自行修改);
  • 将如下内容复制进文本文档
Windows Registry Editor Version 5.00



[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here]

@="在此处打开命令行"
"Icon"="cmd.exe"


[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here\command]

@="\"C:\\Windows\\System32\\cmd.exe\""



[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt]

@="在此处打开命令行"



[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt\command]

@="\"C:\\Windows\\System32\\cmd.exe\" \"cd %1\""



[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here]

@="在此处打开命令行"
"Icon"="cmd.exe"



[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here\command]

@="\"C:\\Windows\\System32\\cmd.exe\""

  • 将该文本文档另存为 OpenCMD.reg,然后双击运行;
  • 在需要打开 cmd 的位置,鼠标右键,选择–“在此处打开命令行”,即可。
发布了21 篇原创文章 · 获赞 24 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/fIsh1220Fish/article/details/79432221
今日推荐