一、python安装
官网下载地址:https://www.python.org/downloads/windows/,选择合适版本下载安装
pip指定国内镜像源
方法1.pip3 install scrapy -i https://pypi.mirrors.ustc.edu.cn/simple/
方法2.在AppData目录下新建pip文件夹,进入pip文件创建pip.ini:
[global]
timeout = 6000
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
trusted-host = pypi.tuna.tsinghua.edu.cn
二、MongoDB安装(爬取数据存入nosql数据库)
1.官网下载地址:https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl?_ga=2.163307516.1357842500.1537277681-766189694.1537277681,选择合适版本(4.0安装很慢,3.4安装很快)安装
2.启动MongoDB需要指定数据存储路径,所以新建文件夹D:\Mongodb\data\db,在MongoDB安装文件的bin目录下启动(D:\Program Files\MongoDB\Server\3.4\bin),启动命令:mongod --dbpath D:\Mongodb\data\db
3.将MongoDB配置为windows服务,以管理员启动cmd终端,进入bin目录执行:mongod --bind_ip 0.0.0.0 --logpath D:\Mongodb\data\logs\mongo.log --logappend --dbpath D:\Mongodb\data\db --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install
启动服务失败错误码100、48:
a.端口被占用 这时候可以更改在开启时设置的port,或者找到占用端口的服务将它关闭
b.可能没有设置dbpath和logpath:这时服务会出现开启成功状态到开启失败状态的不断重复
c.也许由于上次的不正常关闭mongodb导致mongodb被锁,找到data\db\mongodb.lock文件将它删除。
d.找到一个storage.bson 文件 把它删了 重启命令就可以
4.robomongo安装:https://robomongo.org/download下载安装
三、redis安装(分布式爬虫维护爬取队列)
github下载地址:https://github.com/MicrosoftArchive/redis/releases,下载安装即可
四、mysql安装
官网地址:https://cdn.mysql.com//Downloads/MySQL-5.5/mysql-5.5.61-win32.msi
界面工具navicat:链接: https://pan.baidu.com/s/1OeWyJIYRIprTeOd7IzmUtQ 提取码: pirk
五、常用库:
python自带库urllib、re;http请求库requests;模拟浏览器selenium(chromedriver、无界面浏览器phantomjs)、网页解析lxml、beautifulsoup4、pyquery;数据存储pymysql、pymongo、redis(分布式爬虫队列);代理设置flask,web服务器框架django(分布式爬虫管理)(建议使用豆瓣源安装)、交互式编程环境jupyter