python爬虫极简教程(一):windows下环境安装

一、python安装

官网下载地址:https://www.python.org/downloads/windows/,选择合适版本下载安装

pip指定国内镜像源

方法1.pip3 install scrapy -i https://pypi.mirrors.ustc.edu.cn/simple/

方法2.在AppData目录下新建pip文件夹,进入pip文件创建pip.ini:

[global]

timeout = 6000

index-url = https://pypi.tuna.tsinghua.edu.cn/simple

trusted-host = pypi.tuna.tsinghua.edu.cn

二、MongoDB安装(爬取数据存入nosql数据库)

1.官网下载地址:https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl?_ga=2.163307516.1357842500.1537277681-766189694.1537277681,选择合适版本(4.0安装很慢,3.4安装很快)安装

扫描二维码关注公众号,回复: 4141692 查看本文章

2.启动MongoDB需要指定数据存储路径,所以新建文件夹D:\Mongodb\data\db,在MongoDB安装文件的bin目录下启动(D:\Program Files\MongoDB\Server\3.4\bin),启动命令:mongod --dbpath D:\Mongodb\data\db

3.将MongoDB配置为windows服务,以管理员启动cmd终端,进入bin目录执行:mongod --bind_ip 0.0.0.0 --logpath D:\Mongodb\data\logs\mongo.log --logappend --dbpath D:\Mongodb\data\db --port 27017 --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install

启动服务失败错误码100、48:

  a.端口被占用 这时候可以更改在开启时设置的port,或者找到占用端口的服务将它关闭

  b.可能没有设置dbpath和logpath:这时服务会出现开启成功状态到开启失败状态的不断重复

  c.也许由于上次的不正常关闭mongodb导致mongodb被锁,找到data\db\mongodb.lock文件将它删除。 

  d.找到一个storage.bson 文件 把它删了 重启命令就可以

           4.robomongo安装:https://robomongo.org/download下载安装

三、redis安装(分布式爬虫维护爬取队列)

github下载地址:https://github.com/MicrosoftArchive/redis/releases,下载安装即可

四、mysql安装

官网地址:https://cdn.mysql.com//Downloads/MySQL-5.5/mysql-5.5.61-win32.msi

界面工具navicat:链接: https://pan.baidu.com/s/1OeWyJIYRIprTeOd7IzmUtQ 提取码: pirk

五、常用库:

python自带库urllib、re;http请求库requests;模拟浏览器selenium(chromedriver、无界面浏览器phantomjs)、网页解析lxml、beautifulsoup4、pyquery;数据存储pymysql、pymongo、redis(分布式爬虫队列);代理设置flask,web服务器框架django(分布式爬虫管理)(建议使用豆瓣源安装)、交互式编程环境jupyter

猜你喜欢

转载自blog.csdn.net/weixin_42642483/article/details/82764942