初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。这里主要记载Windows平台下的环境搭建。win7 ,32位,Python2.7
这里假设你已经安装了Python2.7。
(1)安装pywin32
在Windows下必须安装pywin32,安装地址:http://sourceforge.net/projects/pywin32/
根据需要选择版本,我选择的是pywin32-220.win32-py2.7.exe直接双击安装即可,然后在Python的ide下验证下安装是否正确,输入import win32com回车
若没有错误提示,则表示安装正确
(2)安装pip
pip是使用命令安装其它工具包的工具,下载链接get-pip.py
dos下python get-pip.py安装
安装完后输入pip --version命令 检查下安装是否正确,如下图
(3)安装lxml
https://pypi.python.org/pypi/lxml/3.5.0
lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML
dos下直接执行如下命令
pip install lxml
安装过程中可能提示你有vc的库没有找到,在这里去下载 https://www.microsoft.com/en-us/download/details.aspx?id=44266
(4)安装pyOPENSSL
在Windows下,是没有预装pyOPENSSL的,而在Linux下是已经安装好的。
安装地址:https://launchpad.net/pyopenssl
直接双击安装
(5)安装Scrapy
上面的基础环境搭建好以后就到了安徽在哪个scrapy激动人心的时刻了
dos下命令:pip install Scrapy