黑马python2.7的爬虫4-Scrapy框架

期末考试了,出差,不晓得有没有时间写哦,先开个头

创建虚拟环境

  • 创建:mkvirtualenv [虚拟环境名称]
  • 删除:rmvirtualenv [虚拟环境名称]
  • 进入:workon [虚拟环境名称]
  • 退出:deactivate
  • 所有的虚拟环境,都位于/home/.virtualenvs目录下
# 注意,Python2.x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码;
# 我们可以指定保存内容的编码格式,一般情况下,我们可以在代码最上方添加:

    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")

# 这三行代码是Python2.x里解决中文编码的万能钥匙,经过这么多年的吐槽后Python3学乖了,默认编码是Unicode了...(祝大家早日拥抱Python3)


  • Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

  • 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。

制作 Scrapy 爬虫 一共需要4步:

  • 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
  • 明确目标 (编写items.py):明确你想要抓取的目标
  • 制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
  • 存储内容 (pipelines.py):设计管道存储爬取内容
















猜你喜欢

转载自blog.csdn.net/sinat_23880167/article/details/80643413