Scrapy爬虫框架第一讲(Linux环境) - 代码天地

Scrapy爬虫框架第一讲(Linux环境)

其他 2018-05-12 16:17:15 阅读次数: 0

1、What is Scrapy?

答：Scrapy是一个使用python语言（基于Twistec框架）编写的开源网络爬虫框架，其结构清晰、模块之间的耦合程度低，具有较强的扩张性，能满足各种需求。（前面我们介绍了使用requests、beautifulsoup、selenium等相当于你写作文题，主要针对的是个人爬虫；而Scrapy框架的出现给了我们一个方便灵活爬虫程序架构，我们只需针对其中的组件做更改，即可实现一个完美的网络爬虫，相当于你做填空题！）

基于Scrapy的使用方便性，下面所有的Scrapy程序我们都会在Linux系统下运行

2、Scrapy框架的安装（这里我使用的是vmware虚拟机+ubuntu16.04镜像环境）

打开终端：sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev（安装一些依赖包）

如果你没安装python3请执行：sudo apt-get install python3 python3-dev

这里小伙伴们可以先创建一个虚拟环境：pip3 install virtualenv 再进行scrapy 的安装（之后你写的所有程序都会在虚拟环境中运行）

基于我使用的是ubuntu16.04版本，系统自带了python2.7.14 和python3.5.2两个版本

下面小伙们让我们先来解决一个多版本的共存问题吧

当你输入python时系统会自动指向python2，而我们的所有程序是基于python3 的，这也是以后的主流。（我们要的是输入python,系统直接链接到python3）

下面我们来解决这个问题：sudo su (输入你设置等待用户密码进入超级用户权限)---接着请看图：

分析：（linux命令小伙伴们我们以后再谈）

当我们键入python2 系统自动指向python2环境，python3同样如此

whereis python 找出了python的所有可执行文件的路径

which python 找出了当我们键入python时执行的文件路径

我们使用rm 首先删除了该路径，接着使用 ln -s 参数1 参数2 （将参数1 指向参数2 这里相当于生成了软链接原理和超链接一样，当你键入python时系统自动指向了软连接 python3的可执行文件的路径并执行文件），这样我们成功的达到了预想目的

3、如何解决同时使用多个python版本和同时使用多个库版本的问题

答：安装virtualenv虚拟环境

打开终端：sudo pip3 install virtualenv

如果出现以下错误请使用 vi /usr/bin/pip3 更改配置文件（这是因为原来我们是python2的pip当你升级后系统没改配置文件，小伙伴们不要紧张，我们自己修改即可）

这里涉及到linux下强大的文本编辑器vim的使用我们下次专门讲解

更改配置文件如下：

再次键入：sudo pip3 install virtualenv （成功）

接着：

创建名叫course-python3.5-env 的python3.5虚拟环境：如上图

激活与推出虚拟环境 source 与 deactivate 命令

最后我们按照前述，首先激活虚拟环境，然后安装Scrapy即可

验证：终端键入：scrapy --version查看安装的scapy版本，不报错即可！

以后我们所有的scrapy爬虫项目都在虚拟环境下运行了!

猜你喜欢

转载自www.cnblogs.com/518894-lu/p/9025570.html

Scrapy爬虫框架第一讲(Linux环境)

python环境搭建(第一讲)

Linux初学第一讲

Linux入门第一讲

java爬虫系列第一讲-爬虫入门

Django学习-第一讲（下） Django框架介绍与环境搭建

Linux环境下C语言MySQL接口API：第一讲

深度学习框架__Tensorflow_第一讲_概述

spring框架ioc（控制反转）第一讲

64位内核开发第一讲,驱动框架.

交换机配置第一讲（环境要求）

Django学习-第一讲（上）虚拟环境

第一讲Android简介与环境搭建

Scrapy爬虫框架补充内容一(Linux环境)

Gson第一讲

SpringBoot(第一讲)

java第一讲

数组第一讲

Mybatis第一讲

Scrapy爬虫框架第四讲(Linux环境）【Selector的使用】

Linux 进程间通信第一讲 IPC

Linux Shell学习-第一讲（基础篇）

java爬虫系列第一讲-爬虫入门（爬取动作片列表）

Python爬虫-Scrapy框架（一）- Scrapy环境安装

第一讲初识Java

Tensorflow 笔记：第一讲

Dynamodb专题系列第一讲

第一讲：简单工厂模式

DefaultSqlSession第一讲query解析

Struts2 第一讲

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)