python的爬虫（一）（适合新手） - 代码天地

python的爬虫（一）（适合新手）

其他 2019-09-07 01:07:22 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_43701019/article/details/98876292

—— 个人笔记

一系列：
python爬虫（二）
python爬虫（三）
python爬虫（四）
python爬虫（五）
python爬虫（六）
python爬虫（七）
python爬虫（八）
python爬虫（九）
python爬虫（十）
python爬虫（十一）

爬虫概念

在这里插入图片描述

解析：
第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。
第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。
第2步：提取数据。爬虫程序再从中提取出我们需要的数据。
第3步：储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。

首先要在vscode（这个自己去官网下载就行了）还要加python的解析器下载requests库：

shift+ctrl+p 然后按照下图，选择解析器
这个是下载requests包的步骤

获取数据

用requests.get(‘URL’)来从URL（地址）中获取数据，并返回Response对象。

下载一个图片

import requests
res = requests.get('https://xxxx.com/xxx.png')
#发出请求，并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open('ppt.jpg','wb')
#新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。
photo.write(pic) 
#获取pic的二进制内容
photo.close()

下载一个文本

import requests
res = requests.get('https://xxxx.com/xxx')
#发出请求，并把返回的结果放在变量res中
novel=res.text
#把Reponse对象的内容以字符串的形式返回
#这假设下载一个小说
novelfile = open('novel.text','w')
#新建了一个文件novel.text，这里的文件没加路径，它会被保存在程序运行的当前目录下。		 
novelfile.write(novel) 
#获取pic的二进制内容
novelfile.close()

别随意就去爬，这是有Robots协议的哦，规定了哪些能给你爬哪些不行。
爬之前都去看看网址的协议规定哦，查找网址的Robots协议。

猜你喜欢

转载自blog.csdn.net/weixin_43701019/article/details/98876292

python的爬虫（一）（适合新手）

python的爬虫（九）（适合新手）

python的爬虫（四）（适合新手）

python的爬虫（十一）（适合新手）

python的爬虫（八）（适合新手）

python的爬虫（二）（适合新手）

python的爬虫（七）（适合新手）

python的爬虫（十）（适合新手）

python的爬虫（五）（适合新手）

python的爬虫（六）（适合新手）

适合Python新手的爬虫练习：网易LOFTER图片爬虫

几个非常适合新手练习python爬虫的网页，总有一款能搞定！

新手学习Python 爬虫笔记（一）

给新手推荐几个实用又适合上手的Python爬虫项目，喜欢记得收藏

给新手推荐几个实用又适合上手的Python爬虫项目

Python爬虫从入门到精通(1): 爬虫原理, urllib库介绍及5个适合新手练手的爬虫

python爬虫基础要学什么，有哪些适合新手的书籍与教程？

爬取一部小说（适合爬虫新手来练习）

非常适合新手的一个Python爬虫项目: 打造一个英文词汇量测试脚本!

超适合小白的python新手教程

适合新手的160个creakme（一）

python之新手一看就懂的小说爬虫

线程版的多线程小爬虫适合新手

推荐一些适合新手练手的Python项目

推荐：一个适合于Python新手的入门练手项目

适合新手教程！！！！！

Python3入门上（适合新手，一篇足够）

用python的tkinter写一个简单的概率计算器（适合新手练习）

node.js做的一个简单爬虫,适合菜鸟级新手,针对无防爬措施的网站

有哪些适合新手练手的Python项目？

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)