Python爬虫简易入门

其他 2019-10-27 22:46:02 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/liuzuoping/article/details/102614978

文章目录

什么是爬虫

查看网页源代码

写一个最简单的爬虫

结果分析

什么是爬虫

在这里插入图片描述

查看网页源代码

我们首先打开进入浏览器打开搜狐网

在这里插入图片描述
然后点击鼠标右键选择查看网页源代码

我们发现网站背后都是一些数据，如果我们可以用一个自动化的程序轻轻松松就能把它们给爬取下来是不是很爽？比如，一些图片和电影的网站，我们只要用 Python 写几行代码然后一运行这个程序就帮我们爬取所有的图片和电影到我们本地，完全不需要我们费一点力气，我们刚刚提到的，一个自动化的程序就是爬虫
一般爬虫可以分为通用爬虫和聚焦爬虫两种：
通用爬虫：通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
聚焦爬虫：是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

写一个最简单的爬虫

# 导入本文件所有的包
import urllib.request
#设置请求的网页
url = "http://www.baidu.com"
#发送url请求，并达到响应结果
response = urllib.request.urlopen(url=url)
#从服务器的响应中获取到页面内容
content = response.read()
print(content)
html = content.decode('UTF-8')
print(html)
# 将获取到的内容保持到硬盘
f = open("baidu.html", "w", encoding="utf-8")
f.write(html)
f.close()
# with open("baidu.html", "w", encoding="utf-8") as f:
# 	f.write(html)

结果分析

此爬虫程序可打印出baidu网页的源代码及html
并将baidu网页写入本地，这样就可以在本地文件夹中打开网页
在这里插入图片描述打开此文件发现就是百度网页

猜你喜欢

转载自blog.csdn.net/liuzuoping/article/details/102614978

Python爬虫简易入门

新手必看！简易入门Python爬虫

Python与爬虫入门实践——简易搜狐新闻爬虫02

Python与爬虫入门实践——简易搜狐新闻爬虫01

python入门简易教程

Python快速入门到实战（六）用Python写一个简易爬虫

简易Python入门攻略（一）

python进阶一（简易爬虫一）

python day23简易爬虫

编写Python爬虫的简易流程描述

Python爬虫：简易的爬取斗鱼弹幕

python——简易多线程爬虫实现

python爬虫-入门-了解爬虫

简易爬虫

(转载)python爬虫入门

python-爬虫入门

python 爬虫入门

python爬虫入门(解析)

Python爬虫入门：综述

python爬虫入门

python爬虫_入门_翻页

python　爬虫入门

python 爬虫入门

Python爬虫入门项目

python爬虫入门（1）

怎样入门python爬虫？

Python爬虫入门指导

Python爬虫入门笔记

Scrapy Python爬虫入门

【Python爬虫】入门知识

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)