Python爬虫--爬取知乎 - 代码天地

Python爬虫--爬取知乎

其他 2018-07-24 04:57:32 阅读次数: 0

1. 爬一下知乎

import requests
url = 'http://www.zhihu.com/'
res = requests.get(url).text
print (res)

结果：

直接访问发现返回 400 错误
E:\360Downloads\Python36\python3.exe E:/work/yansong/python1/zhihuClimbInsect/zhihu_Spider.py
<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>

因为知乎做了反爬虫处理。

2. 加上浏览器伪装进行爬取：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
url = 'http://www.zhihu.com/'
res = requests.get(url,headers=headers).text
print(res)

再次运行，发现已经成功返回数据。但是这种写法不可以应用到所有的网站。

3. 设置代理爬取

有时候同一个IP去爬取同一网站上的内容，久了之后就会被该网站服务器屏蔽。解决方法就是更换IP。这个时候，在对方网站上，显示的不是我们真实地IP地址，而是代理服务器的IP地址。西刺代理http://www.xicidaili.com/nn/ 提供了很多可用的国内IP，云代理http://www.ip3366.net/提供了许多国外IP可以直接拿来使用。

如何在爬虫里加入代理呢，看看requests的官方文档http://docs.python-requests.org/zh_CN/latest/user/advanced.html#proxies，如果需要使用代理，你可以通过为任意请求方法提供 proxies 参数来配置单个请求：

import requests
proxies = {
    "http": "http://61.135.217.7:80",
    "https": "https://1118.190.95.26:9001",
}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
url = 'http://www.zhihu.com/'
res = requests.get(url, headers=headers, proxies=proxies).text
print(res)
print (len(res))

在使用代理服务器爬去网站时，如果出现异常，要考虑代理IP是否失效了。可以写一个爬虫实时抓取最新的代理IP。

Python实时抓取最新的代理IP 参见：Python实时抓取最新的代理IP

猜你喜欢

转载自blog.csdn.net/qq_21933615/article/details/81101569

Python爬虫--爬取知乎

Python爬虫对知乎问题下的图片进行爬取

python爬虫7---爬取知乎文章

python小爬虫，爬取文章（知乎专栏）片段

Python爬虫系列（四）：爬取腾讯新闻&知乎

爬虫爬取知乎的话题

Python爬取知乎上的图片

Python爬取知乎文章（一）

python 爬取知乎图片

用python爬取知乎问答

【Python数据分析】简单爬虫，爬取知乎神回复

【python爬虫自学笔记】-----爬取知乎图片并保存在本地

python爬虫实战（一）--爬取知乎话题图片

python爬虫入门（2）爬取知乎某个热门主题

使用python爬虫——爬取淘宝图片和知乎内容

新手爬虫教程：Python爬取知乎文章中的图片

Python爬虫入门教程：知乎文章图片爬取器

python3编写网络爬虫22-爬取知乎用户信息

Python爬虫新手教程：知乎文章图片爬取器

python爬虫爬取微博知乎热搜榜

python爬虫：requests+pyquery实现知乎热门话题爬取

【python实现网络爬虫20】知乎热榜爬取

python爬虫实战（1）——爬取知乎热门回答图片

python爬虫实战（2）——爬取知乎热榜内容

java---网络爬虫爬取知乎图片

pyspider爬虫爬取知乎的话题

爬虫---Beautiful Soup 爬取知乎热榜

知乎live爬取

scrapy爬取知乎

Python爬取知乎专栏文章标题及URL

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)