Python爬虫学习笔记(实例：解决网站对爬虫的审查) - 代码天地

Python爬虫学习笔记(实例：解决网站对爬虫的审查)

其他 2020-01-19 21:49:17 阅读次数: 0

由于一些网站会识别并阻止爬虫程序爬取网页的信息，所以需要修改请求报文的头部信息，模拟浏览器访问

实例：爬取亚马逊中国的商品页面信息：

https://www.amazon.cn/dp/B0785D5L1H/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E6%9E%81%E7%AE%80&qid=1579164551&sr=8-1

import requests

url = 'https://www.amazon.cn/dp/B0785D5L1H/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=%E6%9E%81%E7%AE%80&qid=1579164551&sr=8-1'
try:
    kv = {'user-agent':'Mozilla/5.0'} #关键：模拟浏览器，解决网站审查禁止爬虫的问题（503,403。。）
    r=requests.get(url, headers = kv) #关键：加入头部信息
    r.raise_for_status() #检查状态
    r.encoding = r.apparent_encoding #设置编码
    print(r.text) #打印网页源码信息
except:
    print("爬取失败")

二叉叔

发布了17 篇原创文章 · 获赞 11 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_33360009/article/details/104008232

Python爬虫学习笔记(实例：解决网站对爬虫的审查)

Python爬虫学习笔记(基础实例)

Python爬虫学习笔记(实例：股票信息定向爬虫及优化)

python爬虫学习笔记2：实例学习1

python爬虫学习笔记5:实例学习2

Python爬虫学习笔记

[Python学习笔记]爬虫

python爬虫实例--tencent网站招聘信息

python爬虫学习笔记（一）-- 网站自动登录（一）

Python学习笔记之开发简单爬虫和实例

Python 3学习笔记（3）：简单的爬虫实例

Python爬虫学习笔记(实例：scrapy框架基础)

python爬虫学习笔记(一)-爬虫介绍

python爬虫教程：python解决网站的反爬虫策略总结

【python爬虫学习笔记】07 股票数据定向爬虫实例

【python爬虫学习笔记】05 利用requests-bs4的大学排名定向爬虫的实例

Python爬虫学习笔记(实例：淘宝商品信息定向爬虫)

Python爬虫学习笔记(实例：中国好大学排名定向爬虫)

【Python】什么是爬虫，爬虫实例

Python笔记-多线程爬虫实例

网络爬虫学习笔记（二）——实例

python 学习笔记简单爬虫

Python爬虫基础学习笔记

学习python爬虫笔记(1)

学习python爬虫笔记(2)

python 爬虫学习笔记（1）

python 爬虫学习笔记（2）

python网络爬虫学习笔记

Python 爬虫学习笔记1

Python 爬虫学习笔记2

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)