爬虫福利：教你爬wap站 - 代码天地

爬虫福利：教你爬wap站

编程语言 2018-10-30 14:21:08 阅读次数: 0

前言：

玩过爬虫的朋友应该都清楚，爬虫难度：www > m > wap （www是PC端，m和wap是移动端，现在的智能手机一般用的是m站，部分老手机用的还是wap），原因也很简单，现在的网站越来越多地使用AJAX加载，反爬虫机制也厉害。而像wap这种移动端网站限制比较小，网页结构也简单，我们获取、解析起来都简单很多，理论上速度也会快很多。所以如果允许的话我们尽量采用wap站抓取。
wap爬虫

正文：

可能很多刚接触爬虫的朋友也想从wap爬取，但不知道怎么做。例如用PC端浏览器打开 weibo.cn 在登录的时候会自动跳回m域名网站，甚至用requests打开网页时会返回403错误。
这是因为网站服务器会根据你的浏览器表头判断你是从哪个平台发送的请求，识别到PC端的请求会给你作相应处理。所以我们只需要修改一下浏览器表头（User-Agent）即可。

如果是爬虫程序，只需要带上旧版手机浏览器的User-Agent即可（例如：”Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1”）。

然而我们只看程序返回的response内容并不舒爽，我们还想在PC端用浏览器模拟手机浏览器那样打开网页，怎么办？
我们只需要把PC浏览器的User-Agent改成手机的User-Agent即可。
例如我用的是Chrome50，修改浏览器的User-Agent有两种办法：一种是安装一个插件——User-agent Switcher，另一种是直接修改浏览器的表头（仅当前页面有效）。

User-agent Switcher插件：

直接修改浏览器的User-Agent：
Chrome修改User-Agent

PS：

就新浪微博而言，打开一个微博用户的个人首页，wap站直接返回一个HTML文件，并不需要加载JS和CSS，而且格式、编码都很正常；而m站返回的内容格式比较混乱，用xpath解析不了（也有可能是我的程序有问题），而且使用的是Unicode编码格式。
之前爬虫一直在爬PC站，第一次看到m站返回来的内容时，竟有一种莫名的喜悦和冲动，哈哈。。在此特地分享出来，大家感受一下。

转载请注明出处，谢谢！（原文链接：http://blog.csdn.net/bone_ace/article/details/50814101）

猜你喜欢

转载自blog.csdn.net/Bone_ACE/article/details/50814101

爬虫福利：教你爬wap站

Python爬虫教你爬取视频信息

Python爬虫教你爬取视频内容

Python教你爬取某站视频弹幕，并绘制词云图（内含完整源码）

你会爬虫吗,我来教你爬海关蜀黍

大神教你如果学习Python爬虫如何才能高效地爬取海量数据

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

手把手教你利用爬虫爬网页（Python代码）

零基础爬虫requests初阶教程，手把手教你爬数据

爬虫爬取b站弹幕方法

【爬虫】爬取B站小黑屋

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python资料）

不会Python爬虫？教你一个通用爬虫思路轻松爬取网页数据

不会Python爬虫？教你一个通用爬虫思路轻松爬取网页数据，赶紧收藏！！

听说你玩爬虫爬妹子时老被封ip？教你搭建一个ip代理池！想爬就爬

python实现顺序结构基本爬虫，爬取福利图片

教你写只爬虫

以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

Python项目实战：带领你爬取sexy的福利图片

手把手教你用Node.js爬虫爬取网站数据

Python爬虫案例1：手把手教你爬取豆瓣TOP250电影各种信息

爬虫实战-手把手教你爬豆瓣电影 | 附详细源码和讲解

超详细的python爬虫破解反爬技术，手把手教你破解滑动验证码

Python爬虫实战：手把手教你爬取农产品数据（附代码）

Scrapy爬虫实战｜手把手教你使用CrawlSpider框架爬取数码宝贝全图鉴

不懂抓包也能做APP爬虫？1招教你爬取抖音流行歌名

教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇

【Python爬虫】项目案例讲解，一步步教你爬取淘宝商品数据！

Python教你在线爬“图片“

手把手教你用python爬虫带你玩转日系P站，超详细教学

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)