如何通过网络爬虫获取网站数据 - 代码天地

如何通过网络爬虫获取网站数据

企业开发 2019-04-29 17:40:48 阅读次数: 0

我们知道，网络爬虫是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。那么，我们怎么通过网络爬虫获取所需要的网站信息呢？
不同的网站有不同的规则，爬虫工程师根据这些规则设计不同的网络爬虫，以此来顺利获取所需要的信息。
一、开放API的网站
一个网如果开放了API，那么就可以直接GET到它的json数据。有三种方法可以判断一个网站是否开放了API。
1、在站内寻找API入口；
2、用搜索引擎搜索“某网站API”；
3、抓包，有的网站虽然用到了ajax，但是通过抓包还是能够获取XHR里的json数据的（可用抓包工具抓包，也可以通过浏览器按F12抓包：F12-Network-F5刷新）。
二、不开放API的网站
1、如果网站是静态页面，那么可以用requests库发送请求，再通过HTML解析库（lxml、parsel等）来解析响应的text；解析库强烈推荐parsel，不仅语法和css选择器类似，而且速度也挺快，Scrapy用的就是它。
2、如果网站是动态页面，可以先用selenium来渲染JS，再用HTML解析库来解析driver的page_source。
三、反爬虫网站
很多网站都具有反爬虫策略，常见的有：验证码、登陆、限制IP等。
1、验证码。可以利用打码平台破解（如果硬上的话用opencv或keras训练图）；
2、登陆。利用requests的post或者selenium模拟用户进行模拟登陆；
3、限制IP。购买亿牛云代理IP（免费IP效果非常差，不建议使用）。

猜你喜欢

转载自blog.51cto.com/14201222/2386780

如何通过网络爬虫获取网站数据

网站是如何识别网络爬虫的？

Python 如何通过网络爬虫简单爬取“安居客”网站的租房信息

初识python爬虫 Python网络数据采集1.0 BeautifulSoup通过网站css爬取信息

爬虫(十)：AJAX、爬取AJAX数据一起学爬虫——如何爬取通过ajax加载数据的网站

一起学爬虫——如何爬取通过ajax加载数据的网站

通过爬虫，获取天气数据

通过网络爬虫采集大数据

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

数据获取的N种方式(网络爬虫)

如何通过数据进行网站分析

Flutter 通过API获取网络数据并解析

干货 | 爬虫如何快速获取大量数据

通过网站获取邮箱

如何通过网页获取该网站的js框架

python 爬虫,获取携程网站机票数据

初学爬虫之通过urllib库获取网页数据

网络爬虫——从网站中提取有用的数据

电商数据获取：网络爬虫还是付费数据接口？

通过Python实现一个简单的爬虫——获取掘金网站文章列表

python爬取网站数据，如何绕过反爬虫策略

爬虫如何通过HTML和CSS采集数据的？

网络爬虫--Jsoup的一些获取数据方法

网络爬虫获取地铁人流量数据

基于 Python 的网络爬虫：获取异步加载的数据

【python实现网络爬虫21】天眼查企业数据获取

实战爬虫：代码解析，轻松获取网络数据资源！

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例

实战：如何通过python requests库写一个抓取小网站图片的小爬虫

如何获取网站的Cookie

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)