python爬虫-入门-了解爬虫 - 代码天地

python爬虫-入门-了解爬虫

其他 2019-04-23 22:28:00 阅读次数: 0

作为一个爬虫新手，我觉得首先要了解爬虫是的作用以及应用。

作用：通过爬虫获取网页内的信息。包括：标题（title）图片（image）链接（url）等等

应用：抽取所需信息，进行数据汇总及分析（从事网页测试、数据分析工作很容易用到）

然后，了解一下爬虫前需要获取哪些信息。

1.哪些网站爬取时有哪些限制

检查robots文件，

user-agent:　　Badcrawler 禁止用户代理Badcrawler　　　　user-agent　　·　　　允许用户代理访问

crawl-delay：　　5　　用户代理在两次下载请求间给出5s抓取延迟

Disallow： /trap　　禁止访问/trap链接，如果访问此链接会禁止访问端的访问权限

Sitemap： http://example.webscraping.com/sitemap.xml　　定义了一个文件Sitemap（网站地图）

2.检查网站地图

通过Sitemap文件可以帮爬虫定位最新的内容，而无需爬取每一个网页。当然，这个文件也会存在缺失，过期等不完整问题

3.估算网站大小（这个比较复杂，暂时没看明白）

估算网站的大小，使用正确的方法

4.了解网站所用的技术及网站所有者


#导入检查网站结构的技术类型模块
import builtwith
#导入协议或域名查询模块
import whois
parse = builtwith.parse('http://example.webscraping.com')
print(parse)
添加 builtwith 以及 whois 库

猜你喜欢

转载自www.cnblogs.com/xiaochige/p/10759371.html

python爬虫-入门-了解爬虫

Python爬虫入门之爬虫基础了解

Python爬虫入门：爬虫基础了解

Python爬虫入门二之爬虫基础了解

python爬虫基础了解

了解python爬虫框架

python爬虫的简单了解

1，爬虫入门之爬虫基础了解

[网络爬虫]入门篇-对爬虫的了解

分分钟了解Python爬虫

初步了解python爬虫（摘录）

简单了解Python网络爬虫

python 爬虫入门

python-爬虫入门

python爬虫入门(解析)

(转载)python爬虫入门

Python爬虫入门：综述

python爬虫入门

python爬虫_入门_翻页

python　爬虫入门

python 爬虫入门

Python爬虫入门项目

python爬虫入门（1）

怎样入门python爬虫？

Python爬虫入门指导

Python爬虫入门笔记

Scrapy Python爬虫入门

【Python爬虫】入门知识

python网络爬虫入门

python 爬虫入门解析

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)