爬虫----初级概念的架构

每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。

首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:

网页---》爬虫处理---》保存;

只要将这三个部分处理好了,爬虫也就会了。(基于python语言)

然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:

1. 对网页结构要有足够的理解-----熟悉HTML语言

2.获取网页信息工具:requests包(python包)

import requests

variable = requests.get(url)

3.处理网页信息工具:BeautifulSoup(python包)

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具(待续)

5.代码编辑器(pycharm)

猜你喜欢

转载自www.cnblogs.com/cittysteven/p/10421222.html