python之网络爬虫篇

背景:

  1. 几乎每一个网站都有一个名为robots.txt的文档,例如www.taobao.com/robots.txt,用于判断是否禁止访客获取数据。可以直接在IE或chrome输入https://www.***.***/robots.txt,即可查看其内容。
  2. 一般的网页由三部分组成:HTML(相当于人体的骨架),CSS(层叠样式表,定义了网页元素的颜色、样式等),Jscript(脚本语言,表示人的技能,实现与客户交互)
  3. 网络爬虫原理:通过requests库的get/post方式,来获取网页内容。

操作:

(1)在pycharm中安装requests包:File->setting->project interpreter->+,安装requests包

(2) get方法如下:

import requests

url = 'http://www.***.com/'

html = requests.get(url)

print(html.text)

(3)如果用的post方法,因为其返回的往往是动态数据(数据返回格式是jason),需要传递一定的参数(如登录名或查询关键字等),因此需要先用浏览器的“开发者模式”(IE用快捷键F12),查看URL及request methods.

import requests
import json
response = requests.post(url, data=payload)
content = json.loads(reponse.text)
print(content)

对于json格式数据,可以用beautiful soup库进行分析。json数据格式类似于字典,是由key和data组成的数据对。

猜你喜欢

转载自blog.csdn.net/bennyfun79/article/details/125798817