Python——爬虫

爬虫基本操作

在这里插入图片描述

*基本流程
目标数据
来源地址
结构分析
实现构思
操刀编码
*基本手段
破解请求限制
请求头控制
控制请求书频率(根据实际情景)
IP代理
签名/加密参数从html/cookie/js分析
破解登录授权
请求带上用户cookie信息
破解验证码
简单的验证码可以使用识图验证码第三方库
*解析数据
HTML Dom解析
正则匹配,通过的正则表达式来匹配想要爬取的数据,如有些数据不是在html标签里,而是在html的script标签的js变量中。
使用第三方库解析html dom,比较喜欢类jquery
数据字符串
正则匹配(根据场景使用)
转JSON/XML 对象进行解析
反爬虫的手段
合法检测:请求效验(useragent,referer,接口加签名,等)
小黑屋:IP/用户限制请求评率,直接拦截。
投毒:返回虚假的数据给爬取者。、
Python爬虫
涉及模块包
请求:
urllib
requests
多线程:
threading
正则:
re
json解析:
json
html dom 解析
beautiful soup
lxml:
xpath
操作浏览器

PS: 欢迎补充和指正

发布了19 篇原创文章 · 获赞 3 · 访问量 3475

猜你喜欢

转载自blog.csdn.net/qq_43544005/article/details/89333306