网络爬虫 - 代码天地

网络爬虫

其他 2018-04-29 13:54:36 阅读次数: 2

1.爬虫流程图

2.简单爬虫整个网页的内容

--python2

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
html = response.read()
print(html)

3.中文乱码处理

# coding:utf-8
import re  
# import requests  
import sys  
import codecs
#python2
import urllib2

#设置编码  
reload(sys)  
sys.setdefaultencoding('utf-8')  
#获得系统编码格式  
type = sys.getfilesystemencoding()  

# response = urllib2.urlopen("http://www.baidu.com")
req=urllib2.Request("http://www.baidu.com")
response=urllib2.urlopen(req)
html = response.read().decode('utf-8').encode(type)  
print(html)

4. 伪装请求【伪装成浏览器】User-Agent头

# coding:utf-8

import sys
import urllib2
# 设置编码  
reload(sys)  
sys.setdefaultencoding('utf-8')  
# 获得系统编码格式  
type = sys.getfilesystemencoding()  

url = "http://www.baidu.com"
user_agent = "Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0;"

headers={
    'User-Agent':user_agent
}
req=urllib2.Request(url,headers=headers)
response = urllib2.urlopen(req)
html=response.read().decode("utf-8").encode(type)
print(html)

5. 解析网页内容

　　5.1 正则 import re

创建正则表达式对象：pattern = re.comple(' \d+\.\d+ '， re.S)

默认匹配没一行

re.S 整个文档

import re

pattern = re.compile("\d+\.\d+")

s1="1.234 dsa frwr 4235.324 432423"
rs = pattern.findall(s1)
print(rs)

r"dsa\dsf\sd" 将转义字符当做普通字符处理

　　5.2 DOM解析

猜你喜欢

转载自www.cnblogs.com/zhuxiang1633/p/8970919.html

网络爬虫练习之网络小说

网络安全——网络爬虫渗透测试

Python3——网络小说爬虫

探索网络世界：Python爬虫

Java网络爬虫（三）爬取网络小说

爬虫应用|基于网络爬虫技术的网络新闻分析

用PYTHON爬虫简单爬取网络小说

Python爬虫初级案例——爬取网络小说

python从爬虫基础到爬取网络小说实例

【Python爬虫】爬取网络小说（转）

Python 爬虫2例:爬网络小说

爬虫--计算机网络技术基础

【网络爬虫】爬取网络小说并保存为txt

网络工程师笔记--网络安全技术

【网络安全带你练爬虫-100练】第5练：爬虫的翻页操作+错误情况过滤

爬虫工程师和网络安全工程师的爱恨情仇

Python爬虫入门实战系列（一）--爬取网络小说并存放至txt文件

【Python3爬虫】网络小说更好看？十四万条书籍信息告诉你

python-网络安全编程第五天（爬虫模块BeautifulSoup）

利用pycharm(python)爬虫来下载一部网络小说

[网络安全学习篇37]：基于面向对象思想的Python爬虫实例

Python爬虫练习爬取网络小说保存到txt

山东创睦网络科技有限公司：爬虫

【网络安全带你练爬虫-100练】第13练：文件的创建、写入

SK5代理与IP代理：网络安全中的爬虫利器

SK5代理与网络安全：保障爬虫安全与效率的最佳选择

IP代理技术在网络安全与爬虫应用中的优势与挑战

深入探究 SOCKS5 代理：加强网络安全与高效爬虫的利器

【网络安全带你练爬虫-100练】第15练：模拟用户登录

Python爬虫异常处理心得：应对网络故障和资源消耗

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)