1.Urllib2模块使用

网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。

Urllib2介绍：

urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)

urllib2 官方文档：https://docs.python.org/2/library/urllib2.html

urllib2 源码：https://hg.python.org/cpython/file/2.7/Lib/urllib2.py

urllib2 在 python3.x 中被改为urllib.request

1.urlopen

import urllib2　　　　　　　　　　　　　　　　　　　　　　　　 #导入urllib2 库

response = urllib2.urlopen("http://www.baidu.com")　　　 #向指定的url发送请求，并返回服务器响应的类文件对象
html = response.read()　　　　　　　　　　　　　　　　　　　　 #类文件对象支持文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
print html　　　　　　　　　　　　　　　　　　　　　　　　　　　 #打印字符串

2.Request

urlopen()的参数就是一个url地址；

若需执行复杂操作，须创建 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

import urllib2

request = urllib2.Request("http://www.baidu.com")　　　　#url 作为Request()方法的参数，构造并返回一个Request对象
response = urllib2.urlopen(request)　　　　　　　　　　　　 #Request对象作为urlopen()方法的参数，发送给服务器并接收响应
html = response.read() print html

　　Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：

1. data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式。
2. headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。

3.User-Agent

浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步，就是需要伪装成一个被公认的浏览器但是如果我们用一个合法的身份去请求别人网站，即User-Agent头。

import urllib2

url = "http://www.itcast.cn"

# IE 9.0 的 User-Agent，包含在 ua_header里
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 

# url 连同 headers，一起构造Request请求，这个请求将附带 IE9.0 浏览器的User-Agent
request = urllib2.Request(url, headers = ua_header)

# 向服务器发送这个请求
response = urllib2.urlopen(request)

html = response.read()
print html


添加更多的Header信息

在 HTTP Request 中加入特定的 Header，来构造一个完整的HTTP请求消息。

可以通过调用Request.add_header() 添加/修改一个特定的header 也可以通过调用Request.get_header()来查看已有的header。

添加一个特定的header
# urllib2_headers.py

import urllib2

url = "http://www.itcast.cn"

#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = header)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("Connection", "keep-alive")

# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")

response = urllib2.urlopen(req)

print response.code     #可以查看响应状态码
html = response.read()

print html

添加/修改User-Agent

# urllib2_add_headers.py

import urllib2
import random

url = "http://www.itcast.cn"

ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]

user_agent = random.choice(ua_list)

request = urllib2.Request(url)

#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)

# 第一个字母大写，后面的全部小写
request.get_header("User-agent")

response = urllib2.urlopen(req)

html = response.read()
print html

urllib2默认只支持HTTP/HTTPS的`GET`和`POST`方法

urllib.urlencode()

urllib 和 urllib2 都是接受URL请求的相关模块，但是提供了不同的功能。两个最显著的不同如下：

urllib 仅可以接受URL，不能创建设置了headers 的Request 类实例；

但是 urllib 提供 urlencode 方法用来GET查询字符串的产生，而 urllib2 则没有。（这是 urllib 和 urllib2 经常一起使用的主要原因）

编码工作使用urllib的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib的unquote()函数。（注意，不是urllib2.urlencode() )

一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中

3.Get方式

　　GET请求一般用于我们向服务器获取数据。

 1 简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。
 2 
 3 先写一个main，提示用户输入要爬取的贴吧名，并用urllib.urlencode()进行转码，然后组合url，假设是lol吧，那么组合后的url就是：http://tieba.baidu.com/f?kw=lol
 4 # 模拟 main 函数
 5 if __name__ == "__main__":
 6 
 7     kw = raw_input("请输入需要爬取的贴吧:")
 8     # 输入起始页和终止页，str转成int类型
 9     beginPage = int(raw_input("请输入起始页："))
10     endPage = int(raw_input("请输入终止页："))
11 
12     url = "http://tieba.baidu.com/f?"
13     key = urllib.urlencode({"kw" : kw})
14 
15     # 组合后的url示例：http://tieba.baidu.com/f?kw=lol
16     url = url + key
17     tiebaSpider(url, beginPage, endPage)
18 接下来，我们写一个百度贴吧爬虫接口，我们需要传递3个参数给这个接口， 一个是main里组合的url地址，以及起始页码和终止页码，表示要爬取页码的范围。
19 def tiebaSpider(url, beginPage, endPage):
20     """
21         作用：负责处理url，分配每个url去发送请求
22         url：需要处理的第一个url
23         beginPage: 爬虫执行的起始页面
24         endPage: 爬虫执行的截止页面
25     """
26 
27 
28     for page in range(beginPage, endPage + 1):
29         pn = (page - 1) * 50
30 
31         filename = "第" + str(page) + "页.html"
32         # 组合为完整的 url，并且pn值每次增加50
33         fullurl = url + "&pn=" + str(pn)
34         #print fullurl
35 
36         # 调用loadPage()发送请求获取HTML页面
37         html = loadPage(fullurl, filename)
38         # 将获取到的HTML页面写入本地磁盘文件
39         writeFile(html, filename)
40 我们已经之前写出一个爬取一个网页的代码。现在，我们可以将它封装成一个小函数loadPage，供我们使用。
41 def loadPage(url, filename):
42     '''
43         作用：根据url发送请求，获取服务器响应文件
44         url：需要爬取的url地址
45         filename: 文件名
46     '''
47     print "正在下载" + filename
48 
49     headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
50 
51     request = urllib2.Request(url, headers = headers)
52     response = urllib2.urlopen(request)
53     return response.read()
54 最后如果我们希望将爬取到了每页的信息存储在本地磁盘上，我们可以简单写一个存储文件的接口。
55 def writeFile(html, filename):
56     """
57         作用：保存服务器响应文件到本地磁盘文件里
58         html: 服务器响应文件
59         filename: 本地磁盘文件名
60     """
61     print "正在存储" + filename
62     with open(filename, 'w') as f:
63         f.write(html)
64     print "-" * 20

View Code