Python爬虫--urllib

urllib包含模块:

       -urllib.request:打开和读取urls

       -urllib.error:包含urllib.request产生的常见的错误,使用try捕捉

       -urllib.parse:包含即系url的方法,把一些数据进行编码

       -urllib.robotparse:解析robots.txt文件

from urllib import request

if __name__ == '__main__':
    url="http://www.baidu.com"
    #打开相应的url并把相应页面作为返回
    html = request.urlopen(url)
    #把返回结果读取出来并解码成字符串
    res = html.read().decode()
    print(res)

这就是最简单的一个使用urllib爬取百度源码的爬虫

现在我们可以利用request和parse模块来做一个简单的搜索引擎

"""
简单易懂的搜索引擎
"""
from urllib import parse,request

url = "http://www.baidu.com/s?"
wd = input("请输入关键字:")

#弄成一个字典
qs = {
    "wd":wd
}
#使用urllib模块里面的parse把输入的文字编码,加密,成为电脑认识的形式
qs = parse.urlencode(qs)
#打印你输入的文字的编码
print(qs)

flag = url + qs
#打印你最终搜索的url
print(flag)

rsp = request.urlopen(flag)
html = rsp.read().decode()

#输出源码
print(html)

首先我们先把输出的文字进行编码,然后再把url和编码后的格式相接,再使用request获取源码,这就是一个简单的利用百度搜索了。

猜你喜欢

转载自blog.csdn.net/May_Xu_/article/details/83088879
今日推荐