Python3 黑板客爬虫闯关第一关 - 代码天地

Python3 黑板客爬虫闯关第一关

其他 2018-12-28 03:12:03 阅读次数: 0

#coding=utf-8
import re
import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup

def getHtml(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'}  
        response = requests.get(url,headers = headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None
 
if __name__=='__main__':
    start_url = "http://www.heibanke.com/lesson/crawler_ex00/"
    real_url = start_url
    while 1:#while 1 的运行速度比while True 要快那么一点
        print ("当前请求页面:{}".format(real_url))
        html = getHtml(real_url)
        soup = BeautifulSoup(html,"lxml")
        source =soup.select_one('h3').text
        num = re.findall('\d+',source)
        if len(num) == 0:
            break
        real_url =  start_url + num[0]

考察点：url的拼接，BeautifulSoup库及正则表达式库的使用。

猜你喜欢

转载自blog.csdn.net/qq523176585/article/details/83019159

Python 黑板客爬虫闯关的第一关

Python3 黑板客爬虫闯关第一关

Python：黑板课爬虫闯关第一关

python 黑板课爬虫闯关-第一关

黑板客爬虫闯关第一关、第二关

Python3 黑板客爬虫闯关第三关

Python3 黑板客爬虫闯关第二关

Python黑板客爬虫闯关一

python-spider 第一关

glidedsky爬虫闯关第一关

第一关：初识爬虫 - 0入门到进阶（附练习题） | Python爬虫

【Codecomba Python 编程系列】KITHGARD 地牢第一关【第一关卡系列】

Python黑板客爬虫闯关三

Python黑板客爬虫闯关二

【Codecomba Python 编程系列】KITHGARD 地牢第二关【第一关卡系列】

Python：黑板课爬虫闯关第二关

python 黑板课爬虫闯关-第二关

python 黑板课爬虫闯关-第四关

XSS闯关之第一关

Python每日一练——数据存储第一关：读取XML节点和属性值的方法

第一关：print()函数 - 入门到进阶（附练习题） | Python基础语法

python3 爬虫

python3爬虫

第一关

python3爬虫（一）

GlideSky爬虫练习网站第一关详解

Cheat Engine进阶教程：gtutorial-i386闯关记第一关

python3 爬虫入门

python3爬虫入门

python3 的小爬虫

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)