Glidedsky爬虫练习网站第二关详解

文章目录

25个爬虫项目宝藏教程，你值得拥有！

1、第二关网页查看

在这里插入图片描述

在这里插入图片描述
多页爬取

2、第二关答案

import requests
from bs4 import BeautifulSoup


headers = {
    
    
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36",
    #参考图1，自己填
    "Cookie": ""
}
#最后的总数
sum = 0


def getSum(response):
	#引入全局变量sum
    global sum
	#解析
    data = BeautifulSoup(response.text, "lxml")
    
    #参考图2
    #获取全部class值为col-md-1的div标签，然后遍历
    div_list = data.find_all(class_="col-md-1")
    for div in div_list:
        d = BeautifulSoup(str(div), "lxml")
        #取得文本值，并去掉前后空格
        num = d.text.strip()
        sum += int(num)


#开始
if __name__ == '__main__':
	#采用for循环，爬取1000数据
	#这个方法有点慢，如果有会多线程爬虫的小伙伴可以使用多线程爬取
    for i in range(1000):
        print("第"+str(i+1)+"页")
        url = "http://glidedsky.com/level/web/crawler-basic-2?page=" + str(i+1)
        response = requests.get(url=url, headers=headers)
        getSum(response)
    print(sum)