1、第二关网页查看
多页爬取
2、第二关答案
import requests
from bs4 import BeautifulSoup
headers = {
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36",
#参考图1,自己填
"Cookie": ""
}
#最后的总数
sum = 0
def getSum(response):
#引入全局变量sum
global sum
#解析
data = BeautifulSoup(response.text, "lxml")
#参考图2
#获取全部class值为col-md-1的div标签,然后遍历
div_list = data.find_all(class_="col-md-1")
for div in div_list:
d = BeautifulSoup(str(div), "lxml")
#取得文本值,并去掉前后空格
num = d.text.strip()
sum += int(num)
#开始
if __name__ == '__main__':
#采用for循环,爬取1000数据
#这个方法有点慢,如果有会多线程爬虫的小伙伴可以使用多线程爬取
for i in range(1000):
print("第"+str(i+1)+"页")
url = "http://glidedsky.com/level/web/crawler-basic-2?page=" + str(i+1)
response = requests.get(url=url, headers=headers)
getSum(response)
print(sum)
闯关成功!!!
3、图片辅助分析
图1
图2
博主会持续更新,有兴趣的小伙伴可以点赞、关注和收藏下哦,你们的支持就是我创作最大的动力!
博主开源Python爬虫教程目录索引(宝藏教程,你值得拥有!)