必应壁纸爬取 - 代码天地

必应壁纸爬取

其他 2018-10-31 09:21:22 阅读次数: 0

import os
import re
import urllib.request

import requests

def get_one_page(url):
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
    response = requests.get(url,headers = headers)
    if(response.status_code == 200):
        return response.text
    return None

def download(url,filename):
    filepath = 'F:\大三暑假\爬虫课程\猫眼电影\必应壁纸\\'+ filename + '.jpg'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
    if os.path.exists(filepath):
        return
    with open(filepath,'wb')as f:
        req = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(req)
        f.write(response.read())

def parse(html):
    pattern  = re.compile('data-progressive="(.*?)".*?<h3>(.*?)</h3>')
    items = re.findall(pattern,html)
    for item in items:
        try:
            url = item[0].replace('800','1920').replace('480','1080')
            imagename = item[1].strip()
            rule = re.compile(r'[a-zA-z1-9()-/]')
            imagename = rule.sub('', imagename)
            download(url,imagename.strip())
            print(imagename,"正在下载")
        except Exception:
            continue




if __name__ == '__main__':
    for page in range(1,73):
        url = 'https://bing.ioliu.cn/ranking?p='+str(page)
        print("正在抓取第", page, "页" ,url)
        html = get_one_page(url)
        parse(html)

遇到问题包括

1.urllib.error.HTTPError: HTTP Error 403: Forbidden

添加headers可以解决

2.FileNotFoundError: [Errno 2] No such file or directory

原因是文件名太长了，缩短一下就可以了

猜你喜欢

转载自blog.csdn.net/sinat_33487968/article/details/80979249

必应壁纸爬取

python 爬取必应每日图片

爬取壁纸网站图片

python 爬取汽车壁纸

爬取美少女壁纸

爬取彼岸壁纸

爬取LOL壁纸图片

爬虫 -- 必应壁纸

Python爬取动态加载的壁纸网站（高清壁纸福利）

PYTHON爬虫——必应图片关键词爬取

网页图片爬虫工具——从谷歌必应上爬取图片

python爬虫学习---爬取微软必应翻译（中英互译）

利用Scrapy爬取壁纸图片

python爬取Clash Royale高清壁纸

爬取小鸟高清美女壁纸

爬虫爬取大量高清壁纸图片

Python：王者荣耀壁纸爬取

python爬虫爬取wallpapers最新壁纸

使用xpath爬取壁纸图片

Java爬取王者荣耀英雄壁纸

爬虫爬取桌面壁纸

python爬取超高清壁纸

Playwright爬取王者荣耀壁纸

js混淆爬取小姐姐壁纸

python爬取壁纸图片到本地

【Python】爬虫抓取必应壁纸

java 必应壁纸批量下载

bing必应壁纸下载器

爬取静态壁纸网站实现批量下载

JAVA爬虫多线程高速爬取高清电脑壁纸

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)