我要更多好玩的表情包——python3实现简单循环抓取并下载图片(二)

其他 2020-02-05 13:56:44 阅读次数: 0

一、项目简介

1.内容：抓取斗图啦的表情包保存在本地

2.解析：xpath

3.涉及类库：lxml、requests

二、代码

# python
# -*- coding:utf-8 -*-
# author:Only time:2019/8/19


import requests
from lxml import etree


def get_url():
    urllist = []
    for url in range(1,3):
        URL = 'https://www.doutula.com/photo/list/?page=' + str(url)
        urllist.append(URL)
    return urllist


def url_html_parse_save():

    header = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
    }
    number = 0
    for url in get_url():
        number += 1
        response = requests.get(url,headers=header)
        print(response.status_code)
        response = response.text

        html = etree.HTML(response)
        divs = html.xpath('//div[@class="page-content text-center"]//a')

        for div in divs:
            name = div.xpath('.//p/text()')[0]
            img = div.xpath('.//img[@referrerpolicy="no-referrer"]/@data-original')[0]
            print(name)
            image = requests.get(img).content  # 照片的二进制编码

            with open('./图片/%s.jpg' % name, 'wb') as f:
                f.write(image)
        print('第'+str(number)+'页保存成功')


def run():
    url_html_parse_save()


if __name__ == "__main__":
    run()

三、运行结果

发布了22 篇原创文章 · 获赞 18 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43930694/article/details/99779608

我要更多好玩的表情包——python3实现简单循环抓取并下载图片(二)

python3实现简单循环抓取并下载图片(一)

python3 简单抓取图片2

python简单循环

Python爬虫:抓取表情包的下载链接

python3破解ajax 实现抓取百度靓照并循环下载在本地（三）

Python中的简单循环

Python3简单爬虫抓取网页图片

socket实现TCP简单循环通信（Python）

python3实现简单图片爬虫

基于python3 抓取贴吧图片与评论图片下载保存

Python3爬虫图片抓取

Python3 抓取网页中的图片

python的简单循环和判断！

循环神经网络（二）（简单循环神经网络，keras 实现）

简单循环

爬虫有多好玩？所见即所爬！抓取网页、图片、文章！无所不爬！

Python BeautifulSoup抓取表情包并保存

使用python实现简单网页图片抓取

女同桌找我要表情包，还好我会Python，分分钟给她下载几十个G...

简单循环数组实现固定长度的队列——java

python3网页抓取与下载文件

python简单循环生成器

Python3 多线程下载图片

AMS简单循环Toast

简单循环网络SRN

Python3 爬虫（一）-- 简单网页抓取

数据结构（Python）-单循环链表实现

python3实现抓取网页资源的 N 种方法

python3 爬虫第二步Selenium 使用简单的方式抓取复杂的页面信息

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)