Python 爬取斗图啦图片 - 代码天地

Python 爬取斗图啦图片

其他 2019-01-04 16:38:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/mazaiting/article/details/85002595

斗图啦

requests

BeautifulSoup4

代码

# -*- coding:utf-8 -*-
# pip install requests 框架
import requests
# pip install beautifulsoup4 框架
# pip install lxml 解析器
from bs4 import BeautifulSoup
import os

class doutuSpider(object):
    headers = {
        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"
    }

    def get_url(self, url):
        data = requests.get(url, headers=self.headers)
        soup = BeautifulSoup(data.content, 'lxml')
        totals = soup.findAll("a", {"class": "list-group-item"})
        for one in totals:
            sub_url = one.get('href')
            global path
            path = 'E:\\img' + '\\' + sub_url.split('/')[-1]
            os.mkdir(path)
            try:
                self.get_img_url(sub_url)
            except:
                pass
            pass
        pass

    def get_img_url(self, url):
        data = requests.get(url, headers = self.headers)
        soup = BeautifulSoup(data.content, 'lxml')
        totals = soup.findAll('div', {'class': 'artile_des'})
        for one in totals:
            img = one.find('img')
            try:
                sub_url = img.get('src')
            except Exception as e:
                raise e
            finally:
                urls = sub_url
            try:
                self.get_img(urls)
            except:
                print urls
                pass
            pass
        pass

    def get_img(self, url):
        filename = url.split('/')[-1]
        global path
        img_path = path + '\\' + filename
        img = requests.get(url, headers = self.headers)
        try:
            with open(img_path, 'wb') as f:
                f.write(img.content)
        except:
            pass
        pass

    def create(self):
        for count in range(1,10):
            url = 'https://www.doutula.com/article/list/?page={}'.format(count)
            print 'download {} page'.format(count)
            self.get_url(url)
            pass
        pass

if __name__ == '__main__':
    doutu = doutuSpider()
    doutu.create()

猜你喜欢

转载自blog.csdn.net/mazaiting/article/details/85002595

Python 爬取斗图啦图片

Python--爬虫之(斗图啦网站)图片爬取

python爬虫：爬取斗图啦数据

python 爬取表情包——斗图啦

Python-爬取斗图啦网站

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

Python爬取斗图网站

Python爬取斗图啦，妈妈再也不会担心我无图可刷了

Python项目实战:爬取斗图网表情包图片

Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

Python爬虫入门教程第十三讲：斗图啦表情包多线程爬取

python多线程爬虫+批量下载斗图啦图片

Python爬取斗图表情，让你成为斗图大佬

多线程爬取斗图啦

python 采集斗图啦xpath

Python 爬取图虫网图片

python爬取斗图网中的 “最新套图”和“最新表情”

python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）

斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！

python 斗图图片爬虫

用Python多线程实现生产者消费者模式爬取斗图网的表情图片

python3爬虫 -----爬取斗图息-------www.doutula.com

Python 爬取表情包-斗图不会输在起跑线

斗图高手教你用Python批量爬取表情包

spider_爬取斗图啦所有表情包（图片保存）

多线程爬取斗图图片

爬取斗图网的图片

最新用Python 批量爬取网上美眉图片（其实其他的图片也可以啦！）

python爬取图

PYTHON 2.7爬虫获取斗图啦网站的表情包数据（区分gif和jpg图片格式）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)