爬取斗图网的图片

其他 2019-04-20 13:11:00 阅读次数: 0

单线程爬取斗图网的图片

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from urllib.request import urlretrieve
import lxml,urllib
from lxml import etree
import os
#基本url
BASE_URL = 'https://www.doutula.com/photo/list/?page='
#获取每一页的url
PAGE_URLS = []
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'
}
#下载每一页的图片
def get_down_image(url,index):
    filename = url.split('/')[-1]
    # print(index)
    os.makedirs('./images/page{}_image/'.format(index), exist_ok=True)#创建一个文件夹
    filename = filename.split('!')[-2]
    path = os.path.join('images/page{}_image'.format(index),filename)
    urlretrieve(url,filename=path)#下载图片

#获取每一个图片的url
def get_image_urls(url,index):
    response = requests.get(url,headers=headers)
    context = response.text
    html = etree.HTML(context)
    # soup = BeautifulSoup(context,'lxml')
    image_urls = html.xpath("//div[@class='page-content text-center']//img/@data-original")
    # print(context)
    for image_url in image_urls:
        # print(image_url)
        get_down_image(image_url,index)

#获取每一页url
def get_urls_list():
    for x in range(5):
        url = BASE_URL+str(x)
        PAGE_URLS.append(url)
    return PAGE_URLS

def main():
    urls = get_urls_list()
    for index,url in enumerate(urls):
        get_image_urls(url,index)
        # break

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/henusyb/article/details/89415577

爬取斗图网的图片

shell爬取斗图网

多线程爬取斗图图片

Python 爬取斗图啦图片

Python项目实战:爬取斗图网表情包图片

斗图网斗图全站爬取（用正则表达式re）

爬取斗图网表情包之后斗图会输？不存在的

Python 爬取图虫网图片

python爬取斗图网中的 “最新套图”和“最新表情”

斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！

Python爬取斗图网站

scrapy-爬取斗图

多线程爬取斗图啦

用Python多线程实现生产者消费者模式爬取斗图网的表情图片

Python--爬虫之(斗图啦网站)图片爬取

spider_爬取斗图啦所有表情包（图片保存）

爬虫项目：scrapy爬取昵图网全站图片

Python爬取千图网PS素材图片

python爬虫：爬取斗图啦数据

python 爬取表情包——斗图啦

Python-爬取斗图啦网站

python爬取网图

花瓣网图片爬取

妹子图图片爬取

糗图-图片爬取

Python爬取斗图表情，让你成为斗图大佬

斗图网爬虫

天堂图片网图片爬取

千图网_性感美女图片爬取--图片懒加载

python网络数据抓取三（斗图网图片抓取）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)