爬虫实践：电影排行榜和图片批量下载（看的大佬的） - 代码天地

爬虫实践：电影排行榜和图片批量下载（看的大佬的）

编程语言 2019-04-07 16:20:52 阅读次数: 0

#爬取的网址：http://dianying.2345.com/top/
#电影的名字，主演，简介，和标题图
'''
爬取最新电影排行榜单
url：http://dianying.2345.com/top/
使用 requests --- bs4 线路
Python版本： 3.7
'''
import requests as rs
import bs4

def get_html(url):
    try:
        r=rs.get(url,timeout=30)#超时时间
        r.raise_for_status()#https://www.jianshu.com/p/159bea26f7b5判断网络状态是否正常
        r.encoding='gbk'#采用gbk编码
        return r.text
    except:
        return "出错"

def get_content(url):
    html=get_html(url)
    soup=bs4.BeautifulSoup(html,'lxml')#一个解析库；https://blog.csdn.net/zhangzejia/article/details/79658221
    # 找到电影排行榜的ul列表
    movies_list = soup.find('ul', class_='picList clearfix')
    movies = movies_list.find_all('li')

    for top in movies:
        # 找到图片连接，
        img_url = top.find('img')['src']

        name = top.find('span', class_='sTit').a.text
        # 这里做一个异常捕获，防止没有上映时间的出现
        try:
            time = top.find('span', class_='sIntro').text
        except:
            time = "暂无上映时间"

            # 这里用bs4库迭代找出“pACtor”的所有子孙节点，即每一位演员解决了名字分割的问题
            actors = top.find('p', class_='pActor')
            actor = ''
            for act in actors.contents:
                actor = actor + act.string + '  '
            # 找到影片简介
            intro = top.find('p', class_='pTxt pIntroShow').text

            print("片名：{}\t{}\n{}\n{} \n \n ".format(name, time, actor, intro))

            # 我们来吧图片下载下来：
            with open('image/' + name + '.png', 'wb+') as f:
                img_url2 ='http:'+ img_url#原文未加http，一定要加，不加报错
                f.write(rs.get(img_url2).content)
                print(img_url2)
                f.close()

def main():
    url = 'http://dianying.2345.com/top/'
    get_content(url)

if __name__ == "__main__":
    main()

猜你喜欢

转载自blog.csdn.net/honest_boy/article/details/89070643

爬虫实践：电影排行榜和图片批量下载（看的大佬的）

爬虫-1.4排行榜小说批量下载

python爬虫(电影排行榜)

Python爬虫实践 —— 6.豆瓣电影排行榜百top数据爬取

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

爬虫入门实践之图片爬虫

go爬虫实践获取图片

Python3爬虫入门实战系列（二）爬取猫眼电影排行榜

爬虫 - bilibili排行榜视频

python爬虫大学排行榜

python爬虫系列（1）：使用python3和正则表达式获取猫眼电影排行榜数据

python爬虫实践——爬取豆瓣电影

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜

用Scrapy爬虫爬取豆瓣电影排行榜数据，存储到Mongodb数据库

Python爬虫实战（四）：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

python爬虫实例--网易云音乐排行榜爬虫

python爬虫爬取酷狗音乐排行榜

Python爬虫实战：爬取全站小说排行榜

Python爬虫学习笔记之抓取猫眼的排行榜

爬虫 | cnblog文章收藏排行榜(“热门文摘”)

python 爬虫爬取网易新闻网易排行榜

Go语言小说排行榜爬虫实现

Python爬虫_福布斯排行榜_数据可视化

从零开始写Python爬虫 --- 1.5 爬虫实践：笔趣阁小说批量下载

爬虫实践--豆瓣电影当前上映电影信息爬取

Python 爬虫实践-豆瓣电影Top250（待续）

爬虫实践二--豆瓣top250电影

Python爬虫 BeautifulSoup库实践——保存网页图片

《PYTHON网络爬虫从入门到实践》pdf 附下载链接

Python爬虫收集今日热榜数据：聚合全网热点排行榜

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)