python爬取豆瓣电影top250数据存入excel - 代码天地

python爬取豆瓣电影top250数据存入excel

其他 2019-08-14 06:49:20 阅读次数: 0

# -*- coding:utf-8 -*-
"""获取时光影评电影"""
import requests
from bs4 import BeautifulSoup
from datetime import datetime,timedelta
import pymysql
#xlwt-1.3.0
#from xlwt.xlwt import *
from xlwt import *
#获取指定开始排行的电影url
def get_url(root_url,start):
    return root_url+"?start="+str(start)+"&"

def get_review(page_url):

    """获取电影相关的信息"""
    movies_list = []
    reponse = requests.get(page_url)
    soup =BeautifulSoup(reponse.text,'lxml')
    soup = soup.find("ol","grid_view")
    dict ={}
    for tag_li in soup.find_all("li"):
        dict = {}
        dict['rank'] = tag_li.find("em").string
        dict['title'] = tag_li.find_all("span","title")[0].string
        dict['score'] = tag_li.find("span","rating_num").string
        if tag_li.find("span","inq"):
            dict['desc'] =tag_li.find("span","inq").string
        else:
            dict['desc'] = '无评词'

        movies_list.append(dict)
    return movies_list

def save_excel(movies_list):
    keys =""
    w = Workbook()
    ws = w.add_sheet("movies")
    for i in movies_list:
        keys = list(i.keys())


    for i in range(len(keys)):
        ws.write(0,i,keys[i])

    for movies in range(len(movies_list)):

        for key,value in movies_list[movies].items():

            keys = list(movies_list[movies].keys())
            #找到key的index
            ws.write(movies+1,keys.index(key),value)

        w.save("movies.xls")


if __name__ == '__main__':

    root_url = "https://movie.douban.com/top250"
    start =0
    movies_list =get_review(get_url(root_url,start))
    save_excel(movies_list)

猜你喜欢

转载自www.cnblogs.com/venvive/p/11349527.html

python爬取豆瓣电影top250数据存入excel

python爬取豆瓣电影top250数据存入数据库

Python爬取豆瓣电影Top250（数据保存到Excel中）

爬虫项目：requests爬取豆瓣电影TOP250存入excel中

Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

爬虫学习之11：爬取豆瓣电影TOP250并存入数据库

爬取豆瓣电影TOP250

Python3 爬取豆瓣图书Top250并存入Excel中

爬取豆瓣电影top250（python3）

python爬取豆瓣电影Top250

（十七）Python爬虫：爬取豆瓣电影TOP250

python爬虫--爬取豆瓣top250电影名

python爬取豆瓣电影Top250的信息

用Python爬取豆瓣Top250的电影标题

python 爬虫&爬取豆瓣电影top250

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

python 豆瓣top250电影的爬取

python爬虫入门 ✦ 爬取豆瓣电影Top250

python爬虫之爬取豆瓣电影top250

python爬取豆瓣电影Top250（小白系列）

python爬虫爬取豆瓣电影TOP250

python项目-爬取豆瓣top250电影信息

python爬虫——爬取豆瓣top250电影信息

Python 爬取豆瓣电影Top250

Python 豆瓣电影Top250爬取

爬虫练习-爬取豆瓣电影TOP250的数据

豆瓣Top250电影数据爬取学习

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

Python网络爬虫数据采集实战：豆瓣电影top250爬取

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)